DEVELOPER’s BLOG

技術ブログ

文系学部2年生の私がコンペ初参加で「SIGNATE」上位8%に入った話(解法)

この記事では、3ヶ月前までデータサイエンスと無縁だった私が、 マイナビの家賃予測コンペで上位8%(スコア14953)に達した解法について紹介したいと思います。 始めまして、 アクセルユニバース株式会社、インターンの土井です。 ここで紹介するSIGNATEの解法は、私が始めて間もないこともあり、シンプルな解法ばかりです。 幅広いレベルの方の参考になれると思います。 コンペの概要 https://signate.jp/competitions/182 東京23

記事詳細
文系学部2年生の私がコンペ初参加で「SIGNATE」上位8%に入った話(解法)
機械学習
Kaggle初心者が「地震コンペ」をやってみた

目次 このブログの対象者 地震コンペの概要 私が地震コンペを始めた理由 Kaggle初心者が地震コンペをやるまで 地震コンペの情報収集 参考にするNotebookの解読 特徴量の作成 モデルの作成 結果 考察 今後 1. このブログの対象者 Kaggle初心者 Kaggle入門者用のTitanicや住宅価格コンペの次に挑戦したいが進め方に悩んでいる人 地震コンペ(LANL Earthquake Prediction)のような時系列の信号データの分析に興味を

記事詳細
Kaggle初心者が「地震コンペ」をやってみた
kaggle 機械学習
インタビュー記事:社内kaggle Expertのメダルまでの取り組み

アクセルユニバース株式会社(以下当社)では、人が対応している業務を画像認識、音声認識、文字認識等を活用して効率化する機械学習ソリューション開発をおこなっています。 インターン生はその一環としてkaggleコンペに挑戦しており、本日はkaggle Expertになった山口くんに取り組みをインタビューしました。 kaggleコンペに挑戦している方、これから機械学習の勉強を始める方は是非参考にしてください! 目次 山口くんの紹介 kaggleコンペ挑戦 kagg

記事詳細
インタビュー記事:社内kaggle Expertのメダルまでの取り組み
kaggle
画像セグメンテーションのためのU-net概要紹介

U-netとは U-netはFCN(fully convolution network)の1つであり、画像のセグメンテーション(物体がどこにあるか)を推定するためのネットワークです。 生物医科学(biomedical)の画像のセグメンテーションを行うために2015年に発表されました。 (論文URL : https://arxiv.org/abs/1505.04597) この記事では、まずU-netの中で行われている処理についてを1〜4章でまとめ、それらの組

記事詳細
画像セグメンテーションのためのU-net概要紹介
ニューラルネットワーク 機械学習 画像認識
非エンジニアに説明するための「画像認識とは」と4つの活用事例

現在、多くの業界でAI・機械学習の重要性が増加しています。 背景のひとつに労働人口の減少による人手不足があります。帝国データバンクの調査によると、「正社員不足」状態の企業は全体の50.3%を占めています。 人手不足も解消のためには、業務自体を削減すること、または業務を人から代替する必要があります。 ここでは人間の目の代わりとなり、判断をおこなう機械学習である画像認識技術を紹介します。 スタンフォード大の研究者らがAI関連の研究開発や経済、教育、各国の動向な

記事詳細
非エンジニアに説明するための「画像認識とは」と4つの活用事例
利用事例 機械学習 画像認識
【機械学習入門】Pythonで実装する時の第一歩(気象データで天気予測)

はじめに 最近天気が不安定で、急な雨が多くまいっています。(しかも冬の雨はツライ。) ついつい出かける時に傘を持たずに、夜、雨に降られることも多いですよね。 現在、Pythonを使った機械学習を勉強しているので、kaggleだけではなく、実際にテーマを決めて何か簡単な実装をしてみたいと思い、今回は気象庁のデータを使って ある日に雨が降っている or いないという2値の予測を実装をします。 自分で作ると愛着が湧いて、ちょくちょく予測して傘を忘れずに済むだろう

記事詳細
【機械学習入門】Pythonで実装する時の第一歩(気象データで天気予測)
利用事例 機械学習
Deep Learningに関するテクニック(parameter update)

はじめに ニューラルネットワークの学習の目的は、損失関数( loss function )の値をできるだけ小さくするようなパラメータを見つけることに他ならない。これは言い換えれば最適なパラメータを決定するという点で最適化問題に帰着されるが、ニューラルネットワークの最適化はそのパラメータの数の多さから大変複雑な問題として扱われる。 今回はSGD, Momentum, AdaGrad, Adamと呼ばれる4つのパラメータ更新手法を紹介し、最後にMNISTデータ

記事詳細
Deep Learningに関するテクニック(parameter update)
ニューラルネットワーク 機械学習
マーケティングに使われるクラスタリング分析k-meansクラスタリング編-

はじめに クラスタリングはマーケティング手法としても使われている。 見込み顧客へ適切な施策を行うために、似た顧客同士をカテゴリ分けする必要があり、それをセグメンテーションという。 セグメンテーションのために機械学習の手法としてクラスタリングが使用されている。 k-meansクラスタリング(以下、k-means法)は複数個のデータをcentroids(重点)からの距離に応じて、あらかじめ決めたk個のクラスタに分ける非階層クラスタリング、及び、ハードクラスタリ

記事詳細
マーケティングに使われるクラスタリング分析k-meansクラスタリング編-
クラスタリング 機械学習
【論文】

Attention は "Attention is all you need" (Vaswani et al, 2017)で一躍有名になった手法ですが、実はこの論文の前からあった概念です。今回はこのAttentionの技術について、またこの論文について解説していきたいと思います。 1 Attentionの概念 Attentionとは、「注意」とあるように、画像や文章の特定の部分に注意を向けるよう、学習させていく方法です。人間の場合を考えてみましょう。私たち

記事詳細
【論文】"Attention is all you need"の解説
機械学習 論文解説
最初に学ぶ クラスタリングの特徴と種類

クラスタリングとは  クラスタリングとは、異なる性質を持った多くのデータから類似性を見て自動的に分類する、機械学習の教師なし学習における手法のこと。(複数のコンピュータを連動させることにより、1台のコンピュータとして利用できるようにする技術を言うこともある)  マーケティングでは、顧客層の特性分析や店舗取り扱い商品の構成分析に利用されており、多くの顧客や商品を分類し、どのような顧客が多いのかを明確にし、ターゲットを決定する。  クラスタリングとクラス分類は

記事詳細
最初に学ぶ クラスタリングの特徴と種類
クラスタリング 機械学習
最初に学ぶ ニューラルネットワークの特徴と利用例

ニューラルネットワークとは  ニューラルネットワークとはAI (人工知能)のうちの一つ。また、AIの一つである機械学習のうちの一つでもある。(図1)また、人間の脳内にある神経細胞(ニューロン)とそのつながり、つまり神経回路網を数理モデル化したもの。(図2) (図1)  ニューラルネットワークを構成している最小単位は、パーセプトロン(単純パーセプトロン)という。パーセプトロンとは、複数の入力に対して1つの値を出力する関数のこと。パーセプトロンへの入力値を(X

記事詳細
最初に学ぶ ニューラルネットワークの特徴と利用例
ニューラルネットワーク 機械学習
単回帰分析における最小二乗法の解説

回帰分析とは 先ず回帰分析とは、あるp個の変数が与えられた時、それと相関関係のあるyの値を説明、予測することである。ここで変数xを 説明変数 、変数yを 目的変数と呼ぶ。p=1、つまり説明変数が1つの時を単回帰、またp>=2、つまり説明変数が2つ以上の時を重回帰と呼ぶ。 単回帰分析 今回はp=1と置いた 単回帰分析 について説明する。 このとき、回帰式は y=ax+b(a,bは 回帰係数 と呼ばれる)となり直線の形でyの値を近似(予測)できる。 単回帰分析

記事詳細
単回帰分析における最小二乗法の解説
回帰 機械学習
RNNとLSTM(Long Short Term Memory)の違いと特徴

LSTM(Long Short Term Memory)は音声認識など、様々な場面で使われるモデルなのですが、意外と歴史のあるモデルでもあります。今はattention等に押されている感はありますが、通常のRNNを大きく改善したと呼ばれる、学ぶ価値のあるモデルです。ここでは、RNNとの違い、実際の仕組みを解説していきたいと思います。 1 RNN LSTMはRNNの一種ですが、通常のRNNが情報をそのまま次に引き継ぐのに対し、LSTMでは中間層を噛ませて次に

記事詳細
RNNとLSTM(Long Short Term Memory)の違いと特徴
ニューラルネットワーク 機械学習
Microsoft Azure Machine Learningで決定木アルゴリズムCARTを用いた性能評価

ここでは今は去りしデータマイニングブームで頻繁に活用されていた決定木について説明する。理論的な側面もするが、概念は理解しやすい部類であるので参考にしていただければと思う。 1 決定木(Decision Tree) 決定木とは木構造を用いて分類や回帰を行う機械学習の手法の一つで段階的にある事項のデータを分析、分離することで、目標値に関する推定結果を返すという方式である。データが木構造のように分岐している出力結果の様子から「決定木」との由来である。用途としては

記事詳細
Microsoft Azure Machine Learningで決定木アルゴリズムCARTを用いた性能評価
Azure Machine Learning 機械学習
Microsoft Azure Machine Learning でロジスティクス回帰を用いた Iris Two Class Dataの分類

はじめに  今回はロジスティック回帰についてやっていこうと思います。まずはロジスティック回帰の概要を説明して、最後には実際にAzureでiris(アヤメ)のデータでロジスティック回帰を使っていこうと思います。 勾配降下法  ロジスティック回帰でパラメータの値を決めるときに勾配降下法を用いるので、簡単に説明をしておきます。  勾配降下法は、ある関数J(w)が最小となるwを求める際に、あるwでの傾き(勾配)を求めて、降下の方向(傾きが小さくなる方)にwを更新し

記事詳細
Microsoft Azure Machine Learning でロジスティクス回帰を用いた Iris Two Class Dataの分類
Azure Machine Learning 回帰 機械学習
最初に学ぶ 2分類SVMモデルの基本

はじめに  今回は2分類SVMについて見ていきますが、数学や機械学習の知識があまりない方も全体のイメージを掴めるよう数式を使うことを極力避けました。ですので厳密には間違っている表記もイメージしやすいよう、わざと入れていることを始めに断っておきます。 SVMを数式を追ってしっかりと理解したいという方には物足りない内容になっていると思いますがご了承ください。 SVMとは  SVMとは、教師あり学習を用いるパターン認識モデルの一つで、回帰、分類両方につかうことが

記事詳細
最初に学ぶ 2分類SVMモデルの基本
回帰 機械学習
Microsoft Azure Machine Learning で分位点回帰を用いた飛行機遅延予測

分位点回帰は、普通の直線回帰とは少し変わった、特殊な回帰ですが、正規分布に従わないデータを処理する際、柔軟な予測をすることができる便利なモデルです。今回は、理論編・実践編に分けて、分位点回帰を解説していきたいと思います。 理論編 1.回帰 回帰とはデータ処理の方法の一つで、簡単に言うとデータを予測するモデルを作る際に、「モデル化=簡略化」に伴う損失を最小限にすることです。そしてこの「損失」を定量化するためにモデルごとに様々な「損失関数」を定義します。「損失

記事詳細
Microsoft Azure Machine Learning で分位点回帰を用いた飛行機遅延予測
Azure Machine Learning 回帰 機械学習
Microsoft Azure Machine Learning でランダムフォレスト回帰を用いた人気ブログタイトル予測

様々な場面で使われるランダムフォレストですが、大きく分けると「ランダム」の部分と「フォレスト=森」の部分の2つに分けることができます。そこで今回は理論編でそれぞれの部分がどういう仕組みになっているのか、解説していきたいと思います。後半では、実践編と題して、実際のデータセットとMicrosoft Azureを用いてRandom Forest Regressionを一般的なLinear Regression (直線回帰) と比べてみたいと思います。 理論編 0

記事詳細
Microsoft Azure Machine Learning でランダムフォレスト回帰を用いた人気ブログタイトル予測
Azure Machine Learning 機械学習
ベイズ統計学の特徴と利用例(迷惑メール判別)

1,ベイズ統計学とは ベイズ統計学とは、ベイズの定理を基礎とした統計学の体系である。 2,他の統計学との相違 ベイズ統計学は標本を必ずしも必要とせず、母数が確率的に動くとみなす学問 記述統計学はデータを集計する手法を学ぶ学問 推計統計学は限られた標本のうち全体となる母集団の性質を推測する学問 3,ベイズ統計学の歴史 1700年頃、トーマス・ベイズによりベイズの定理が発表された。 後に、1800年代後半にベイズ統計の基礎ができた。 しかし、推計統計学論者のフ

記事詳細
ベイズ統計学の特徴と利用例(迷惑メール判別)
機械学習 統計学
判別分析の利用例 (模試の得点で合否判定)

1.判別分析の定義 判別分析とは、統計学上のデータ解析手法の一つである。 特定のグループに分かれているデータを元にどのような基準で判別されているか解析する。 そして、どちらのグループがA群に属され、B群に属されるかを予測する分析のことである。 2.判別分析の成り立ち 1936年にロナルドフィシャーによって線形判別分析が発表され、これを元に分析手法が発達した。 3.判別分析の例 1.医療診断  ・喫煙の有無により癌の発病を予測 ・検査結果から病気の有無の判別

記事詳細
判別分析の利用例 (模試の得点で合否判定)
分類 機械学習
クラスタリングの基本と特徴

1.クラスタリングの定義 クラスタリングとは、機械学習の目的物を分類する一つである。 与えられたデータを外的基準なしに自動的に分類する手法の事である。 簡単に言えば、データの集合体をカテゴリに分けることである。 2.クラスタリングの特徴 機械学習には教師あり学習と教師なし学習に大別される。 1.教師あり学習 人が正解を提示してそれを元に観測したデータから予測する事である。 2.教師なし学習 観測データのみを分析する。 クラスタリングは教師なし学習に分類され

記事詳細
クラスタリングの基本と特徴
クラスタリング 機械学習
最初に学ぶ 単回帰分析の概要

1.単回帰分析とは 回帰とは、統計学においてYが連続値の時にY=f(x)というモデルをあてはめる事である。 これにより二つの事項に関する相関関係などをを分析することができる。 2.単回帰分析の成り立ち 19世紀にフランシス・ゴルトンによって「回帰」という言葉が誕生した。 ゴルトンは、遺伝子学の研究において分析を行い、その際に身長と遺伝子の関係を回帰モデルを用いた事で後の統計学で使われる回帰モデルが発展した。 3.単回帰分析の例 例えば、都道府県の人口密度と

記事詳細
最初に学ぶ 単回帰分析の概要
回帰 機械学習
機械学習の理解を深めるニューラルネットワークの基本

1.ニューラルネットワークの定義 ニューラルネットワークとは、人間の脳内にある神経細胞(ニューロン)とそのつながり、 つまり神経回路網を人工ニューロンという数式的なモデルで表現したものである。 2.ニューラルネットワークの歴史 コンピューター科学の父であるアラン・チューリング氏によって様々な論文が出された。 その中の特に「チューリングテスト」によって第一次AIブームが到来し、 ニューラルネットワークの黄金時代を築くようになった。 3.ニューラルネットワー

記事詳細
機械学習の理解を深めるニューラルネットワークの基本
ニューラルネットワーク 機械学習
機械学習の理解を深めるランダムフォレストの基本

1.ランダムフォレストの定義 アルゴリズムで複数の決定木を使用して、「分類」または「回帰」をする、 機械学習の代表的なアルゴリズムのことである。 2.決定木とは 決定木とは、決定理論の分野において決定を行うためのグラフであり計画を 立案して目標を達成するために用いられる。 このグラフ(質問に対してyes or noと答える分岐グラフ)を見ると木のような 形をしていることから木構造であるといえる。 これが、決定木の名前の由来である。 3.決定木の種類 決定木

記事詳細
機械学習の理解を深めるランダムフォレストの基本
機械学習

お問い合わせはこちらから