【G 検定】教師あり学習
G 検定シラバス 2021 に基づき,教師あり学習に用いられる学習モデルを理解する。
線形回帰
線形回帰 (linear regression) は統計でも用いられる手法で,最もシンプルなモデルの 1 つと言ってよい。データ(の分布)があったときに,そのデータに最も当てはまる直線を考えるというものである。
ロジスティック回帰
線形回帰は回帰問題に用いる手法であるが,その分類問題版と言えるものが,ロジスティック回帰 (logistic regression) である。名前に「回帰」とついているが,回帰問題ではなく,分類問題に用いる手法である。ロジスティック回帰では,シグモイド関数という関数をモデルの出力に使う。
ランダムフォレスト
ランダムフォレスト (random forest) は決定木を用いる手法である。教師あり学習の手法は,結局のところ複数の特徴量(入力)をもとに予測結果を出力するわけなので,どの特徴量がどんな値になっているかを順々に考えていき,それに基づいて分岐路を作っていけば,最終的に 1 つのパターン(出力)を予測できるはずである。ここで作られる分岐路が決定木と呼ばれるものになる。
どういった分岐路をつくればいいかについては,データが複雑になればなるほど複数の組み合わせが考えられるが,ランダムフォレストでは特徴量をランダムに選び出す。すなわち,ランダムに複数の決定木が作られることになる。
また,学習に用いるデータも全データを使うのではなく,決定木に対してランダムに一部のデータを取り出して学習に用いる(これをブーストラップサンプリングという)。ランダムに選んだデータに対して,ランダムに決定木を複数作成するので,ランダムフォレストと言う。
ブースティング
ブースティング (boosting) もバギングと同様,一部のデータを繰り返し抽出し,複数のモデルを学習させるアプローチをとる。バギングとの違いは,複数のモデルを一気に並列に作成するか(バギング),逐次的に作成するか(ブースティング)になる。
サポートベクターマシン (SVM)
サポートベクターマシン (Support Vector Machine) は SVM とも呼ばれ,高度な数学的理論に支えられた手法であるために,ディープラーニングが考えられる以前は機械学習において最も人気のあった手法の 1 つであった。コンセプトは非常に明快で,(入力に用いる)異なるクラスの各データ点との距離が最大となるような境界線を求めることで,パターン分類を行うというものである。この距離を最大化することをマージン最大化と言う。
ニューラルネットワーク
ニューラルネットワーク (neural network) は,人間の脳の中の構造を模したアルゴリズムである。人間の脳にはニューロンと呼ばれる神経細胞が何十億個と張り巡らされており,これらのニューロンは互いに結びつくことで神経回路という巨大なネットワークを構成している。
ニューラルネットワークはこのニューロンの特徴を再現できなかと試した手法である。
自己回帰モデル (AR)
自己回帰モデル (autoregressive model) は一般的に回帰問題に適用される手法であるが,対象とするデータに大きな特徴がある。それは,このモデルが対象とするのは時系列データ (time series data) であるということだ。