【G 検定】教師なし学習

G 検定シラバス 2021 に基づき,教師なし学習の基本的な理論を理解する。

k-means 法

教師なし学習は入力データにある構造や特徴をつかむためのものであるが,そのうち k-means 法と呼ばれる手法は,データを k 個のグループに分けることを目的としている。すなわち,元のデータからグループ構造を見つけ出し,それぞれをまとめる,ということになる。ただし,この k 個の k は自分で設定する値となる。また,グループのことを正確にはクラスタ (cluster) と言い,k-means 法を用いた分析のことをクラスタ分析という。

k-means 法のアプローチは,以下のとおり。

  1. まずは適当に各データを k 個のクラスタに振り分ける
  2. 各クラスタの重心を求める
  3. 求まった k 個の重心と各データとの距離を求め,各データを最も距離が近い重心に対応するクラスタに振り分け直す
  4. 重心の位置が(ほぼ)変化しなくなるまで 2. と 3. を繰り返す

ウォード法

k-means 法はデータを別々のクラスタに並列に分類することを目的とした手法だが,そこから更にクラスタの階層構造を求めるまで行うのがウォード法 (Ward’s method) になる。手順は,最も距離が近い 2 つのデータ(クラスタ)を選び,それらを 1 つのクラスタにまとめる,という処理を繰り返していくだけである。

主成分分析 (PCA)

k-means 法やウォード法はデータをクラスタに分類することでデータの構造をつかむ手法であったが,主成分分析 (PCA : Principal Component Analysis) は,データの特徴量間の関係性,すなわち相関を分析することでデータの構造をつかむ手法になる。特に特徴量の数が多い場合に用いられ,相関をもつ多数の特徴量から,相関のない少数の特徴量へと次元削減することが主たる目的になる。ここで得られる少数の特徴量を主成分という。

機械学習で用いる特徴量は次元が多くなりがちであるが,次元削減をすることで,学習にかかる時間を減らしたり,あるいはデータを可視化したりすることができる。

主成分分析以外にも,特異値分解 (SVD : Singular Value Decomposition) や多次元尺度構成法 (MDS : Multi-Dimensional Scaling) といった手法がよく用いられる。また,可視化によく用いられる次元圧縮の手法としては,t-SNE (t-distributed Stochastic Neighbor Embedding) が有名である。

協調フィルタリング

協調フィルタリング (collaborative filtering) は,レコメンデーション (recommendation) に用いられる手法のひとつである。レコメンデーションは,文字通りレコメンドシステム(推薦システム)に用いられ,例えば EC サイト等でユーザの購買履歴をもとに好みを分析し,関心がありそうな商品をおすすめする,などに活用されている。

協調フィルタリングの考え方はシンプルで,「対象ユーザは買っていないが,似ているユーザは買っている商品を推薦する」というものである。ユーザ間の類似度を定義することで,類似度の高いユーザが購入済の商品を推薦することができる。

トピックモデル

トピックモデル (topic model) は,k-means 法やウォード法と同様クラスタリングを行うモデルであるが,データをひとつのクラスタに分類する k-means 法などと異なり,トピックモデルは複数のクラスタにデータを分類するのが大きな特徴である。トピックモデルの代表的な手法に潜在的ディリクレ配分法 (LDA : latent Dirichlet allocation) があり,トピックモデルと言えばこの LDA を指すことも多い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です