機械学習には4つの種類があります。
それぞれ「教師あり学習」「教師なし学習」「半教師あり学習」「強化学習」です。
前回は「教師あり学習」について学んだので、今回は「教師なし学習」を学んでいきます。
G検定の合格を目指すためのブログですので、基本的な事柄をまとめようと思います。
G検定を通過するために「教師なし学習」を学びたい方は参考にしてください。
この日記は、底辺フリーランスが人生を変えるためにG検定を通過するドキュメントです。
目次
教師なし学習とは
「教師なし学習」はその名の通り、「教師あり学習」とは異なり正解がデータがない状態の機械学習です。
「教師なし学習」の目的は、入力データから構造やパターンを学習して、入力データの次元圧縮や分類をおこなうことです。
教師なし学習によっておこなう「次元圧縮」「クラスタリング」について詳しく紹介していきます。
その流れの中で、「主成分分析」や「t-SNE法」、「k-Means法」などの聞きなれない言葉も出てきますが、そこまで難しい概念ではありません。
これらの手法も説明します。
教師あり学修については、以下のブログで説明しています。
次元圧縮は計算スピードを向上させる手法
教師なし学習の目的の一つに次元圧縮があります。
次元圧縮はデータの圧縮をすることによって、データの構造を見やすくしたり、計算量を少なくすることによって計算スピードを上げる手法です。
代表的な手法に「主成分分析(Primary Component Analysis,PCA)」「t-SNE法」があります。
これらの主な2つの手法をそれぞれ解説しましょう。
主成分分析(Primary Component Analysis,PCA)
主成分分析(Primary Component Analysis,PCA)は、相関のある複数以上の変数をバラつきの方向と大きさに着目します。
より相関の少ない合成関数に変換することによって、データの次元を縮約する手法です。
データを2次元に並べてみると、データにはバラつきの方向性があることがあります。
縦の軸を第一主成分軸、横の軸を第二主成分軸と定義をします。
この二つの軸によってデータのバラつき方向と大きさに着目して、多くのデータ情報を残しつつもシンプルにできるのです。
ちなみに、主成分の寄与度を表すものを主成分得点(主成分スコア)、観測変数との相関を表すものを「主成分負荷量」もしくは「因子負荷量」と呼びます。
これらを主成分分析の結果の評価に用います。
t-SNE法
t-SNE法と聞いて、何のことがわからない方も多いでしょうが以下の略称です。
t=t分布
S=確率的(Stochastic)
N=隣接(Neighbor)
E=埋め込み(Embedding)
t-SNE法は、高次元のデータを自由度1のt分布を用いて2次元や3次元の低次元に圧縮する手法です。
この手法を用いると、離れているグーループをさらに離して配置できるため、クラスタリングをしやすくなります。
ただし、圧縮をする次元が4次元を超えてくると上手くいかない場合もあります。
そのため、t-SNE法は2次元や3次元のデータ圧縮に使用されることがすすめられています。
クラスタリング
教師なし学習で、典型的な分類手法に「クラスタリング」があります。
与えられているデータをいくつかのクラスタに分類する事を「クラスタリング」とよびます。
クラスタリングの典型的な手法に「k-Means法(K-平均法)」があります。
それでは、「k-Means法(K-平均法)」について解説していきましょう。
k-Means法(K-平均法)
「k-Means法(K-平均法)」は、データをk個のクラスタに分けて、各クラスタの重心に一番近い点をランダムに設定します。
その後、各クラスタの重心に近い点をクラスタに分類し直すということをくり返していきます。
「k-Means法(K-平均法)」はシンプルな方法で、さまざまな場面で使用されている手法です。
ここで、kの値を見積りすることも大事になります。
kの値を見積もる方法は、SSE(残査平方和)の減少量を見る「エルボー法」、クラスタ内のデータの凝集度を見る「シルエット法」が有名です。
教師なし学習のテスト結果
教師なし学習のテストは、教師あり学習に比べて試験範囲は狭いように感じました。
しかし、「次元圧縮」や「クラスタリング」の手法の名前とその具体的な方法を覚える必要があります。
また、それぞれに有名な手法もあるのでそちらも抑えておきましょう。
そうしないとテストをしても何だかわかりません(泣)。
・「徹底攻略 ディープラーニング G検定 ジェネラリスト問題集」
第3章 機械学習の基礎
32問中28問正解(正答率88%)
⇒前回と同じ部分の復習なので、得点は伸びましたが同じ部分で間違えている…。
・「ディープラーニング G検定 要点整理テキスト&問題集」
第4章 機械学習の実装
16問中4問正解(正答率25%)
⇒こういった問題は参考書を読んで理解しても問題を解いてみないと身につかない。とにかく、理解したら手法の名前なども覚えるまでテキストを解き直した方が良いように感じました。
過去の学習には以下のものがあります。