人口知能AI

G検定のための学習3日目!機械学習の基礎(教師あり学習)を学ぶ②

投稿日:

教師あり学習の基礎②

人工知能で使用する関数

今回は前回の続きで、教師あり学習の基礎である手法を学んでいきます。

単回帰分析と異なり、複雑な変数があっても重回帰分析によってモデルの作成ができます。

具体的には、以下の通りです。

ロジスティック回帰
サポートベクトルマシン
決定木
アンサンブル学習
ニューラルネットワーク
ベイジアン学習
時系列分析
クラスタリング

それぞれについて詳しく解説していきます。

ロジスティック回帰

ロジスティック回帰分析は、複数以上の説明変数からある事象が発生する確率を求める手法。

ある事象が起こるか?起こらないのか?YES/NOの2値分類だけではなく、3種類以上の項目に分類することも可能です。

ロジスティック回帰は、基本的に分類問題に使う手法です。

ロジスティック回帰では、2項目の分類をする際に使用するシグモイド関数と他項目を分類するのに用いるソフトマックス関数があります。

シグモイド関数

シグモイド関数を出力に使用すると、出力値が0~1に収まるように正規化されます。

つまり、0%~100%の表現が可能であり、出力値を事象の発生する確率として使用することができます。

例えば、飲酒量や喫煙量、身長と体重から「健康なのか/不健康なのか」を予測します。

ソフトマックス関数

ソフトマックス関数は他項目の分類をする際に使用されます。

ソフトマックス関数を使用すると、各クラスの値を合計で1にすることができます。

つまり、各値を「%」として表現可能です。

例えば、身長や体重から服のサイズであるS/M/Lを予測します。

サポートベクトルマシン

サポートベクトルマシンは、たくさんのデータの集合を分類するために用いられる手法です。

データを分類するための境界線とデータの最短距離をマージンとして、値を分類するのに良い決定境界線を求めます。

この境界線を求めることを「マージン最大化」と呼びます。

マージンには、決定境界線の内側にデータが入ることを許容しない「ハードマージン」と許容する「ソフトマージン」に分かれます。

ソフトマージンでは、一部のデータに対して寛容にするために「スラック変数」を使用します。

また、サポートベクトルマシンにも2つの種類があります。

決定境界が線形のサポートベクトルマシンと決定境界が非線形のカーネル法のサポートベクトルマシンです。

カーネル法でで高速に計算するために、計算量を少なくする方法を「カーネルトリック」と言います。

決定木

決定木は、条件の分岐によって分割していくことで分類問題を解く手法です。

決定木の手法で重要な概念は、「情報利得の最大化」です。

情報利得の最大化とは、データ分割の前後で比較し、データを分割できる条件を求めるための方法です。

分析結果の説明もしやすく、データの処理が容易です。

そのため、実務でも頻繁に変われる手法です。

アンサンブル学習

アンサンブル学習は、性能が低い学習器(弱学習器と言われます)を組み合わせることで、性能の高い学習器を作る方法です。

アンサンブル学習の中には、「バギング」「ブースティング」があります。

バギング

AIアルゴリズム

バギングの代表的な手法は「ランダムフォレスト」と言って、弱学習器と決定木を使い複数の決定木によって精度を上げていく方法です。

ブースティング

ブースティングは、弱学習器を順番に学習させて組み合わせていくことで精度を上げていきます。

順番に学習させていくので、前に学習させた学習器が誤分類したデータを優先的に正しく分類できるように学習していきます。

代表的なブースティングの例は、「勾配ブースティング」です。

勾配ブースティングでは、損失関数として、勾配投下法を使用しています。

勾配ブースティングを高速で実行できるようにC++が開発した「XGBoost」が有名です。

ニューラルネットワーク

ニューラルネットワークは動物の神経システムを模倣した学習モデルの総称です。

ニューラルネットワークは、分類の問題に頻繁に使われます。

ただし、回帰問題にも応用することができる手法です。

ニューラルネットワークには大きく分けて3つの層に分かれています。

それぞれを「入力層「中間層(隠れ層)」「出力層」と呼ばれます。

これらの層を積み重ねる事で、複雑な決定領域を学習することができます。

ベイジアン学習

ベイジアン学習は、ベイズの定理を利用して結果から原因を推論することが特徴です。

条件付き確率を使用している機械学習のアルゴリズムです。

具体的には、スパムメールのフィルターやECサイトのレコメンデーション等は実社会でも利用されています。

ベイズの定理

ベイズの定理は、ある条件Aの元で事象Bが起こる確率(条件付き確率または事後確率)を数式P(B|A)で表すとP(A|B)の数式は以下の通りになります。

これをベイズの定理と呼び、「原因の確率」を推算する式になります。

あらゆる結果を導く原因を推論するために使用されます。

P(A|B)=P(B|A)×P(A)÷P(B)

尤度

あるデータが与えられたときに、どのような確率分布が最もよくデータの分布を表すべきかをベイズの定理を用いて推定します。

その際に、確率分布の「尤もらしさ(もっともらしさ)」を表す指標の事を「尤度」と呼びます。

尤度の計算は、尤度関数によって求められます。

尤度関数は負の値を取らず、積分すると1になります。

条件付き確率と紐づいた関数であるためです。

尤度関数を最大化してパラメータを推定する手法を「最尤度」と呼び、1992年にロナルド・フィッシャーが論文ではじめて使用しました。

ナイーブベイズ分類器(ベイジアンフィルタ)

ナイーブベイズ分類器、別名単純ベイズ分類器は事象同士が独立していると仮定した条件付きの確率モデルです。

ナイーブベイズ分類器は、シンプル且つ処理が高速なので、文書分類やメールのスパムフィルタに利用されています。

ただし、単純なモデルであり、単語間の意味関係は処理できないため精度が高くないとも指摘されています。

ベイジアンネットワーク

ベイジアンネットワークは、原因と結果の複数の組み合わせを有向グラフで可視化させた確率モデル(グラフィカモデル)の一つです。

1985年にジュディア・パールによって命名されました。

これによって、ジュリア・パールはチューリング賞を受賞しています。

ベイジアンネットワークは、各ノードがマルコフ性を満たしている状態(各ノードの状態が条件付きである)のため、計算を大幅に簡略化できます。

さまざまな原因と結果を推論することが可能であり、主観的な情報も対象にできます。

ベイジアンネットワークは特に研究が進められている手法です。

時系列分析

時系列分析は時間軸に沿ってデータ分析をする技術です。

時間に対する依存性の高いデータや周期性がある時系列データは時系列分析が有効です。

自己相関

ある時点の変数が自己の過去の変数と相関関係にある場合、自己相関関係にあると呼びます。

そして、その相関関係を自己相関関係と呼びます。

言葉の使用方法として、時間差hの自己相関がある場合、ラグhの自己相関と呼びます。

定常性

複数以上の時系列データが3つの条件である「平均が一定」「分散が一定」「自己共分散がラグhのみに依存」を満たす時に定常性を持つと言います。

MA(Moving Average)モデル

1次のMAモデルは、現在のホワイトノイズとラグ1のホワイトノイズに重みづけしたもので構成されています。

AR(Autoregressive:自己回帰)モデル

過去の自身の値を入力の変数としたモデルで、自己回帰モデルと呼びます。

自己回帰モデルでは、ラグを「次数」と呼びます。

1次の自己回帰モデルは、AR(1)モデルと表記します。

ARMA(Autoregressive and Moving Average:自己回帰移動平均)モデル

ARMAモデルは、これまでに説明してきたMAモデルとARモデルを組み合わせたモデルです。

ARIMA(Autoregressive,Integrated and Moving Average:自己回帰和分移動平均)モデル

ARIMAモデルは時系列の階差に対して上記のARMAモデルを適用したものです。

単位根過程

時系列データの分析技術を使用するには3つの条件(「平均が一定」「分散が一定」「自己共分散がラグhのみに依存」)を満たしていることが前提です。

そのため、時系列データの定常性を確認する事が必要です。

定常性を有するには、平均と分散が、時間という要素によって発散しないようにしなければいけません。

しかし、特定の条件では、非定常な時系列にもかかわらずデータの振る舞いを見ただけでは分析対象外かどうかを判断しにくい場合があります。

分析の対象外なのかどうかを判断することができない場合を「単位根過程」と呼んで、他の非定常時系列と区別します。

ランダムウォークは単位根過程の一種です。

クラスタリング

教師あり学習のクラスタリングで知られているものに、k近傍法(k-Nearest Neighbor:k-NN)があります。

k近傍法(k-Nearest Neighbor:k-NN)

k近傍法(k-Nearest Neighbor:k-NN)は、あらかじめクラス分けされた教師データをもとに、新しいデータのクラスを最も近いk個のデータクラスから多数決で分類する手法です。

k近傍法(k-Nearest Neighbor:k-NN)のメリットは、アルゴリズムがシンプルで分かりやすい点にあります。

一方、欠点は次元の数が大きいと類似度の距離が測りにくくなり適用が難しくなることです。

こちらの手法は、アイテムのレコメンデーションや機械の故障などの異常値検出に使用されます。

「深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版」購入

AmazonのKindle版で「深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版」購入を購入しました。

はじめてのKindle版ということで、最初は使い方が分かりませんでしたが、パソコンとスマホの両方にアプリをダウンロード。

その後は、きちんと読めるようになりました。

寝る前にベッドで横になりながらスマホでも読むことができるのでとても快適です。

テキストと合わせて読めば、復習にもなります。

章末の例題を何問か解きましたが、テキストと連動しているので復習にもなりました。

ということで次回は「教師なし学習」を学習します。

-人口知能AI

Copyright© リカバリーチャンネル , 2021 All Rights Reserved Powered by STINGER.