これまでの学習でディープラーニングの研究分野である「画像認識」と「自然言語処理」について見てきました。
今回がディープラーニングの研究分野については最終日です。
「音声処理」と「強化学習」について学習していきます。
ディープラーニングは、さまざまなシーンで活用できるようになりました。
この記事では、私たちが普段使用している、「Siri」や「ALexa」の技術の基本が分かります。
このブログは底辺フリーランサーが、G検定を取得して人生を好転させようと人工知能を日々学んでいく日記です。
目次
音声処理
ディープラーニングは、音声処理にも応用されています。
この技術があることで、「Siri」や「ALexa」を自由に使うことができるようになりました。
音声処理の分野も研究と技術開発が盛んな分野です。
音声処理には大きく分けて「音声認識」技術と、その逆過程である「音声合成」に分けられます。
「音声認識」と「音声合成」についてそれぞれ詳しく見ていきます。
音声認識
音声認識を学習する上で、どのように音声認識の技術が向上していったのかをさらっとおさらいしておくことは大事です。
音声認識の歴史を理解して、技術の変遷も確認しておきましょう。
その上で、現在の音響モデルや言語モデルがどのように用いられているのか見ていきましょう。
音声認識技術の歴史的移り変わり
音声認識の研究自体は1960年代頃から行われており、ニューラルネットワークを用いた研究も1990年の初め頃には行われています。
ただし、2010年頃までは、「混合正規分布モデル(GMM:Gaussian Mixture Model)」に基づいた、「隠れマルコフモデル(HMM:Hidden Markov Model)」である「GMM-HMM」やn-gramに代表される統計的なモデルが一般的でした。
その後、アメリカ国防高等研究計画局などの国家プロジェクトによる大規模な音声データベース(コーパス)の整備やデータを処理する計算能力が向上したことによって、ニューラルネットワークよりも統計的手法が主流となったのです。
画像認識の文脈でも紹介している、2010年頃にジェフリー・ヒントン率いるチームが研究していたディープラニューラルネットワーク(DNN:Deep Neural Network)が脚光を浴びます。
ディープニューラルネットワークは、音声認識の分野でも応用されました。
そして、一般的な音素認識タスク(TIMIT:Texas Instruments and Massachusetts Institute of Technology)でこれまでの手法以上の成果を上げています。
音響モデル・言語モデル
音響モデルはGMMによる確率計算をDNNに置き換えたDNN-HMMが一般的となり、言語モデルはRNNをn-gramと併用するモデルが一般的になりました。
最近では、HMMを用いずRNNの一種であるLTSMを用いた「CTC(Connectionist Temporal Classification)」を用いる手法が注目を集めています。
音声認識では、物理的な特徴の音の波形を「音響特徴量」として定量化、母音や子音などの音素を抽出して認識します。
音声合成
音声合成は音声認識とは逆で、人間の音声を人工的に作り出す技術です。
音声合成の技術の領域でもディープラーニングの活用が進んでいます。
紅白歌合戦で、美空ひばりの映像と共に人工的な歌声も同時に流れたことを記憶している方も多いでしょう。
音声合成の技術の中では、特に「WaveNet」というアルゴリズムに注目すべきでしょう。
WaveNet
WaveNetはこれまでの音声合成アルゴリズムと比較すると、自然な音声を実現する事ができるようになりました。
Googleのスマートスピーカー、「GoogleHome」などで使用されています。
また、2018年には、Google Duplexを発表していて、美容室やレストランの予約を人間と放しているかのようなAIサービスデモを行っています。
音声認識と音声合成を合わせて使えば以下のような変換が可能となり、対話も出来るようになります。
質問の音声→質問のテキスト→回答のテキスト生成→回答の音声生成
強化学習
ディープラーニングの学習適用領域は、強化学習へも及んでいます。
ここからは、ディープラーニングが、強化学習に対してどのような応用事例があるのかを学習していきます。
深層強化学習
強化学習の応用事例としては、深層強化学習があります。
深層強化学習とは、強化学習にディープラーニングを用いたアルゴリズムです。
深層強化学習が世間に認められる契機となったのは、ATARIのゲームで行われたDQN(Deep Q Network)です。
DQN(Deep Q Network)はDeepMind社(現在はGoogleの傘下)が開発したQ学習にディープラーニング(CNN)を組み合わせたアルゴリズムです。
DQN(Deep Q Network)は、行動価値を最大にする方策を効率的に計算することを目指したニューラルネットワークです。
また、DQN(Deep Q Network)は、マルチエージェント応用を行う際の初期状態を不安定化の問題に対応したネットワークでもあります。
AlphaGo
囲碁に応用した「AlphaGo」は、不可能と言われていた人間の囲碁のプロ棋士に勝利しています。
AlphaGoもDQN(Deep Q Network)と同様に、行動や状態の評価に対してCNNを用いています。
また、AlphaGoは、次の手の探索にヒューリスティックな探索アルゴリズムであるモンテカルロ探索木を用いています。
AlphaGoには幾つかのバージョンがあり、「AlphaGo Zero」は、棋譜やビッグデータを必要とせずに、自己対局によって強化することも可能にしています。
深層強化学習の特徴
深層強化学習には以下の特徴がります。
正解データ付きの訓練データを用意する必要がない
学習に時間がかかる
転移学習が難しい(強化学習は与えられた環境から得られる報酬を最大化する学習を行うから)
まとめ
ディープラーニングは、画像認識・自然言語処理、そして音声処理や強化学習にも応用されています。
これらの、流れを抑えておかないとG検定用のテストでは良い点は取れないです。
演習問題を読んでいると、何の話なのか分からない場合も多々あります。
そんな、私もG検定試験は明後日となりました…(執筆時7/15)。
これまでの学習について確認したい方は以下の記事も参考にしてください。