問4 AIの機械学習における教師なし学習で用いられる手法として,最も適切なものはどれか。
ア 幾つかのグループに分かれている既存データ間に分離境界を定め,新たなデータがどのグループに属するかはその分離境界によって判別するパターン認識手法
イ 数式で解を求めることが難しい場合に,乱数を使って疑似データを作り,数値計算をすることによって解を推定するモンテカルロ法
ウ データ同士の類似度を定義し,その定義した類似度に従って似たもの同士は同じグループに入るようにデータをグループ化するクラスタリング
エ プロットされた時系列データに対して,曲線の当てはめを行い,得られた近似曲線によってデータの補完や未来予測を行う回帰分析
ア~エの選択肢に書いてある手法が、機械学習の分類のうち、どれに該当するかを考える問題。ひとつだけ教師なし学習に分類されるものがあるので、それを選べば正解。
この問題を解きながら、機械学習の分類について学習する。
機械学習の分類
一言に「機械学習」といっても、様々な手法がある。目的によって使い分けなければならず、「適当な機械学習アルゴリズムに適当にデータを放り込めば、なんかすごいことができる」というものではない。高いレベルのスキルや経験が必要なので、人材不足が騒がれている。
機械学習のアルゴリズムはたくさん存在するが、大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類に分類することができる。
教師あり学習
教師あり学習は、正解付きのデータを用いて学習していく手法である。例えば「これはリンゴである」「これはリンゴではない」という正誤データ(教師データ)がついた画像を学習させて、リンゴとそれ以外の分類を学習させる。
教師あり学習は「分類」や「予測(回帰)」といった用途に適している。迷惑メールの分類や株価の予測などをさせようと思ったら、教師あり学習が向いている。
教師なし学習
教師なし学習は、正解のないデータを用いて学習していく手法である。これによってできることは、大量のデータの中から規則性や関連性を発見し、分類することである。
コンピュータが勝手に分類するため、人間だけでは気が付かなかった分類方法を見つけ出すことができる場合がある。これはうまく活用できれば利点だが、あまりに訳が分からない分類をしてしまうと活用が難しくなってしまう。扱いが難しい。
教師なし学習は、「認識」や「最適化」といった用途に活用される。Webサイトの閲覧履歴から最適な広告を表示させたり、レントゲンなどの画像から異常を検知する、といった用途に向いている。
強化学習
強化学習は、結果に対して点数(報酬)を与えることで学習する手法である。
「〇〇したら1点」「△△したら2点」などと報酬をあらかじめ決めておく。コンピュータは最初はランダムに行動するが、「こういう動きをしてみたら12点だった」みたいなことを記憶し、記憶を手掛かりにしつつ試行錯誤を繰り返して高い得点をとれる行動を覚えていく。報酬だけ決めておけば、そのルール内での最適行動を勝手に学習していくというわけだ。
強化学習は、複雑な動きやルールを覚えさせる場合に活用される。例えば自動運転や囲碁のようなゲーム、ロボットの動作学習などだ。
機械学習の分類:まとめ
以上で説明したことを、表でまとめる。
それぞれの選択肢について考える
ここからは、以上にまとめたことをふまえて、最初に示した応用情報技術者試験の過去問を解いていく。問題を再掲する。
問4 AIの機械学習における教師なし学習で用いられる手法として,最も適切なものはどれか。
ア 幾つかのグループに分かれている既存データ間に分離境界を定め,新たなデータがどのグループに属するかはその分離境界によって判別するパターン認識手法
イ 数式で解を求めることが難しい場合に,乱数を使って疑似データを作り,数値計算をすることによって解を推定するモンテカルロ法
ウ データ同士の類似度を定義し,その定義した類似度に従って似たもの同士は同じグループに入るようにデータをグループ化するクラスタリング
エ プロットされた時系列データに対して,曲線の当てはめを行い,得られた近似曲線によってデータの補完や未来予測を行う回帰分析
(令和元年秋季午前問題より引用)
まずはアを見る。
ア 幾つかのグループに分かれている既存データ間に分離境界を定め,新たなデータがどのグループに属するかはその分離境界によって判別するパターン認識手法
「既存データ間に分離境界を定め」「分離境界によって判別」とあるが、この「分離境界」が教師データに該当するので、このパターン認識は教師あり学習となる
イ 数式で解を求めることが難しい場合に,乱数を使って疑似データを作り,数値計算をすることによって解を推定するモンテカルロ法
モンテカルロ法は、乱数の利用を繰り返し、より正しい解に近いづいていく方法である。したがって強化学習に該当する。
ウ データ同士の類似度を定義し,その定義した類似度に従って似たもの同士は同じグループに入るようにデータをグループ化するクラスタリング
教師データに該当するものがないので、教師あり学習ではない。グループ化するということで、たくさんのデータを用いて学習することから強化学習ではなく、教師なし学習であるとわかる。したがって、ウが正解。
「データをグループ化」ということで、「分類」のキーワードから教師なし学習と判断することもできる。
エ プロットされた時系列データに対して,曲線の当てはめを行い,得られた近似曲線によってデータの補完や未来予測を行う回帰分析
「プロットされた時系列データ」が教師データにあたるので、教師あり学習である。「未来予測」というキーワードからも、教師あり学習であると判断できる。
まとめ
応用情報試験の問題を解きながら、機械学習の分類について学習した。
文章だけではいまいち理解が進まないかもしれないが、実際にプログラムを組んでみるとより深く理解できると思う。近いうちにやってみようと思う。