Machine Learning (機械学習) (2) 機械学習のシナリオ

Step1:機械学習のシナリオ

  1. ゴールの決定
  2. データの収集
  3. データの整形・加工
  4. データを学習 (1) 機械学習の手法を選択 (2) パラメータの調整 (3) データを学習しモデルの構築
  5. モデルを評価
  6. モデルの精度が十分でなければ、4.データを学習に戻る
  7. 業務で活用

1.ゴールの決定

機械学習で何を達成したいのかを決める。最も大切な工程かもしれない。

目的や仕様書がないプロジェクトが困難なものになるのと同じく、ゴールがない機械学習プロジェクトが成功するのは難しい。

2.データの収集

データを集めるのは大変な作業。学習データが不足していると、未知のデータに対しての判定が正しくできない。

まず、ゴールを達成するためにどのようなデータが必要かを検討する。次にそのデータを収集するための方法を検討する。既存の業務データからか、あるいは新たに収集する必要があるのか。最後に検討した方法に従い、データを収集する。

3.データの整形・加工

モデルの評価に直結するため、慎重に検討が必要。この作業を「特徴抽出」と呼ぶ。

収集したデータがそのまま利用できる場合もあるが、多くの場合は、データに含まれる特徴を抽出する作業が必要。データの学習器が求める形式に合わせる必要もある。

4.データを学習

どのような手法(アルゴリズム)を利用して学習するのか、複数のアルゴリズムの中から指定。

パラメータを調整しつつ、データを学習してモデルを構築していく。

5.モデルを評価

テストデータを用いてどれくらいの精度が出るのかを確認する。

6.モデルの精度が十分でなければ、4.データを学習に戻る

満足のいく結果でなければ、手法やパラメータを見直しして、チューニングを行う。

7.業務で活用

満足のいく結果が得られるようになったら、業務に活用していく。