Step1:機械学習のシナリオ
- ゴールの決定
- データの収集
- データの整形・加工
- データを学習 (1) 機械学習の手法を選択 (2) パラメータの調整 (3) データを学習しモデルの構築
- モデルを評価
- モデルの精度が十分でなければ、4.データを学習に戻る
- 業務で活用
1.ゴールの決定
機械学習で何を達成したいのかを決める。最も大切な工程かもしれない。
目的や仕様書がないプロジェクトが困難なものになるのと同じく、ゴールがない機械学習プロジェクトが成功するのは難しい。
2.データの収集
データを集めるのは大変な作業。学習データが不足していると、未知のデータに対しての判定が正しくできない。
まず、ゴールを達成するためにどのようなデータが必要かを検討する。次にそのデータを収集するための方法を検討する。既存の業務データからか、あるいは新たに収集する必要があるのか。最後に検討した方法に従い、データを収集する。
3.データの整形・加工
モデルの評価に直結するため、慎重に検討が必要。この作業を「特徴抽出」と呼ぶ。
収集したデータがそのまま利用できる場合もあるが、多くの場合は、データに含まれる特徴を抽出する作業が必要。データの学習器が求める形式に合わせる必要もある。
4.データを学習
どのような手法(アルゴリズム)を利用して学習するのか、複数のアルゴリズムの中から指定。
パラメータを調整しつつ、データを学習してモデルを構築していく。
5.モデルを評価
テストデータを用いてどれくらいの精度が出るのかを確認する。
6.モデルの精度が十分でなければ、4.データを学習に戻る
満足のいく結果でなければ、手法やパラメータを見直しして、チューニングを行う。
7.業務で活用
満足のいく結果が得られるようになったら、業務に活用していく。