データの収集元の例
- SNSやブログ
- ネットショップのデータ
- 金融情報
- オープンデータ(人口などの各種統計、気象情報)
データの保存形式
- カンマ区切りのCSV形式
- 構造化されたJSON、XML、YAML
- 専用のデータベース(MySQL/PostgreSQL/SQLite/Oracle)
次元の呪い
扱う特徴量(次元)が多くなりすぎると、機械学習モデルが効率よく分類や回帰できなくなること。
特徴量の数に応じて、組み合わせが指数関数的に増えていくので、不要な特徴量を削ることができれば、より良い性能を引き出すことができる。
データの正規化
データの最小値と最大値を調べ、0をデータの中心として、-1.0 から 1.0 の範囲にデータを変形すること。
x = x(i) – xmin / xmax – xmin
過学習
学習のし過ぎが原因で、未学習の問題に対して正しい答えを導くことができない現象のこと。
学習用のデータに特化しすぎて、それ以外のデータに対応ができない状態。「過剰適合」とも言う。
過学習を防ぐためには、偏った学習をさせないこと。バランスよく学習させる。学習データの件数を増やしたり、アルゴリズムを変更したり、機械学習の手法を考え直すなど。