機械学習における過学習と過小学習

August 02, 2024に更新 1議事録を読みます

過学習と過小学習は機械学習モデルの一般的な問題であり、新しい未知のデータに適切に一般化する能力に影響を与えます。

過学習は、モデルがトレーニングデータ内の基礎となるパターンを学習するだけでなく、そのデータに存在するノイズやランダムな変動も学習するときに発生します。その結果、モデルはトレーニングデータに対して非常に優れたパフォーマンスを発揮しますが、本質的にトレーニングセットを記憶しているため、新しい未確認のデータに一般化できません。

一方、アンダーフィッティングは、モデルが単純すぎてトレーニングデータの基礎となるパターンを捕捉できない場合に発生します。データ内に存在する関係性や複雑性を学習できないため、トレーニングデータだけでなく新しいデータでもパフォーマンスが低下します。

過学習と過小学習を防ぐ方法

相互検証: k 分割相互検証などの手法を使用して、データのさまざまなサブセットに対するモデルのパフォーマンスを評価します。これは、モデルが新しいデータにどの程度うまく一般化されるかを推定するのに役立ちます。
トレーニングとテストの分割: データを別々のトレーニングセットとテストセットに分割します。トレーニングセットでモデルをトレーニングし、テストセットでそのパフォーマンスを評価します。これは、モデルが目に見えないデータに対してどの程度一般化されているかを評価するのに役立ちます。
特徴の選択/削減: 最も関連性の高い特徴のみを選択するか、主成分分析 (PCA) などの手法を使用してデータの次元を削減することにより、モデルの複雑さを軽減します。
正則化: L1 または L2 正則化などの手法は、モデルの目的関数に複雑さに対するペナルティを追加し、データ内のノイズを近似しすぎるのを防ぎます。
アンサンブル手法: 複数のモデルを組み合わせて、過学習と過小学習を軽減します。バギング、ブースティング、スタッキングなどの手法では、複数のモデルを使用して全体的なパフォーマンスと汎用性を向上させます。
ハイパーパラメータ調整: グリッド検索やランダム検索などの手法を使用してモデルのハイパーパラメータ(学習率、デシジョンツリーのツリーの深さなど)を調整し、バイアスのバランスをとる最適な構成を見つけます。そして分散。
早期停止: トレーニング中に検証セットでモデルのパフォーマンスを監視し、パフォーマンスが低下し始めたときにトレーニングプロセスを停止することで、過剰適合を防止します。
より多くのデータ: データ量を増やすと、基礎となる分布のより多様で代表的なサンプルが提供されるため、モデルをより適切に一般化することができます。

モデルの複雑さと一般化の間の適切なバランスを見つけることは、過学習や過小学習を防ぐために重要であり、これらのテクニックはそのバランスを達成するのに役立ちます。