モデル更新履歴

BR-STATで運用してきたモデルの全バージョンを記録しています。 各モデルの学習条件・精度指標・ハイパーパラメータを透明に公開し、 改善の過程を追跡可能にします。

モデル更新時は旧バージョンを非公開 (inactive) とし、新バージョンに切り替えます。 過去モデルの記録は削除せず、比較・検証のため保持します。

登録モデル一覧

lgbm_top1_v1

Activeregistered: 2026-03-14
Algorithm
lightgbm
Target
top1
Feature Version
v1_basic_27feat
Artifact
/Users/hay/kyotei/models/lgbm_top1_v1.txt
Training Period
2021-01-01 ~ 2024-12-31
Validation Period
2025-01-01 ~ 2025-12-31
Metrics (Validation)
Top1 Accuracy
58.7%
LogLoss
0.4038
Brier Score
0.1245
Metrics (Test)
Top1 Accuracy
59.5%
LogLoss
0.4039
Brier Score
0.1246
Hyperparameters
seed: 42metric: binary_loglossmax_depth: -1objective: binarynum_leaves: 64bagging_freq: 5learning_rate: 0.05best_iteration: 489bagging_fraction: 0.8feature_fraction: 0.8min_data_in_leaf: 200

lgbm_top1_v2_prerace

Activeregistered: 2026-03-14
Algorithm
lightgbm
Target
top1
Feature Version
v2_prerace_22feat
Artifact
/Users/hay/kyotei/models/lgbm_top1_v2_prerace.txt
Training Period
2021-01-01 ~ 2024-12-31
Validation Period
2025-01-01 ~ 2025-12-31
Metrics (Validation)
Top1 Accuracy
56.0%
LogLoss
0.4093
Brier Score
0.1263
Metrics (Test)
Top1 Accuracy
56.9%
LogLoss
0.4093
Brier Score
0.1263
Hyperparameters
seed: 42metric: binary_loglossverbose: -1max_depth: -1objective: binarynum_leaves: 64bagging_freq: 5learning_rate: 0.05bagging_fraction: 0.8feature_fraction: 0.8min_data_in_leaf: 200

v1 から v2 への改善経緯

初期モデル (lgbm_top1_v1) は27特徴量を使用し、Validation Top1 Accuracyで 約59.5%を記録しました。しかし精度検証の過程で、一部の特徴量に情報リーク (data leakage)が含まれていることが判明しました。

検出されたリーク特徴量
  • course_no -- 進入コース番号。枠順とは異なり、レース直前の待機行動で確定する。事前予測には使用不可。
  • start_timing -- スタートタイミング (ST)。レース開始後にしか確定しない値。

これらの特徴量はレース後にしか確定しない情報であり、事前予測モデルに含めると 「未来を知っている」モデルになってしまいます。v1はあくまで事後分析用の参考モデルとして 記録を残し、リーク特徴量を除去した22特徴量で再学習したものがv2です。

v2ではAccuracyが約2.6ポイント低下しましたが (59.5% → 56.9%)、 これは「正当に予測できる範囲の精度」を反映しています。 リーク検出と除去のプロセスを透明に記録することで、モデルの信頼性を担保します。

今後のモデル更新方針

BR-STATでは以下の方針でモデルを継続的に更新していきます。

  • --月次再学習: 毎月の新規レースデータを学習データに追加し、モデルを再学習します。 過去データの重みは均等とし、直近偏重は行いません。
  • --Validation期間のスライド: 再学習ごとにValidation期間を直近12か月にスライドし、 最新の傾向に対する精度を検証します。
  • --バージョン管理: 新モデルは旧モデルのValidation精度を上回った場合のみ公開版に昇格させます。 精度が下がった場合はロールバック可能です。
  • --特徴量の追加検討: 天候データの詳細化、選手の直近N走成績、モーター性能の経時変化など、 新たな特徴量の追加を段階的に検証していきます。

全てのモデル更新はこのページに記録されます。過去バージョンとの比較も可能です。