AI精度検証
v2(メインモデル)とv3a(コースバイアス補正)の予測精度を比較します。
モデル比較 (テスト期間: 2026年)
| Model | Top1 Acc | LogLoss | Brier | 種別 |
|---|---|---|---|---|
| ランダム | 16.67% | - | - | - |
| 常に1号艇 | 54.54% | 0.3702 | 0.1108 | ベースライン |
| 簡易モデル | 55.44% | 0.4193 | 0.1296 | 参考 |
| v2 事前予測 公開版 | 56.88% | 0.4093 | 0.1263 | メイン |
| v3a コース補正 実験中 | 55.49% | 0.3488 | 0.1052 | 実験 |
v3aはv2のスコアにコースバイアス補正を加えたモデル。LogLoss・Brierで全モデル中最良。
主要指標 v2 vs v3a
Top1 Accuracy
v2
56.88%
vs
v3a
55.49%
AIが1着と予測した艇が実際に1着だった割合。
LogLoss
v2
0.4093
vs
v3a
0.3488
確率予測の対数損失。小さいほど確率推定が正確。
Brier Score
v2
0.1263
vs
v3a
0.1052
確率のキャリブレーション精度。0に近いほど良い。
月別 Top1 Accuracy
| 月 | レース数 | v2 | v3a | 差 |
|---|---|---|---|---|
| 26-01 | 5,340 | 52.81% | 51.65% | -1.16 |
| 26-02 | 4,200 | 54.83% | 53.26% | -1.57 |
| 26-03 | 3,163 | 40.94% | 39.93% | -1.01 |
| 26-04 | 528 | 0% | 0% | 0.00 |
| 26-05 | 600 | 0% | 0% | 0.00 |
| 26-06 | 564 | 0% | 0% | 0.00 |
差はv3a − v2。正の値はv3aが優位。
予測枠番別 的中率
AIが1着に推した艇の枠番ごとの的中率。v2とv3aを並列表示。
1号艇
v2
45.73%
6001/13124
v3a
43.47%
6258/14395
2号艇
v2
33.6%
211/628
v3a
-%
0/0
3号艇
v2
34.91%
133/381
v3a
-%
0/0
4号艇
v2
25.25%
51/202
v3a
-%
0/0
5号艇
v2
33.33%
13/39
v3a
-%
0/0
6号艇
v2
42.86%
9/21
v3a
-%
0/0
Calibration (確率キャリブレーション)
モデルが出力した確率帯ごとに、実際の1着率を比較。理想は「30%と予測 → 実際に30%当たる」。
v2
| 確率帯 | 件数 | 実1着率 | 差 |
|---|---|---|---|
| 0-5% | 27,271 | 1.79% | -0.7% |
| 5-10% | 20,056 | 5.67% | -1.8% |
| 10-15% | 10,989 | 9.28% | -3.2% |
| 15-20% | 6,007 | 13.87% | -3.6% |
| 20-25% | 3,758 | 16.76% | -5.7% |
| 25-30% | 2,728 | 21.96% | -5.5% |
| 30-35% | 2,007 | 25.06% | -7.4% |
| 35-40% | 1,612 | 29.28% | -8.2% |
| 40-45% | 1,450 | 34.97% | -7.5% |
| 45-50% | 1,498 | 36.78% | -10.7% |
| 50-55% | 1,534 | 42.76% | -9.7% |
| 55-60% | 1,772 | 49.89% | -7.6% |
| 60-65% | 1,860 | 51.45% | -11.0% |
| 65-70% | 1,759 | 54.80% | -12.7% |
| 70-75% | 2,069 | 58.53% | -14.0% |
v3a
| 確率帯 | 件数 | 実1着率 | 差 |
|---|---|---|---|
| 0-5% | 14,442 | 2.42% | -0.1% |
| 5-10% | 24,727 | 4.88% | -2.6% |
| 10-15% | 29,110 | 9.24% | -3.3% |
| 15-20% | 3,635 | 24.13% | +6.6% |
| 20-25% | 61 | 52.46% | +30.0% |
| 35-40% | 4 | 0.00% | -37.5% |
| 40-45% | 355 | 11.55% | -31.0% |
| 45-50% | 2,345 | 25.07% | -22.4% |
| 50-55% | 3,885 | 38.20% | -14.3% |
| 55-60% | 5,191 | 51.82% | -5.7% |
| 60-65% | 2,613 | 55.68% | -6.8% |
| 65-70% | 2 | 0.00% | -67.5% |
運用モデル
現在 v2(メインモデル)と v3a(実験モデル)の2モデル体制で運用中。 詳細はAIモデル比較ページをご覧ください。