AI精度検証
v2(メインモデル)とv3a(コースバイアス補正)の予測精度を比較します。
モデル比較 (テスト期間: 2026年)
| Model | Top1 Acc | LogLoss | Brier | 種別 |
|---|---|---|---|---|
| ランダム | 16.67% | - | - | - |
| 常に1号艇 | 54.96% | 0.3702 | 0.1108 | ベースライン |
| 簡易モデル | 55.44% | 0.4193 | 0.1296 | 参考 |
| v2 事前予測 公開版 | 56.88% | 0.4093 | 0.1263 | メイン |
| v3a コース補正 実験中 | 55.49% | 0.3488 | 0.1052 | 実験 |
v3aはv2のスコアにコースバイアス補正を加えたモデル。LogLoss・Brierで全モデル中最良。
主要指標 v2 vs v3a
Top1 Accuracy
v2
56.88%
vs
v3a
55.49%
AIが1着と予測した艇が実際に1着だった割合。
LogLoss
v2
0.4093
vs
v3a
0.3488
確率予測の対数損失。小さいほど確率推定が正確。
Brier Score
v2
0.1263
vs
v3a
0.1052
確率のキャリブレーション精度。0に近いほど良い。
月別 Top1 Accuracy
| 月 | レース数 | v2 | v3a | 差 |
|---|---|---|---|---|
| 26-01 | 5,340 | 52.81% | 51.65% | -1.16 |
| 26-02 | 4,200 | 54.83% | 53.26% | -1.57 |
| 26-03 | 3,163 | 40.94% | 39.93% | -1.01 |
| 26-04 | 528 | 0% | 0% | 0.00 |
差はv3a − v2。正の値はv3aが優位。
予測枠番別 的中率
AIが1着に推した艇の枠番ごとの的中率。v2とv3aを並列表示。
1号艇
v2
49.72%
6001/12069
v3a
47.3%
6258/13231
2号艇
v2
37.02%
211/570
v3a
-%
0/0
3号艇
v2
37.57%
133/354
v3a
-%
0/0
4号艇
v2
28.18%
51/181
v3a
-%
0/0
5号艇
v2
34.21%
13/38
v3a
-%
0/0
6号艇
v2
47.37%
9/19
v3a
-%
0/0
Calibration (確率キャリブレーション)
モデルが出力した確率帯ごとに、実際の1着率を比較。理想は「30%と予測 → 実際に30%当たる」。
v2
| 確率帯 | 件数 | 実1着率 | 差 |
|---|---|---|---|
| 0-5% | 24,867 | 1.97% | -0.5% |
| 5-10% | 18,478 | 6.15% | -1.4% |
| 10-15% | 10,257 | 9.94% | -2.6% |
| 15-20% | 5,553 | 15.00% | -2.5% |
| 20-25% | 3,443 | 18.30% | -4.2% |
| 25-30% | 2,513 | 23.84% | -3.7% |
| 30-35% | 1,840 | 27.34% | -5.2% |
| 35-40% | 1,485 | 31.78% | -5.7% |
| 40-45% | 1,325 | 38.26% | -4.2% |
| 45-50% | 1,378 | 39.99% | -7.5% |
| 50-55% | 1,416 | 46.33% | -6.2% |
| 55-60% | 1,655 | 53.41% | -4.1% |
| 60-65% | 1,715 | 55.80% | -6.7% |
| 65-70% | 1,616 | 59.65% | -7.9% |
| 70-75% | 1,845 | 65.64% | -6.9% |
v3a
| 確率帯 | 件数 | 実1着率 | 差 |
|---|---|---|---|
| 0-5% | 13,259 | 2.64% | +0.1% |
| 5-10% | 22,656 | 5.33% | -2.2% |
| 10-15% | 26,847 | 10.02% | -2.5% |
| 15-20% | 3,342 | 26.24% | +8.7% |
| 20-25% | 51 | 62.75% | +40.3% |
| 35-40% | 2 | 0.00% | -37.5% |
| 40-45% | 322 | 12.73% | -29.8% |
| 45-50% | 2,179 | 26.98% | -20.5% |
| 50-55% | 3,598 | 41.25% | -11.3% |
| 55-60% | 4,814 | 55.88% | -1.6% |
| 60-65% | 2,315 | 62.85% | +0.4% |
| 65-70% | 1 | 0.00% | -67.5% |
運用モデル
現在 v2(メインモデル)と v3a(実験モデル)の2モデル体制で運用中。 詳細はAIモデル比較ページをご覧ください。