1. データ収集
BOAT RACE公式が提供するデータファイル (mbrace.or.jp) から、 番組表ファイルと競走成績ファイルを取得しています。
| データ | 内容 | 取得タイミング |
|---|---|---|
| 出走表 | 選手情報, 機材, 成績 | レース前日 |
| 競走成績 | 着順, 配当, 気象 | レース終了後 |
約5年分のデータを処理し、毎日自動更新しています。
2. データベース設計
正規化された3層構造で構築しています。
- 取得層 — 元データの保存(アーカイブ用)
- 正規化層 — リレーショナルDB形式で整合性を保証
- 分析層 — 統計集計・AI予測用データ
全テーブルの書き込みは冪等設計。 同じデータを再投入しても重複や破壊が起きません。
3. AI予測モデル
独自開発の機械学習モデルで、レース前に取得可能な情報のみを入力として 各艇の勝率を算出します。
「選手成績」「モーター性能」「コース特性」「会場条件」の4カテゴリから 複数の指標を抽出して使用しています。
アルゴリズム、パラメータ、具体的な指標構成は非公開です。
4. 評価方法
データは時系列分割で分けています。 ランダム分割は未来情報リークを引き起こすため採用しません。 過去のデータのみで学習し、未知の期間のレースで精度を評価します。
評価指標
- Top1 Accuracy: AIの1着予測が当たる確率。ランダム=16.7%。
- LogLoss: 確率予測の対数損失。確率の正確さを測る基本指標。
- Brier Score: 確率のキャリブレーション精度。0が完璧。
5. データ出典
本サイトで使用するデータは、BOAT RACE公式 (mbrace.or.jp) が 一般公開しているデータファイルから取得しています。
予測結果や統計分析はBR-STAT独自のものであり、 公式の見解を代表するものではありません。