方法論

BR-STATのデータ収集からモデル評価までのプロセス概要を説明します。

1. データ収集

BOAT RACE公式が提供するデータファイル (mbrace.or.jp) から、 番組表ファイルと競走成績ファイルを取得しています。

データ内容取得タイミング
出走表選手情報, 機材, 成績レース前日
競走成績着順, 配当, 気象レース終了後

約5年分のデータを処理し、毎日自動更新しています。

2. データベース設計

正規化された3層構造で構築しています。

  • 取得層 — 元データの保存(アーカイブ用)
  • 正規化層 — リレーショナルDB形式で整合性を保証
  • 分析層 — 統計集計・AI予測用データ

全テーブルの書き込みは冪等設計。 同じデータを再投入しても重複や破壊が起きません。

3. AI予測モデル

独自開発の機械学習モデルで、レース前に取得可能な情報のみを入力として 各艇の勝率を算出します。

「選手成績」「モーター性能」「コース特性」「会場条件」の4カテゴリから 複数の指標を抽出して使用しています。

アルゴリズム、パラメータ、具体的な指標構成は非公開です。

4. 評価方法

データは時系列分割で分けています。 ランダム分割は未来情報リークを引き起こすため採用しません。 過去のデータのみで学習し、未知の期間のレースで精度を評価します。

評価指標

  • Top1 Accuracy: AIの1着予測が当たる確率。ランダム=16.7%。
  • LogLoss: 確率予測の対数損失。確率の正確さを測る基本指標。
  • Brier Score: 確率のキャリブレーション精度。0が完璧。

5. データ出典

本サイトで使用するデータは、BOAT RACE公式 (mbrace.or.jp) が 一般公開しているデータファイルから取得しています。

予測結果や統計分析はBR-STAT独自のものであり、 公式の見解を代表するものではありません。