主要データソース
BR-STATで使用するすべてのレースデータは、BOAT RACE 公式データ(Bファイル / Kファイル形式)から取得しています。
これらは公式サイトが一般公開しているデータファイルであり、 選手情報・レース結果・オッズ等の情報を含みます。
取得方式
処理フロー
1. 公式サイトから固定長バイナリファイル(Shift-JIS)を取得
2. 定義済みスキーマに基づきパース・デコード
3. PostgreSQLデータベースへUPSERT
固定長フォーマットのため、フィールド定義に基づく正確なパースが可能です。 文字コードはShift-JISからUTF-8に変換して格納しています。
データ範囲
- 期間: 2021年1月〜現在(約5年分)
- レース数: 約288,000レース
- 会場: 全24場
取得頻度
- 日次自動取得: 当日のレース結果データを自動取得
- 月次一括取得: 過去データの補完・修正を月次で実施
データの3層構成
取得層(Raw)
公式データファイルをそのまま保存。生データは削除しない。
正規化層(Normalized)
パース済みデータをリレーショナルDBに格納。外部キー制約で整合性を保証。
分析層(Analytics)
統計集計・特徴量生成・AI予測用のマテリアライズドビュー。
データ完全性
データの完全性を確保するため、以下の方針を採用しています。
- 生データは削除しない(追記のみ)
- すべての書き込みはUPSERTベースで冪等処理(同じデータを再投入しても結果が変わらない)
- データ取得ログを保持し、取得漏れを検知
注意事項
本サイトのデータはBOAT RACE公式データの二次利用です。データの最終的な正確性については、公式サイト (boatrace.jp) の情報が正となります。
分析結果や予測はBR-STAT独自のものであり、BOAT RACE公式の見解を代表するものではありません。