データ出典

公式データの取得から分析までの全プロセス

主要データソース

BR-STATで使用するすべてのレースデータは、BOAT RACE 公式データ(Bファイル / Kファイル形式)から取得しています。

これらは公式サイトが一般公開しているデータファイルであり、 選手情報・レース結果・オッズ等の情報を含みます。

取得方式

処理フロー

1. 公式サイトから固定長バイナリファイル(Shift-JIS)を取得

2. 定義済みスキーマに基づきパース・デコード

3. PostgreSQLデータベースへUPSERT

固定長フォーマットのため、フィールド定義に基づく正確なパースが可能です。 文字コードはShift-JISからUTF-8に変換して格納しています。

データ範囲

  • 期間: 2021年1月〜現在(約5年分)
  • レース数: 約288,000レース
  • 会場: 全24場

取得頻度

  • 日次自動取得: 当日のレース結果データを自動取得
  • 月次一括取得: 過去データの補完・修正を月次で実施

データの3層構成

取得層(Raw)

公式データファイルをそのまま保存。生データは削除しない。

正規化層(Normalized)

パース済みデータをリレーショナルDBに格納。外部キー制約で整合性を保証。

分析層(Analytics)

統計集計・特徴量生成・AI予測用のマテリアライズドビュー。

データ完全性

データの完全性を確保するため、以下の方針を採用しています。

  • 生データは削除しない(追記のみ)
  • すべての書き込みはUPSERTベースで冪等処理(同じデータを再投入しても結果が変わらない)
  • データ取得ログを保持し、取得漏れを検知

注意事項

本サイトのデータはBOAT RACE公式データの二次利用です。データの最終的な正確性については、公式サイト (boatrace.jp) の情報が正となります。

分析結果や予測はBR-STAT独自のものであり、BOAT RACE公式の見解を代表するものではありません。

関連ページ