IFC Marketsの指数×為替の “スプレッド先行指標” アルゴについて

「指数 × 為替の “スプレッド先行指標” アルゴ」は、インデックス（株価指数等）と為替の相互関係を利用して一方が他方に先行する兆候（スプレッドの変化）を捉え、予測信号に変える高度な統計・機械学習＋実行系の組合せです。以下、理論から実装・検証・運用まで実務で使えるレベルで整理します（日本語で段階的に）。

1) コンセプト（要点）

「スプレッド先行指標」とは、**（指数の値動き）−（為替の値動き）**や二者間の比率／差分（＝スプレッド）が、ある時間ラグで相手方の値動きを予告する性質を利用する指標。
目標：スプレッドの統計的先行性を検出し、それを売買シグナルに変換して期待利得を得る。
応用例：株式インデックス先行 → 為替方向性の予測、または為替先行 → インデックスの短期ポジション決定。

2) 基本データと前処理

必須データ（高頻度にするほど良い）：
- 指数（例：NAS100, SPX500, JP225）のティック/1分/5分足価格
- 為替（例：USDJPY, EURUSD）の同期間価格
- 出来高・ティックボリューム（可能なら）
- スプレッド（ブローカー提示）・約定価格（実行性評価）
- マクロ指標時刻（フィルタ用）
前処理：
- 同一タイムスタンプに揃える（UTC or JST固定）
- 欠損補完（線形補間は短時間のみ）
- リターンに変換（対数リターンが一般的）
- ノイズ除去（短期EMAで平滑化は後工程で検討）
- 取引コスト・スリッページの注入（バックテストで必須）

3) 指標（特徴量）設計

（A）基本スプレッド・定義

単純差： spread_t = index_price_t - FX_price_t * κ（κはスケール調整）
比率： ratio_t = index_price_t / FX_price_t
リターンスプレッド（好ましい）： r_spread_t = r_index_t - α * r_fx_t
- r: log-return、αはボラ比で正規化（下記）

（B）ボラ補正・正規化

正規化済みスプレッド（Z-score）： z_t = (r_spread_t - μ_window) / σ_window μ/σ はローリング平均・標準偏差（例：20〜120期間）

（C）ATR変動比率やボラ比で重み付け：

α = std(r_index_window) / std(r_fx_window) でスケールを合わせる

（D）時間差特徴（ラグ）：

いくつかのラグを生成： z_{t−k} （k = 1..K）
ローリング相互相関（rolling cross-corr）を特徴にする

（E）高次特徴：

差の勾配（Δz）・加速度（Δ^2 z）
変化率（z_t / μ_window）
出来高/ティック数と組合せたボリューム加重指標

4) 先行性（Lead-Lag）検定方法

クロスコリレーション（CCF）：複数ラグの相互相関を計算し、どのラグで最大（正または負）になるか確認。
グレンジャー因果検定（Granger causality）：統計的に「スプレッドが為替の将来を説明するか」検定。
情報理論手法（Transfer Entropy）：非線形の先行性検出に有効。
回帰予測寄与（lagged regression）：r_fx_{t} = β0 + Σ_{k} β_k * z_{t−k} + ε_t の有意性確認。

実務では複数手法を併用。Grangerで多数の有意ラグが出れば、実用性は高まるが安定性（市場環境依存）に注意。

5) シグナル化（単純→複雑）

単純閾値型：
- If z_{t−k} > +h ⇒ ショート/ロングどちらか（設計次第）
- h は例えば 1.5〜2.5（標準偏差）
予測回帰／分類：
- 目的変数 y_t = sign(r_fx_{t+H}) または r_fx_{t+H} を予測
- モデル：線形回帰、LASSO、XGBoost、LightGBM、LSTM（時間依存があれば）
確率出力＋閾値：
- モデルの確率を利用し、閾値越えでエントリー（期待値が正の閾値で調整）
リアルタイム確率更新（カルマンフィルタ等）で信頼度を滑らかに

6) ポジション設計・ヘッジ

単純ポジション：FXのみ、または指数のみ（信号が対向資産の予想を示す場合）
ペアヘッジ型：指数と為替の両方でヘッジを組む（相関の変化を抑制）
例：モデルが「指数先行で円高（USDJPY下落）を予測」 → USDJPYショート＋小額で指数ショート（ヘッジ目的）
ロット調整：ボラティリティ・β（回帰係数）で動的にサイズ決定（等リスク貢献）
タイムホライズン H を固定し、保有時間は H またはシグナル反転でクローズ

7) リアルタイム実行フロー（概略）

データ受信・同期（index, fx, spreads）
ローリング統計更新（mean, std, α 等）
指標・特徴量計算（z, lags, Δ等）
予測モデル評価（確率/推定値）
シグナル生成（閾値・ポジションサイズ計算）
発注（成行 or 指値）→ 約定確認 → ポジション管理（トレーリングSL等）
ログ・監視（パフォ・リスク）

（低レイテンシ環境ならWebSocket/TCPでティック受け取り、C++/Rustで執行。裁量系はPythonで十分。）

8) バックテスト設計（重要）

時系列分割：訓練/検証/検査（walk-forward）で再現性確認
スリッページ＆手数料モデル必須（ブローカーの実際のスプレッド固定/可変を混入）
指標時の除外or別戦略（データにより振る舞いが変わる）
リアルティック・ティック差分での再現（5分足だけで評価すると短期性は過小評価）
シャープ、トレードあたり期待値、最大ドローダウン、プロフィットファクター、勝率、平均損益、持ち時間を計測

9) 評価指標と安定性チェック

主指標：Annualized Return, Sharpe, Max Drawdown, Calmar Ratio
トランザクション指標：Trades per period, Avg P/L per trade, Avg Duration
安定性：Walk-forward results, Rolling Sharpe, Bootstrap resampling, Monte Carlo P/L paths
経済的有意性：事後的に手数料込みでも正の期待値があるか

10) 実装（Python例：機能抽出＋Granger検定＋簡易ロジ回帰）

以下は概念実装（pandas/statsmodels/sklearn）。実行前にデータとライブラリを用意してください。

# requirements: pandas, numpy, statsmodels, sklearn
import pandas as pd
import numpy as np
from statsmodels.tsa.stattools import grangercausalitytests
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# df: DataFrame with columns ['time','index','fx']
df.set_index('time', inplace=True)
# ログリターン
df['r_index'] = np.log(df['index']).diff()
df['r_fx'] = np.log(df['fx']).diff()

# ボラ比でリスケール
win = 60
df['vol_index'] = df['r_index'].rolling(win).std()
df['vol_fx'] = df['r_fx'].rolling(win).std()
df['alpha'] = df['vol_index'] / (df['vol_fx'] + 1e-9)

# リターンスプレッド（正規化）
df['r_spread'] = df['r_index'] - df['alpha'] * df['r_fx']
df['z'] = (df['r_spread'] - df['r_spread'].rolling(win).mean()) / (df['r_spread'].rolling(win).std() + 1e-9)

# Grangerテスト：z が r_fx をグレンジャーするか（最大ラグ L）
L = 10
test_df = pd.concat([df['r_fx'].dropna(), df['z'].dropna()], axis=1).dropna()
grangercausalitytests(test_df[['r_fx','z']], maxlag=L, verbose=True)

# 特徴量作成（ラグ）
K = 5
for k in range(1, K+1):
    df[f'z_lag_{k}'] = df['z'].shift(k)

# 目的変数：将来Hステップのfxリターンが正か否か
H = 5
df['y'] = (df['r_fx'].shift(-H) > 0).astype(int)

# 学習データ作成
df_train = df.dropna()
X = df_train[[f'z_lag_{k}' for k in range(1,K+1)]].values
y = df_train['y'].values

sc = StandardScaler()
Xs = sc.fit_transform(X)
clf = LogisticRegression()
clf.fit(Xs, y)

# リアルタイムでの利用例
def predict(signal_vector):
    xv = sc.transform([signal_vector])
    p = clf.predict_proba(xv)[0,1]
    return p  # 例えば p > 0.6 でロングシグナル

注意：上は教育目的の簡易例。実運用では時系列CV、ウォークフォワード、過学習防止やラグ確認を必須にしてください。

11) リスク管理（必須）

1トレードあたりのリスク上限（例：資本の0.25%）
ポジションサイズはボラティリティで正規化（等リスク）
最大同時ポジション数・最大日次ドローダウンで自動停止
指標発表やグローバルイベントはポジション縮小or戦略停止
モデル退化検知（シグナル期待値低下 → 自動的に学習更新or停止）

12) よくある落とし穴（実務注意点）

ルックアヘッド／データリーク：未来情報が混入しないように厳格に管理
非定常性：リレーションは時期により変わる（危機時に崩壊する可能性大）
スプレッド変動と約定問題：理論上先行性あっても実際の執行コストで消える
サンプルサイズ不足：短期間で高次元モデルは過学習しやすい
相関崩壊（regime shift）：中央銀行・大ニュースで全く関係性が変わる
繁雑なレバレッジ管理：ボラに応じた適正レバレッジが必要

13) 実務的チューニングと運用の流れ（推奨）

小さな範囲（1〜3銘柄）でプロトタイプを作る
長期バックテスト（過去5年以上、出来れば10年）＋ウォークフォワード
コスト感度分析（スプレッド・スリッページを増やしても期待値が残るか）
リアルマネー前にライブ・シグナルのペーパートレード（2〜3ヶ月）
運用ルール化（停止条件・リトレーニング周期）
定期的なリキャリブレーション（月次or週次）

14) まとめ（実務アクション）

まずは簡単なr_spreadのZ-score → ラグ回帰 → Granger検定で「先行ラグの存在」を確認。
先行ラグが堅牢なら、確率モデル（ロジスティック等）に落とし込み、閾値で売買。
必ず手数料/スリッページを入れた上でバックテストし、ウォークフォワードで安定性を確認する。
最終的に実行系（低遅延or裁量）＋堅固なリスク管理に落とし込む。