Hilbert-Schmidt独立性基準(HSIC)#

はじめに#

2つの変数間の依存関係を測りたいとき、誰もがまっさきに思いつく方法は相関係数を計算することだと思います。
相関係数の計算方法については基本的な要約統計量の計算を参照してみてください。

ところで、この相関係数ですが、変数間の線形な関係しか捉えることができないという重大な問題があります。
例えばWikipediaから引用の次の図をご覧ください。

HSIC_fig1

ここではさまざまな2次元データ\((x,y)\)と、それに基づいて計算される相関係数の例が示されています。
これを見ると、相関係数はデータの線形関係に注目して、その正負の向きとばらつきを反映しますが(上段)、その関係の傾き自体や(中段)、ほとんどすべての非線形関係も反映することはできません(下段)。
(中央の図の傾きは0ですが、この場合は\(Y\)分散が0であるため相関係数は定義できません。)

実際、相関係数が\(\pm1\)の値をとるのは、2つの確率変数が完全に線形な関係にあるとき、かつそのときに限ることが知られています。
また2つの確率変数が互いに独立ならば相関係数は0となるものの、その逆は成り立たないことも知られています。
相関係数はこのような非常に単調な関係性しか評価できないということは、実用上も常に心に留めておく必要があります。

そこで本稿では、特に非線形な関係を取り扱う指標としてHilbert-Schmidt独立性基準(HSIC)を用いた検定について紹介します。
HSICは2変数\(X\)\(Y\)の間の独立性を評価するノンパラメトリックな指標で、より値が0に近いほど2変数は独立であると言うことができます。
イメージとしては、複雑な非線形関係にある\(X\)\(Y\)も、何かとっても都合の良い写像で飛ばした先では単純な関係であり、独立性も簡単に評価できるんじゃないかという想いから来ています。
機械学習のカーネル法などに詳しい方は、そのイメージで十分です!

この先、深入りすると理論面は非常に煩雑で困難を極めますので、本稿では付録としてHSICの導出を掲載するに留めさせてください。
ですが非常に有用な指標ですので、ぜひ手を動かしてHSICの面白さを体感いただければと思います。

HSICによる独立性検定の実装#

本稿では次の実装済みコードを用いてHSICによる独立性検定を行います。
コードの細かな詳細は割愛し、ここでは関数の入出力関係についての紹介のみとさせていただければと思います。

  • 入力:

    • X (np.ndarray): 第1変数 (n_samples, n_features)

    • Y (np.ndarray): 第2変数 (n_samples, n_features)

    • alpha (float): 検定の有意水準 (0<alpha<1)

  • 出力:

    • H0Reject (bool): 帰無仮説は棄却されるか?

      • False: 帰無仮説は棄却されない(XとYは独立ではないといえない)

      • True: 帰無仮説は棄却される(XとYは独立ではない)

    • testStat (float): 検定統計量

    • thresh (float): 有意水準にもとづく閾値(検定統計量以下なら棄却)

    • pvalue (float): 検定統計量にもとづくp値(有意水準以下なら棄却)

なおコードは実装者によって動作確認済みですが、不安で信用ならない方、さらなる詳細を知りたい方は参考文献記載のA Kernel Statistical Test of Independenceなども参照いただければと思います。

import numpy as np
import scipy.stats as st
from sklearn.gaussian_process import kernels


def HSIC_test(
    X: np.ndarray, Y: np.ndarray, alpha: float = 0.5
) -> (bool, float, float, float):
    """HSIC test
    【参考文献】
    - https://proceedings.neurips.cc/paper/2007/file/d5cfead94f5350c12c322b5b664544c1-Paper.pdf
    - https://github.com/amber0309/HSIC

    【Memo】
    - RBFカーネルのスケールはデータから自動調整

    Args:
        X (np.ndarray): 第1変数 (n_samples, n_features)
        Y (np.ndarray): 第2変数 (n_samples, n_features)
        alpha (float): 検定の有意水準 (0<alpha<1)

    Returns:
        H0Reject (bool): 帰無仮説は棄却されるか?
            - False: 帰無仮説は棄却されない(XとYは独立ではないといえない)
            - True: 帰無仮説は棄却される(XとYは独立ではない)
        testStat (float): 検定統計量
        thresh (float): 有意水準にもとづく閾値(検定統計量以下なら棄却)
        pvalue (float): 検定統計量にもとづくp値(有意水準以下なら棄却)

    """

    def auto_width(data):
        G = np.sum(data**2, axis=1).reshape(-1, 1)
        dists = np.tile(G, (1, N)) + np.tile(G.T, (N, 1)) - 2 * data @ data.T
        dists = np.tril(dists, k=-1).flatten()
        width = np.sqrt(0.5 * np.median(dists[dists > 0]))
        return width

    if np.ndim(X) == 1:
        X = X.reshape(-1, 1)
    if np.ndim(Y) == 1:
        Y = Y.reshape(-1, 1)
    if X.shape != Y.shape:
        raise ValueError(f"X and Y must have the same shape. : {X.shape}!={Y.shape}")

    if (alpha <= 0) or (1 <= alpha):
        raise ValueError(f"Parameter alpha must be in open interval (0,1).")

    N, P = X.shape

    # Auto-selected width
    width_x = auto_width(X)
    width_y = auto_width(Y)

    # Gram matrix
    K = kernels.RBF(length_scale=width_x).__call__(X, X)
    L = kernels.RBF(length_scale=width_y).__call__(Y, Y)

    # Centralized Gram matrix
    Q = np.identity(N) - np.ones([N, N]) / N
    Kc = Q @ K @ Q
    Lc = Q @ L @ Q

    # Test statistic
    testStat = np.sum(Kc.T * Lc) / N

    # variance HSIC
    varHSIC = (Kc * Lc) ** 2
    varHSIC = (np.sum(varHSIC) - np.trace(varHSIC)) / (N * (N - 1))
    varHSIC = (varHSIC * 2 * (N - 4) * (N - 5)) / (N * (N - 1) * (N - 2) * (N - 3))

    # mean HSIC
    muX = np.sum(K * ~np.identity(N).astype(bool)) / (N * (N - 1))
    muY = np.sum(L * ~np.identity(N).astype(bool)) / (N * (N - 1))
    mHSIC = ((muX - 1) * (muY - 1)) / N

    # shape parameter and scale parameter
    a = mHSIC**2 / varHSIC
    scale = varHSIC * N / mHSIC

    # thresh, pvalue, reject H0?
    thresh = st.gamma.isf(alpha, a, scale=scale)
    pvalue = st.gamma.sf(testStat, a, scale=scale)
    H0Reject = testStat > thresh

    return H0Reject, testStat, thresh, pvalue

使ってみよう!#

ではさっそく、相関係数では関係性の抽出が困難ないくつかのデータを用いて、HSICによる独立性検定の結果を比較してみようと思います。
なお、ここでは有意水準は常に0.05としています。

読み込み#

import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(1)

二次関数#

N = 1000

X = np.random.uniform(-2, 2, size=[N, 1])
Y = X**2 + np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/0d56bcfd327bd580077a4516fcfdafb6d269d211f1139838e7410f14c21a594a.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: -0.014
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: True
P値: 1.0122301991832691e-103

四次関数#

N = 1000

X = np.random.uniform(-2, 2, size=[N, 1])
Y = X**4 - 4 * X**2 + np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/92c221f661d19bd71da7f9bf0792bcbd1fe9a178f45d72f270a709b7604ba487.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: 0.004
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: True
P値: 2.967448700752687e-77

反比例#

N = 1000

X = np.r_[-np.logspace(-3, -1, int(N / 2)), np.logspace(-3, -1, int(N / 2))].reshape(
    -1, 1
)
Y = 1 / X + 10 * np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/7d5add19759527778160cf292ba8f2c9728dc0bc7afe903b91c52034c113b6f0.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: 0.091
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: True
P値: 0.0

三角関数#

N = 1000

X = np.random.uniform(-2, 2, size=[N, 1])
Y = np.sin(np.pi * X) + np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/6b03228f0367dbecec7c514f9340530e187a61e63db821db751330a13c04e4d4.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: -0.22
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: True
P値: 1.2294125276332267e-18

#

N = 1000

theta = np.linspace(0, 2 * np.pi, N).reshape(-1, 1)
X = 5 * np.cos(theta) + np.random.normal(size=[N, 1])
Y = 5 * np.sin(theta) + np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/6b7ae973c3715d4782fc7c44669bac68e6bc8484ebf0d76a61d382e535c5d2ec.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: -0.003
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: True
P値: 5.260714610535346e-39

一次関数#

相関係数でも抽出可能なシンプルな一次関数に対しても、HSICによる独立性検定は問題なく利用できます。

N = 1000

X = np.random.uniform(-2, 2, size=[N, 1])
Y = X + np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/8997a65936d037baad4d214ee88fce0fbd4aa27758d7f14b1dae0f24a812bf89.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: 0.79
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: True
P値: 2.2158619133318178e-198

独立(依存関係が存在しない場合)#

2つの変数が完全に独立で依存関係が存在しない場合には、HSICによる独立性検定は帰無仮説を棄却しません。
すなわち、「2つの変数が独立ではないといえない」( \(\fallingdotseq\) 独立だ)と結論づけることができます。

N = 1000

X = np.random.normal(size=[N, 1])
Y = np.random.normal(size=[N, 1])

X_normalized = st.zscore(X)
Y_normalized = st.zscore(Y)
plt.figure(figsize=[8, 6], dpi=200)
plt.scatter(X_normalized, Y_normalized)
plt.xlabel("(Normalized) X")
plt.ylabel("(Normalized) Y")
plt.grid()
plt.show()
../_images/800582c23eb9c3cdb0d0bc14796a3a5eab48abfd5579f2c8d79b3948b027723b.png
print(
    f"相関係数: {round(np.corrcoef(X_normalized.flatten(),Y_normalized.flatten())[0,1], 3)}"
)
相関係数: -0.023
H0Reject, testStat, thresh, pvalue = HSIC_test(X, Y, alpha=0.05)
print(f"帰無仮説は棄却されるか?: {H0Reject}")
print(f"P値: {pvalue}")
帰無仮説は棄却されるか?: False
P値: 0.6506885639824664

小括#

いかがでしたでしょうか?
実際の現象に内在する変数間の関係性が純粋な線形ということは、きっとめったにないんだろうと思いますので、このHilbert-Schmidt独立性基準(HSIC)をデータ分析に取り入れることで解析の応用の幅が広がるのではないかと考えています。
本稿に興味を持っていただいた方はぜひカーネル法についても学んでみてください!

参考文献#

付録#

Hilbert空間(Hilbert Space)#

  • 有限次元Euclid空間の一般化

  • 特に断りがない場合は内積が定義された完備な無限次元空間

  • 難しいので深入りしないの精神

(実)正定値カーネル#

\(k:\mathcal{X}\times\mathcal{X}\to\mathbb{R}\)\(\mathcal{X}\)上の(実)正定値カーネルであるとは、次の2つを満たすことをいう。

  1. 対称性

\[ k(x,y)=k(y,x) \]
  1. 正定値性

任意の自然数\(n\)\(x_1,\cdots,x_n\in\mathcal{X}\)に対して

\[\begin{split} \begin{equation} [k(x_i,x_j)]_{i,j=1}^n=\left[ \begin{array}{ccc} k(x_1,x_1)&\cdots&k(x_1,x_n)\\ \vdots&\ddots&\vdots\\ k(x_n,x_1)&\cdots&k(x_n,x_n) \end{array} \right] \end{equation} \end{split}\]

が(半)正定値、すなわち任意の実数\(c_1,\cdots,c_n\)に対して

\[ \sum_{i,j=1}^nc_ic_jk(x_i,x_j)\geq0 \]

また、\(\mathcal{V}\)を内積\(\langle\cdot,\cdot\rangle\)をもつベクトル空間とし、写像\(\Phi:\mathcal{X}\to\mathcal{V}\)が与えられているとすると

\[ k(x,y)=\langle\Phi(x),\Phi(y)\rangle \]

で定義されるカーネルは正定値カーネルとなる。

\[\begin{split} \begin{align} \sum_{i,j=1}^nc_ic_jk(x_i,x_j)&=\sum_{i,j=1}^nc_ic_j\langle\Phi(x_i),\Phi(x_j)\rangle\\ &=\langle\sum_{i=1}^nc_i\Phi(x_i),\sum_{j=1}^nc_j\Phi(x_j)\rangle\\ &=\left\|\sum_{i=1}^nc_i\Phi(x_i)\right\|^2\geq0 \end{align} \end{split}\]

従って、特徴ベクトルの内積は正定値カーネルとなる。

再生核Hilbert空間(RKHS)#

集合\(\mathcal{X}\)上の関数からなるHilbert空間であって、任意の\(x\in\mathcal{X}\)に対して\(\phi_x(\cdot)=k(\cdot,x)\in\mathcal{H}\)が存在し、以下の関係を満たすもの。

\[ f(x)=\langle f,\phi_x\rangle_{\mathcal{H}}\:\:\:\:\:(^{\forall}f\in\mathcal{H}) \]

このとき、\(\phi_x(\cdot)=k(\cdot,x)\)は再生核であり、再生核が存在すれば対応するRKHSは一意に存在する。
再生核Hilbert空間\(\mathcal{H}\)の再生核\(k\)は正定値カーネルとなる。

  1. 対称性

\[ k(x,y)=\phi_y(x)=\langle\phi_y,\phi_x\rangle_{\mathcal{H}}=\langle\phi_x,\phi_y\rangle_{\mathcal{H}}=\phi_x(y)=k(y,x) \]
  1. 正定値性

\(\Phi(x):=\phi_x=k(\cdot,x)\)と再生性から

\[ k(x,y)=\langle\phi_x,\phi_y\rangle_{\mathcal{H}}=\langle\Phi(x),\Phi(y)\rangle_{\mathcal{H}} \]

Moore-Aronszajnの定理#

\(k(x,y)\)を集合\(\mathcal{X}\)上の正定値カーネルとすると、\(\mathcal{X}\)上の関数からなるHilbert空間\(\mathcal{H}_k\)で次の3つを満たすものが一意に存在する。

  1. \(k(\cdot,x)\in\mathcal{H}_k\)\(x\in\mathcal{X}\)は任意に固定)

  2. 有限和\(f=\sum_{i=1}^nc_ik(\cdot,x_i)\)の元は\(\mathcal{H}_k\)の中で調密

  3. 再生性\(f(x)=\langle f,k(\cdot,x)\rangle_{\mathcal{H}_k}\) \((^{\forall}f\in\mathcal{H}_k,x\in\mathcal{X})\)

従ってカーネルトリック\(k(x,y)=\langle\Phi(x),\Phi(y)\rangle_{\mathcal{H}_k}\)が成り立つためには、正定値カーネル\(k\)を用意して

\[ \Phi:\mathcal{X}\to\mathcal{H}_k,\:\:\:\Phi(x)=k(\cdot,x) \]

となる特徴写像\(\Phi\)を考えれば十分である。

独立性#

\(m\)次元確率変数\(X\)\(n\)次元確率変数\(Y\)が独立であるとは、任意の可測集合\(\mathcal{X}\)\(\mathcal{Y}\)に対し、

\[ \mathrm{Pr}(X\in\mathcal{X},Y\in\mathcal{Y})=\mathrm{Pr}(X\in\mathcal{X})\mathrm{Pr}(Y\in\mathcal{Y}) \]

が成り立つことで、これを\(X\perp Y\)と表記する。

\(X\perp Y\)ならば\(E[f(X)g(Y)]=E[f(X)]E[g(Y)]\)である。

また\((X,Y)\)の分布が確率密度関数\(p_{XY}(x,y)\)をもつとき、それぞれの周辺分布の密度関数を\(p_X(x)\)\(p_Y(y)\)とすると\(X\perp Y\Leftrightarrow p_{XY}(x,y)=p_X(x)p_Y(y)\)である。

独立性評価尺度のアイディア#

以下が成り立つ。

\[ X\perp Y\Leftrightarrow\text{任意の可測関数$f$と$g$について}~\mathrm{Cov}[f(X),g(Y)]=0 \]

独立性(依存性)尺度として次を使えないか?

\[ \sup_{f,g\::\mathrm{measureable}}|\mathrm{Cov}[f(X),g(Y)]| \]

しかし、すべての可測関数を評価することは不可能。
また有限サンプルでどうやって推定するのか?

→再生核Hilbert空間で考えよう!

カーネル平均#

\(X\)を可測空間\((\mathcal{X},\mathcal{B})\)に値を取る確率変数とし、\(k\)\(\mathcal{X}\)上の可測な正定値カーネル、\(\mathcal{H}_k\)\(k\)の定める一意なRKHSとする。

\(\mathcal{B}\)はボレル集合族であるが闇が深そうなので深入りしない)

このとき\(X\)の(\(\mathcal{H}_k\)における)カーネル平均は次のように定義される。

\[ m_X(=m_P):=E[\Phi(X)]=E[k(\cdot,X)]=\int k(\cdot,x)dP(x)=\int k(\cdot,x)p_X(x)dx \]

厳密には\(E[\|\Phi(X)\|]=E[\|k(\cdot,X)\|]<\infty\)のときカーネル平均が存在(Bochner積分)。

カーネル平均\(m_X\)もRKHSの元となる。
従って\(^{\forall}f\in\mathcal{H}_k\)に対して再生性が成り立つとともに、平均操作と内積は交換可能となる。

\[\begin{split} \begin{align} \langle f,m_X\rangle_{\mathcal{H}_k}&=E[f(X)]\\ \langle f,E[\Phi(X)]\rangle_{\mathcal{H}_k}&=E[\langle f,\Phi(X)\rangle_{\mathcal{H}_k}] \end{align} \end{split}\]

特性的な正定値カーネル#

可測空間\((\mathcal{X},\mathcal{B})\)上の可測かつ有界な正定値カーネル\(k\)が特性的であるとは

\[ E_{X\sim P}[k(\cdot,X)]=E_{Y\sim Q}[k(\cdot,Y)]\Leftrightarrow P=Q \]

特性的なカーネルによって、カーネル平均\(m_X(=m_P)\)は分布\(P\)を一意に定める。
特性的なカーネルを用いることで分布\(P\)に関する推論問題をベクトル\(m_X(=m_P)\)に関する推論問題に置き換えることができる。

カーネル平均の推定#

i.i.d.な標本\(X_1,\cdots,X_n\)に対してカーネル平均の推定は

\[ \hat{m}_X^{(n)}:=\frac{1}{n}\sum_{i=1}^nk(\cdot,X_i) \]

であり、この推定量\(\hat{m}_X^{(n)}\)には一致性がある。

\[ \|\hat{m}_X^{(n)}-m_X\|_{\mathcal{H}_k}=O(n^{-\frac{1}{2}})\:\:\:(n\to\infty) \]

共分散作用素#

\((X,Y)\)\(\mathcal{X}\times\mathcal{Y}\)上の確率変数とし、\((\mathcal{H}_X,k_X)\)\(\mathcal{X}\)上のRKHS、\((\mathcal{H}_Y,k_Y)\)\(\mathcal{Y}\)上のRKHSとする。

このとき共分散作用素は次のように定義される。

\[\begin{split} \begin{align} C_{YX}:=&E[\Phi_Y(Y)\langle\Phi_X(X),\cdot\rangle_{\mathcal{H}_X}]\\ C_{YX}f=&\int k_Y(\cdot,y)f(x)dP(x,y) \end{align} \end{split}\]

共分散作用素はEuclid空間上の通常の確率ベクトル\(X\)\(Y\)の共分散行列\(V_{YX}=E[YX^{\top}]\)の自然な拡張とみなせる。

\(^{\forall}f\in\mathcal{H}_X\)に対して\(C_{YX}f\)はRKHSの元となる。
従って\(^{\forall}f\in\mathcal{H}_X, {\:}^{\forall}g\in\mathcal{H}_Y\)に対して再生性を満たす。

\[ \langle g,C_{YX}f \rangle_{\mathcal{H}_Y}=E[f(X)g(Y)] \]

共分散作用素は\(X\)\(Y\)との関係を表現しているといえる。
また共分散作用素は次のように中心化することができる。

\[ \Sigma_{YX}:=C_{YX}-m_Y\otimes m_X \]

共分散作用素の推定#

i.i.d.な標本\((X_1,Y_1),\cdots,(X_n,Y_n)\sim P\)に対して共分散作用素の推定は

\[\begin{split} \begin{align} \hat{C}_{YX}f:=&\frac{1}{n}\sum_{i=1}^nk_Y(\cdot,Y_i)\langle k_X(\cdot,X_i),f\rangle\\ =&\frac{1}{n}\sum_{i=1}^nk_Y(\cdot,Y_i)f(X_i) \end{align} \end{split}\]

であり、この推定量\(\hat{C}_{YX}\)にも一致性がある。

また中心化した共分散作用素は次のように推定することができる。

\[ \hat{\Sigma}_{YX}:=\hat{C}_{YX}-\hat{m}_Y\otimes\hat{m}_X \]

Hilbert-Schmidtノルム#

Hilbert空間の間の作用素\(T:\mathcal{H}_X\to \mathcal{H}_Y\)がHilbert-Schmidtであるとは、\(\mathcal{H}_X\)\(\mathcal{H}_Y\)の任意の正規直交基底\(\{f_i\}_i\)\(\{g_j\}_j\)に対して

\[ \sum_{i,j}\|\langle g_j,Tf_i\rangle\|_{\mathcal{H}_Y}^2<\infty \]

であることをいう。
このとき左辺の値は正規直交基底の取り方によらず

\[ \|T\|_{HS}:=\sqrt{\sum_{i,j}\|\langle g_j,Tf_i\rangle\|_{\mathcal{H}_Y}^2} \]

はHilbert-Schmidt作用素全体のなすベクトル空間にノルムを定める。

Hilbert-Schmidt独立性基準(HSIC)#

\((X,Y)\)\(\mathcal{X}\times\mathcal{Y}\)上の確率変数とし、\((\mathcal{H}_X,k_X)\)\(\mathcal{X}\)上のRKHS、\((\mathcal{H}_Y,k_Y)\)\(\mathcal{Y}\)上のRKHSとする。

このときHilbert-Schmidt独立性基準を次のように定める。

\[ \mathrm{HSIC}(X,Y):=\|\Sigma_{YX}\|_{HS}^2=\|C_{YX}-m_Y\otimes m_X\|_{HS}^2 \]

またその推定は次のようになる。

\[ \widehat{\mathrm{HSIC}}(X,Y):=\|\hat{\Sigma}_{YX}\|_{HS}^2=\|\hat{C}_{YX}-\hat{m}_Y\otimes \hat{m}_X\|_{HS}^2 \]

積カーネル\(k_Xk_Y\)\(\mathcal{X}\times\mathcal{Y}\)において特性的であればHSICと独立性は次の関係を満たす。

\[ X\perp Y\Leftrightarrow\Sigma_{YX}=0\Leftrightarrow\mathrm{HSIC}(X,Y)=\|\Sigma_{YX}\|_{HS}^2=0 \]

HSICはすべての任意の正規直交基底\(\{f_i\}_i\)\(\{g_j\}_j\)の組みに関する共分散の二乗和である。

\[ \mathrm{HSIC}(X,Y)=\|\Sigma_{YX}\|_{HS}^2=\sum_{i,j}\|\langle g_j,\Sigma_{YX}f_i\rangle\|_{\mathcal{H}_Y}^2=\sum_{i,j}\mathrm{Cov}^2[f_i(X),g_j(Y)] \]

従って、HSICはすべての基底関数の組みに関して共分散を評価する指標といえ、\(\mathrm{HSIC}(X,Y)=0\)ならばすべての基底関数の組みに関して共分散が0で\(X\)\(Y\)は独立である。

またHSICは積分表示をもち推定量を容易に求めることができる。
\((X',Y')\)\((X,Y)\)の独立なコピーとする。

\[\begin{split} \begin{align} \mathrm{HSIC}(X,Y)&=\|C_{YX}-m_Y\otimes m_X\|_{HS}^2\\ &=E[k_X(X,X')k_Y(Y,Y')]\\ &-2E[E[k_X(X,X')k_Y(Y,Y')|X,Y]]\\ &+E[k_X(X,X')]E[k_Y(Y,Y')]\\ \widehat{\mathrm{HSIC}}(X,Y)&=\frac{1}{n^4}\sum_{i,j,s,t}k_X(X_i,X_j)k_Y(Y_s,Y_t)\\ &-\frac{2}{n^3}\sum_{i,j,s}k_X(X_i,X_j)k_Y(Y_s,Y_j)\\ &+\frac{1}{n^2}\sum_{i,j}k_X(X_i,X_j)k_Y(Y_i,Y_j)\\ &=\frac{1}{n^2}\mathrm{Tr}[\tilde{K}_X\tilde{K}_Y] \end{align} \end{split}\]

ここで、\(K_X\)\(K_y\)はグラム行列で\(\tilde{K}_X\)\(\tilde{K}_y\)は中心化されたグラム行列である。

\[\begin{split} \begin{align} \tilde{K}&=Q_nKQ_n\\ Q_n&=I_n-\frac{1}{n}\bf{1}_n\bf{1}_n^{\top} \end{align} \end{split}\]