用語集(は行)#

#

#

p値#

  • 読み: ぴーち

  • 英語での表現: p-value

  • Tags: 確率・統計

仮説検定において、帰無仮説が正しいと仮定したときに、データから計算された検定統計量よりも極端な(仮説に反する)ことが起こる確率のこと。p値は「検定統計量よりも極端な事象が起こる確率」であるため累積確率となることに注意。事前に設定した有意水準と比較して仮説検定が行われる。


標準化#

  • 読み: ひょうじゅんか

  • 英語での表現: standardization

  • Tags: 確率・統計/機械学習

データを利用しやすくするために変換すること。正規化/規格化と同義。特徴量ごとにとりうる値の範囲が大きく異なると解析結果に悪影響を及ぼすことが多々あるため、データの前処理としてよく施される。
特に機械学習の分野においてはデータを平均0、分散1に変換する処理を意味することが多い。この変換方法はz-score scalingとも呼ばれる。

平均\(\mu\), 標準偏差\(\sigma\)のデータ\(x\)を平均0, 分散1の標準化を施すと、変換後の値\(z\) は次式である。

\[ z = \frac{x-\mu}{\sigma} \]

機械学習ライブラリscikit-learnでは、StandardScaler として実装されている。

関連項目


標準偏差#

  • 読み: ひょうじゅんへんさ

  • 英語での表現: standard deviation

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、平均からの分布やデータのばらつきの程度を示すもの。確率変数 \(X\)分散\(\sigma^2\) としたとき、 \(X\) の標準偏差を

\[ \sigma = \sqrt{\sigma^2} \]

で定める。データ \(\{ X_1, \ldots, X_n \}\) の標本分散に関連する用語には揺れがあるが、データの不偏分散\(s^2\) としたとき、その平方根

\[ s = \sqrt{s^2} \]

をデータの標本標準偏差 (sample standard deviation) と呼ぶことが多い。一般に、標本標準偏差はデータの従う確率分布の標準偏差の不偏推定量ではない。

#

ブートストラップ法#

  • 読み: ぶーとすとらっぷほう

  • 英語での表現: bootstrapping

  • Tags: 確率・統計

サンプルから復元抽出により同じサイズの再標本を複数個取得し、各再標本について推定量を計算することで推定量の分布を近似的に得る手法。推定量の標準偏差や信頼区間の計算のほか、仮説検定を行う際に用いられることもある。

負の二項分布#

  • 読み: ふのにこうぶんぷ

  • 英語での表現: negative binomial distribution

  • Tags: 確率・統計

無限に続く独立なベルヌーイ試行(成功確率\(p\))において、\(r\)回成功するまでの失敗回数が従う分布\(NB(x;r,p)\)

確率関数

\[ P(X=x)=\:_{x+r-1}C_xp^r(1-p)^x\;\;\;(x=0,1,\ldots) \]

確率母関数

\[ G_X(s)=\left(\frac{p}{1-(1-p)s}\right)^r \]

期待値

\[ E[X]=\frac{r(1-p)}{p} \]

分散

\[ V[X]=\frac{r(1-p)}{p^2} \]

再生性
互いに独立な\(X_i\sim NB(x;r_i,p)\)について

\[ X_1+X_2\sim NB(x;r_1+r_2,p) \]

ポアソン分布ガンマ分布による表現
ポアソン分布\(Po(x;\lambda)\)\(\lambda\)をガンマ分布\(Ga(x;r,p/(1-p))\)で重み混合すると負の二項分布\(NB(x;r,p)\)になる。


分位点#

  • 読み: ぶんいてん

  • 英語での表現: quantile

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、その値を境界に分布やデータが丁度 \(q : ( 1 - q )\) に分けられるような値のことを指す。確率変数 \(X\) については、

\[ P ( X \le Q_q ) \ge q \; \text{and} \; P ( X \ge Q_q ) \ge 1 - q \]

をみたすような \(Q_q\)\(X\)\(q\)-分位点という。中央値\(0.5\)-分位点である。また、 \(0.25\)-分位点を第1四分位点、 \(0.75\)-分位点を第3四分位点といい、 \(q\)-分位点のことを \(100 q\)-パーセント点 (percentile) ともいう。データ \(\{ X_1, \ldots, X_n \}\) については、これらの値を小さい方から順に並べ替えた物を \(\{ X_{\sigma(1)}, \ldots, X_{\sigma(n)} \} \; ( X_{\sigma(1)} \le \ldots \le X_{\sigma(n)} )\) として、 \(t_q = 1 - q + q n\) について

\[\begin{split} Q_q = \left\{ \begin{array}{cc} ( \lceil t_q \rceil - t_q ) X_{\sigma(\lfloor t_q \rfloor)} + ( t_q - \lfloor t_q \rfloor ) X_{\sigma(\lceil t_q \rceil)} & ( t_q \notin \mathbf{Z} ) \\ X_{\sigma(t_q)} & ( t_q \in \mathbf{Z} ) \end{array} \right. \end{split}\]

なる \(Q_q\) をデータの \(q\)-分位点という。データの第1四分位点、第3四分位点、パーセント点などについても同様に定める。


分散#

  • 読み: ぶんさん

  • 英語での表現: variance

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、平均からの分布やデータのばらつきの程度を示すもの。確率変数 \(X\) の平均を \(\mu\) としたとき、 \(X\) の分散を

\[ \sigma^2 = \mathrm{V} [ X ] = \mathrm{E} [ ( X - \mu ) ^2 ] \]

で定める。データ \(\{ X_1, \ldots, X_n \}\) の平均を \(\bar{X}\) としたとき、このデータの標本分散 (sample variance) を

\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n ( X_i - \bar{X} ) ^2 \]

で、不偏分散 (unbiased variance) を

\[ s^2 = \frac{1}{n - 1} \sum_{i=1}^n ( X_i - \bar{X} ) ^2 = \frac{n}{n - 1} \hat{\sigma}^2 \]

でそれぞれ定める。データが独立同分布のとき、不偏分散はその確率分布の分散(存在すれば)の不偏推定量になっている。

#


平均#

  • 読み: へいきん

  • 英語での表現: mean

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、算術平均の意味でデータの中間的な値を示すもの。一般に、確率変数 \(X\) の平均(推測統計における母平均 (population mean) に相当)はその期待値

\[ \mu = \mathrm{E} [ X ] \]

で、データ \(\{ X_1, \ldots, X_n \}\) の平均(推測統計における標本平均 (sample mean) に相当)はその算術平均

\[ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]

でそれぞれ定める。データが独立同分布のとき、平均はその確率分布の平均(存在すれば)の不偏推定量になっている。


平均絶対誤差#

  • 読み: へいきんぜったいごさ

  • 英語での表現: mean absolute error, MAE

  • Tags: 機械学習

サンプルごとに予測値\(\hat{y}_i\)と真値\(y_i\)の差(誤差)の絶対値を計算し、それらを平均したもの。機械学習の評価指標のひとつで、主に回帰問題で使用される。平均二乗誤差と比較すると外れ値に頑健であるが、絶対値が含まれているため解析的に取り扱いが難しい場合がある。

\[ \mathrm{MAE}=\frac{1}{n}\sum_{i=1}^n|y_i-\hat{y}_i| \]

平均二乗誤差#

  • 読み: へいきんにじょうごさ

  • 英語での表現: mean squared error, MSE

  • Tags: 機械学習

サンプルごとに予測値\(\hat{y}_i\)と真値\(y_i\)の差(誤差)の二乗を計算し、それらを平均したもの。機械学習の評価指標のひとつで、主に回帰問題で使用される。一般的には、平均二乗誤差に平方根をとった平方根平均二乗誤差(root mean squared error, RMSE)が用いられる。最も広く用いられ汎用性の高い指標であるが、平均絶対誤差と比較すると外れ値の影響を受けやすいため、外れ値に適切な処理を事前に施すことが推奨される。

\[\begin{split} \mathrm{MSE}&=\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2\\ \mathrm{RMSE}&=\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2} \end{split}\]

平均二乗対数誤差#

  • 読み: へいきんにじょうたいすうごさ

  • 英語での表現: mean squared logarithmic error, MSLE

  • Tags: 機械学習

サンプルごとに予測値\(\hat{y}_i\)\(+1\)した対数と真値\(y_i\)\(+1\)した対数の差(対数誤差)の二乗を計算し、それらを平均したもの。機械学習の評価指標のひとつで、主に回帰問題で使用される。一般的には、平均二乗対数誤差に平方根をとった平方根平均二乗対数誤差(root mean squared logarithmic error)が用いられる。\(\log x\)が実数上\(x>0\)でのみ定義されるため、予測値と真値が\(-1\)より大きい場合に使用できる。平均二乗誤差と比較すると、対数の性質により外れ値に頑健であり、予測値と真値の比率に注目したい場合によく用いられる。

\[\begin{split} \mathrm{MSLE}&=\frac{1}{n}\sum_{i=1}^n(\log(1+y_i)-\log(1+\hat{y}_i)^2\\ &=\frac{1}{n}\sum_{i=1}^n\left(\log\frac{1+y_i}{1+\hat{y}_i}\right)^2\\ \mathrm{RMSLE}&=\sqrt{\frac{1}{n}\sum_{i=1}^n(\log(1+y_i)-\log(1+\hat{y}_i)^2}\\ &=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(\log\frac{1+y_i}{1+\hat{y}_i}\right)^2} \end{split}\]

ベイズの定理#

  • 読み: べいずのていり

  • 英語での表現: Bayes' theorem

  • Tags: 確率・統計

条件付き確率についての性質 \(P ( A \cap B ) = P ( A | B ) P ( B ) = P ( B | A ) P ( A )\) から直ちに導かれる式

\[ P ( B | A ) = \frac{P ( A | B ) P ( B )}{P ( A )} \]

をベイズの定理という。ベイズ統計においては、未知の量(興味のあるパラメータなど) \(\theta\) についての確率分布を新しい情報(データなど) \(X\) を観測して

\[ p ( \theta | X ) = \frac{p ( X | \theta ) p ( \theta )}{p ( X )} \]

のように更新するという形でこの定理が利用される。この場合、 \(p ( \theta )\)\(\theta\)事前分布といい、 \(p ( \theta | X )\)\(\theta\)事後分布という。


ベータ分布#

  • 読み: べーたぶんぷ

  • 英語での表現: beta distribution

  • Tags: 確率・統計

\(\alpha+\beta-1\)個の確率変数\(X_1,\ldots,X_{\alpha+\beta-1}\)が互いに独立に同一の連続一様分布\(U(x;0,1)\)に従う場合に、\(\alpha\)番目に小さい確率変数\(X_{\alpha}\) (\(\alpha\)番目の順序統計量) が従う確率分布\(Be(x;\alpha,\beta)\)

確率密度関数

\[ f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} \]

ただし\(B(\alpha,\beta)\)はベータ関数で

\[ B(\alpha,\beta)=\int_0^1x^{\alpha-1}(1-x)^{\beta-1}dx \]

期待値

\[ E[X]=\frac{\alpha}{\alpha+\beta} \]

分散

\[ V[X]=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \]

二項分布との関係性
\(k\geq2\)かつ\(k\in\mathbb{N}\)の場合、ベータ分布と二項分布は次の関係性にある。

\[ \int_p^1\frac{1}{B(k,n-k+1)}x^{k-1}(1-x)^{n-k}dx=\sum_{x=0}^{k-1}\:_nC_xp^x(1-p)^{n-x} \]

これは当たり確率\(p\)の試行を\(n\)回行なったとき、当たり回数が\(k\)回未満である確率を示している。


ベルヌーイ分布#

  • 読み: べるぬーいぶんぷ

  • 英語での表現: Bernoulli distribution

  • Tags: 確率・統計

確率\(p\)で成功(\(X=1\))し、確率\(1-p\)で失敗(\(X=0\))するような、2種類の結果しか得られない試行が従う分布\(B(x;1,p)\)

確率関数

\[ P(X=x)=p^x(1-p)^{1-x}\;\;\;(x=0,1) \]

確率母関数

\[ G_X(s)=sp+1-p \]

期待値

\[ E[X]=p \]

分散

\[ V[X]=p(1-p) \]

変分推論#

  • 読み: へんぶんすいろん

  • 英語での表現: variational inference, VI

  • Tags: 確率・統計

ベイズ統計において事後分布を近似する手法の一つ。変分ベイズ (variational Bayes) や変分近似 (variational approximation) とも呼ばれる。

データ \(X\) を観測した後の興味がある変数\(z\) の事後分布\(p ( z | X )\) について、これを直接導出せずに別の確率分布 \(q ( z )\) を用いて近似することを考える。このとき2つの分布のKullback-Leibler情報量

\[ D_\mathrm{KL} ( q ( z ) \| p ( z | X ) ) = \mathrm{E}_{q ( z )} \left[ \log \frac{q ( z )}{p ( z | X )} \right] \]

が最小となるような \(q ( z )\) を選択したいが、この式を変形した

\[ \log p ( X ) = D_\mathrm{KL} ( q ( z ) \| p ( z | X ) ) + \mathrm{E}_{q ( z )} [ - \log q ( z ) + \log p ( X, z )] \]

の左辺の対数周辺尤度 \(\log p ( X )\)\(q\) に依存しない定数なので、そのためには変分下界 (エビデンス下界, evidence lower bound, ELBO)

\[ \mathcal{L} ( q ) = \mathrm{E}_{q ( z )} [ - \log q ( z ) + \log p ( X, z )] \]

を最大化するような \(q\) を選択すればよいことが分かる。この方法で事後分布を近似する分布 \(q\) を求めることを変分推論という。

#

ポアソン分布#

  • 読み: ぽあそんぶんぷ

  • 英語での表現: Poisson distribution

  • Tags: 確率・統計

単位時間あたりに平均\(\lambda\)回起きる現象が、単位時間に起きる回数の従う分布\(Po(x;\lambda)\)

確率関数

\[ P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda}\;\;\;(x=0,1,\ldots) \]

確率母関数

\[ G_X(s)=e^{\lambda(s-1)} \]

期待値

\[ E[X]=\lambda \]

分散

\[ V[X]=\lambda \]

再生性
互いに独立な\(X_i\sim Po(x;\lambda_i)\)について

\[ X_1+X_2\sim Po(x;\lambda_1+\lambda_2) \]