用語集（た行）#

た#

第一種の過誤#

読み: だいいっしゅのかご
英語での表現: type I error
Tags: 確率・統計

仮説検定において、本当は帰無仮説が正しいのに、誤って帰無仮説を棄却してしまうこと。p値が有意水準$\alpha$より小さく帰無仮説を棄却してしまう場合でも、本当に偶然まれな事象が起こっている場合もあり、有意水準$\alpha$は第一種の過誤を犯す確率とも呼ばれる。

大数の法則#

読み: たいすうのほうそく
英語での表現: law of large numbers
タグ: 確率・統計

確率論における基本定理の一つ。独立同分布に従う確率変数の標本平均に関する極限定理を与える。平均 $\mu$ の分布に互いに独立に従う確率変数 $X_1,X_2,\ldots$ と、任意の正実数 $\epsilon>0$ に対して、標本平均 $\bar{X}_n=\frac{1}{n}\sum_{k=1}^nX_k$ は次の関係を満たす。

\[ \lim_{n\to\infty}P(|\bar{X}_n-\mu|\geq\epsilon)=0 \]

厳密にはこれは確率収束を表す大数の弱法則であり、概収束を表す大数の強法則 $P(\lim_{n\to\infty}\bar{X}_n=\mu)=1$ とは明確に区別される。強法則の方が弱法則より強い主張をしているが、両者の違いの説明や強法則の証明は煩雑になるため、ここでは弱法則についてのみ説明する。

大数の弱法則は、標本平均 $\bar{X}_n$ と真の平均 $\mu$ の差が $\epsilon$ 以上になる確率は $n\to\infty$ で0に収束することを意味している。例えば理想的なサイコロを振ることを考える。 $k$ 回目の出目を $X_k$ とおくと、 $X_1,X_2,\ldots$ は平均 $\mu=3.5$ の独立同分布に従う。このとき $n$ 回振った場合の出目の標本平均 $\bar{X}_n$ は、 $n$ が十分大きい場合（ $n\to\infty$ ）に $\mu$ に限りなく近づいていき、標本平均が真の平均より $\epsilon$ だけ偏る確率は0に収束していく。これが大数の弱法則である。

$X_1,X_2,\ldots$ のそれぞれ従う分布の分散 $\sigma^2$ が有限の場合、大数の弱法則はチェビシェフの不等式から簡単に導かれる。次の標本平均の期待値と分散の性質を利用する。

\[\begin{split} \begin{align*} E[\bar{X}_n]&=E\left[\frac{1}{n}\sum_{k=1}^nX_k\right]=\frac{1}{n}\sum_{k=1}^nE[X_k]=\frac{n\mu}{n}=\mu\\ V[\bar{X}_n]&=V\left[\frac{1}{n}\sum_{k=1}^nX_k\right]=\frac{1}{n^2}\sum_{k=1}^nV[X_k]=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}\\ \end{align*} \end{split}\]

したがって、確率変数$\bar{X}_n$は期待値$\mu$と分散$\frac{\sigma^2}{n}$をもつので、チェビシェフの不等式に直接代入することで大数の弱法則が得られる。

\[ \begin{align*} P(|\bar{X}_n-\mu|\geq \epsilon)&\leq\frac{\sigma^2}{n\epsilon^2}\to0\:\:\:(n\to\infty) \end{align*} \]

第二種の過誤#

読み: だいにしゅのかご
英語での表現: type II error
Tags: 確率・統計

仮説検定において、本当は対立仮説が正しいのに、誤って帰無仮説を棄却しないこと。検出力（帰無仮説が正しくないときに正しく帰無仮説を棄却する確率）を$1-\beta$とすれば、$\beta$は第二種の過誤を犯す確率とも呼ばれる。

対立仮説#

読み: たいりつかせつ
英語での表現: alternative_hypothesis
Tags: 確率・統計

仮説検定において帰無仮説に対する仮説のこと。本来証明したい仮説であり、帰無仮説が棄却された際に採択される。仮説検定では帰無仮説の正しさを検証するように検定を進めるが、成り立つか知りたいのはこちらの方である。一般的に$H_1$と表記される。

多項分布#

読み: たこうぶんぷ
英語での表現: multinomial distribution
Tags: 確率・統計

ベルヌーイ試行のかわりに、結果が$K$個のカテゴリに分類される試行を考えた場合、各カテゴリの発生確率を $p_1,\ldots,p_K$ として、独立に $n$ 回試行した時の各カテゴリの発生回数（ $X_1,\ldots,X_K$ ）が従う分布 $Mult(x_1,\ldots,x_K;p_1,\ldots,p_K,n)$ 。

確率関数

\[ P(X_1=x_1,\ldots,X_K=x_k)=\frac{n!}{x_1!\cdots x_K!}p_1^{x_1}\cdots p_K^{x_K} \]

ただし

\[ \sum_{i=1}^Kp_i=1,\;\;\;\sum_{i=1}^Kx_i=n,\;\;\;x_i\geq0 \]

確率母関数

\[ G_X(s_1,\ldots,s_K)=\left(p_1s_1+\cdots+p_Ks_K\right)^n \]

期待値

\[ E[X_i]=np_i \]

分散

\[ V[X_i]=np_i(1-p_i) \]

共分散

\[ Cov[X_i,X_j]=-np_ip_j \]

多変量正規分布#

読み: たへんりょうせいきぶんぷ
英語での表現: multivariate normal distribution
Tags: 確率・統計

多変量確率変数 $X\in\mathbb{R}^d$ について、変数間に相関があることを考慮して拡張された正規分布 $N(x;\mu,\Sigma)$ 。ただしこのパラメータ $\Sigma$ は半正定値行列。

確率密度関数

\[ f(x;\mu,\sigma^2)=\frac{1}{\sqrt{(2\pi)^d|\Sigma|}}\exp\left(-\frac{1}{2}(x-\mu)^{\mathrm{T}}\Sigma^{-1}(x-\mu)\right) \]

モーメント母関数

\[ M_X(t)=\exp\left(\mu^{\mathrm{T}} t+\frac{1}{2}t^{\mathrm{T}}\Sigma t\right) \]

期待値

\[ E[X]=\mu \]

分散共分散

\[ V[X]=\Sigma \]

ち#

チェビシェフ距離#

読み: ちぇびしぇふきょり
英語での表現: Chebyshev distance
Tags: 基礎数学

有限個の実数の組の集合 $\mathbf{R}^n$ ( $n < \infty$ ) に定義される距離の一つで、 $\mathbf{R}^n$ の2つの要素 $\mathbf{x} = ( x_1, \ldots, x_n )$ および $\mathbf{y} = ( y_1, \ldots, y_n )$ (各 $x_i, y_i \in \mathbf{R}$ ) に対して

\[ d ( \mathbf{x}, \mathbf{y} ) = \max_{1 \le i \le n} | x_i - y_i | \]

で与えらえれるもの。チェス盤上でキングが2つのマスの間を移動するのにかかる手数で例えられることからチェス盤距離 (chessboard distance) と呼ばれることもある。

チェビシェフの不等式#

読み: ちぇびしぇふのふとうしき
英語での表現: Chebyshev's inequality
タグ: 確率・統計

確率論における基本的な不等式の一つ。任意の標本または確率分布に対して、分布と標準偏差の間の関係を示した不等式である。$X$は期待値$\mu$と（有限の）分散$\sigma^2$をもつ確率変数とすれば、任意の正実数$k>0$に対して次の不等式が成り立つ。ただしこの不等式は$k>1$の場合のみ意味を持つ。

\[P(|X-\mu|\geq k\sigma)\leq\frac{1}{k^2}\]

特に$\epsilon=k\sigma$とすれば、次のように表現し直すこともできる。

\[ P(|X-\mu|\geq \epsilon)\leq\frac{\sigma^2}{\epsilon^2} \]

チェビシェフの不等式は期待値から外れた現象が生じる確率を見積る場合に役立つ。例えば、平均から標準偏差の2倍以上離れた値は全体の$\frac{1}{4}$以下である。一般に、標準偏差の$k$倍以上離れた値は全体の$\frac{1}{k^2}$以下である。

チェビシェフの不等式はマルコフの不等式から簡単に導かれる。マルコフの不等式において$X=(X-\mu)^2$、$a=k^2\sigma^2$とおくと、

\[\begin{split} \begin{align*} P((X-\mu)^2\geq k^2\sigma^2)&\leq\frac{E[(X-\mu)^2]}{k^2\sigma^2}\\ \Longleftrightarrow\:\:\: P(|X-\mu|\geq k\sigma)&\leq\frac{\sigma^2}{k^2\sigma^2}=\frac{1}{k^2} \end{align*} \end{split}\]

中央値#

読み: ちゅうおうち
英語での表現: median
Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、その値を境界に分布やデータが丁度半分ずつに分けられるような値のことを指す。確率変数 $X$ については、

\[ P ( X \le m ) \ge \frac{1}{2} \; \text{and} \; P ( X \ge m ) \ge \frac{1}{2} \]

をみたすような $m$ を $X$ の中央値という。データ $\{ X_1, \ldots, X_n \}$ については、これらの値を小さい方から順に並べ替えた物を $\{ X_{\sigma(1)}, \ldots, X_{\sigma(n)} \} \; ( X_{\sigma(1)} \le \ldots \le X_{\sigma(n)} )$ として

\[\begin{split} X_\text{med} = \left\{ \begin{array}{cc} \frac{1}{2} X_{\sigma(\frac{n - 1}{2})} + \frac{1}{2} X_{\sigma(\frac{n + 1}{2})} & ( n: \text{odd} ) \\ X_{\sigma(\frac{n}{2})} & ( n: \text{even} ) \end{array} \right. \end{split}\]

なる $X_\text{med}$ をデータの中央値という。

超幾何分布#

読み: ちょうきかぶんぷ
英語での表現: hypergeometric distribution
Tags: 確率・統計

サイズ$M$の集合$A$とサイズ$N-M$の集合$B$の計$N$個から$n$個取り出したとき、その中に含まれる集合$A$の要素の個数が従う分布$HG(x;M,N,n)$。

確率関数

\[ P(X=x)=\frac{_MC_x\times\:_{N-M}C_{n-x}}{_NC_n} \]

ただし $$ \max(0,n-(N-M))\leq x\leq\min(n,M) $$

期待値

\[ E[X]=\frac{nM}{N} \]

分散

\[ V[X]=n\frac{M}{N}\left(1-\frac{M}{N}\right)\frac{N-n}{N-1} \]

二項分布への近似
超幾何分布は$M/N=p$を保ちながら$N\to\infty$で二項分布$B(x;n,p)$へ近似される。

つ#

て#

定常性#

読み: ていじょうせい
英語での表現: stationarity
Tags: 確率・統計

時系列データの確率過程に関する性質で、同時分布や基本統計量の時間不変性（=時間に依存せずどの時点でも性質が同じ）を表す。時系列解析においては多くのモデルがこの定常性を仮定しており、非常に重要な性質である。
定常性は大きく分けて強定常性と弱定常性の2つの概念がある。

強定常性：確率過程の有限次元分布が時間シフトに関して不変であること
弱定常性: 確率過程の平均・自己共分散が有限で、時間シフトに関して不変であること

時系列解析では弱定常を仮定することが一般的で、単に定常性と言った場合には弱定常を指す場合が多い。

関連項目

本編「定常性の確認」

t分布#

読み: てぃーぶんぷ
英語での表現: t-distribution
Tags: 確率・統計

互いに独立な確率変数 $Y\sim\chi^2(y;\nu)$ と $Z\sim N(z;0,1)$ について、 $X=Z\left/\sqrt{Y\left/k\right.}\right.$ が従う確率分布 $T(x;\nu)$ 。

確率密度関数

\[ f(x;\nu)=\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)}\left(1+\frac{x^2}{\nu}\right)^{-\left(\frac{\nu+1}{2}\right)} \]

期待値

\[ E[X]=0 \]

分散

\[ V[X]=\frac{\nu}{\nu-2} \]

ただし上記分散は $\nu>2$ で定義される。

正規分布に従う母集団を用いた検定

確率変数 $Y_1,\ldots,Y_{\nu}$ が互いに独立に正規分布 $N(y;\mu,\sigma^2)$ に従うとき、次の確率変数 $X$ は自由度 $\nu-1$ の $t$ 分布に従う。

\[ X=\frac{\bar{Y}-\mu}{S\left/\sqrt{n}\right.}\sim T(x;\nu-1) \]

ここで $\bar{Y}$ は標本平均を、 $S^2$ は不偏分散を意味する。

適合率#

読み: てきごうりつ
英語での表現: precision
Tags: 機械学習

正と予測されたものに対して、実際に正であるものの割合。機械学習の評価指標のひとつで、主に分類問題で使用される。

\[ \mathrm{Precision} = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} \]

	実際は正 Positive	実際は負 Negative
予測は正 Positive	TP（真陽性） True Positive	FP（偽陽性） Flase Positive
予測は負 Negative	FN（偽陰性） Flase Negative	TN（真陰性） True Negative

と#

同時分布#

読み: どうじぶんぷ
英語での表現: joint distribution
Tags: 確率・統計

複数の確率変数の組がそれぞれの実現値の組を取る確率を表現したものを 同時分布 (joint distribution) または 同時確率分布 (joint probability distribution) という。 結合分布 または 結合確率分布 と訳されることもある。

数学的には、 $d \ge 2$ 個の確率変数 $X_1, \ldots, X_d$ の同時分布とは標本空間 $\Omega$ から $d$ 個の実数の組への写像 $\omega \mapsto ( X_1 ( \omega ), \ldots X_d ( \omega ) )$ によって $\mathbf{R}^d$ 上に押し出された確率測度 $P_{X_1, \ldots, X_d}$ のことを指す。即ち、実数上の確率分布を素朴に多次元へと拡張したものと考えることができる。

同時分布についても、一次元の確率分布における累積分布関数や確率密度関数または確率質量関数に対応するものとして、それぞれ 同時分布関数 (joint distribution function) や 同時密度関数 (joint density function) または 同時質量関数 (joint mass function) を考えることができる。即ち

同時分布関数: $F ( x_1, \ldots, x_d ) = P_{X_1, \ldots, X_d} ( X_1 \le x_1, \ldots, X_d \le x_d )$
同時密度関数: $f ( x_1, \ldots, x_d ) = \frac{\partial^d}{\partial x_1 \ldots \partial x_d} F ( x_1, \ldots, x_d )$
同時質量関数: $f_\mathrm{m} ( x_1, \ldots, x_d ) = P_{X_1, \ldots, X_d} ( X_1 = x_1, \ldots, X_d = x_d )$

のように定める。ただし、この意味での同時密度関数、同時質量関数は $d$ 個の確率変数 $X_1, \ldots, X_d$ がそれぞれすべて連続的、離散的である場合にのみ定義される。同時分布関数は $d$ 個の確率変数の中に連続的なものと離散的なものが混合していても定義される。

特異度#

読み: 特異度
英語での表現: specificity
Tags: 機械学習

実際に負であるもののうち、負と予測されたものの割合。機械学習の評価指標のひとつで、主に分類問題で使用される。

\[ \mathrm{Specificity} = \frac{\mathrm{TN}}{\mathrm{FP}+\mathrm{TN}} \]

	実際は正 Positive	実際は負 Negative
予測は正 Positive	TP（真陽性） True Positive	FP（偽陽性） False Positive
予測は負 Negative	FN（偽陰性） False Negative	TN（真陰性） True Negative

特性関数#

読み: とくせいかんすう
英語での表現: characteristic function
Tags: 確率・統計

確率変数$X$に対して$e^{itX}$の期待値$\varphi_X(t):=E[e^{itX}]$を特性関数という。ここで$i$は虚数単位である。

\[\begin{split} \varphi_X(t)=E[e^{itX}]=\left\{ \begin{array}{ll} \sum_{x=0}^{\infty}e^{itx}P(X=x) & (\mathrm{離散変数})\\ \int_{-\infty}^{\infty}e^{itx}f(x)dx & (\mathrm{連続変数}) \end{array} \right. \end{split}\]

特性関数の1階微分と2階微分は次のようになる。

\[\begin{split} \begin{align*} \varphi_X^{(1)}(t)&:=\frac{d\varphi_X(t)}{dt}=E[iXe^{tX}]\\ \varphi_X^{(2)}(t)&:=\frac{d^2\varphi_X(t)}{dt^2}=E[-X^2e^{tX}] \end{align*} \end{split}\]

これを利用して確率変数$X$の期待値$E[X]$や分散$V[X]$を求めることができる。

\[\begin{split} \begin{align*} E[X]&=-i\varphi_X^{(1)}(0)\\ V[X]&=E[X^2]-(E[X])^2\\ &=-\varphi_X^{(2)}(0)-(-i\varphi_X^{(1)}(0))^2 \end{align*} \end{split}\]

特性関数は任意の確率分布に対して存在するが、確率母関数は確率分布によっては存在しない場合がある。モーメント母関数$M_X(t)$とは次の関係にある。

\[ \varphi_X(t)=M_{iX}(t)=M_X(it) \]

用語集（た行）

目次

用語集（た行）#

た#

第一種の過誤#

大数の法則#

第二種の過誤#

対立仮説#

多項分布#

多変量正規分布#

ち#

チェビシェフ距離#

チェビシェフの不等式#

中央値#

超幾何分布#

つ#

て#

定常性#

t分布#

適合率#

と#

同時分布#

特異度#

特性関数#