用語集(さ行)#

#


再現率#

  • 読み: さいげんりつ

  • 英語での表現: recall

  • Tags: 機械学習

実際に正であるもののうち、正と予測されたものの割合。 機械学習の評価指標のひとつで、主に分類問題で使用される。

\[ \mathrm{Recall} = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \]

実際は正
Positive

実際は負
Negative

予測は正
Positive

TP(真陽性)
True Positive

FP(偽陽性)
Flase Positive

予測は負
Negative

FN(偽陰性)
Flase Negative

TN(真陰性)
True Negative


最小値#

  • 読み: さいしょうち

  • 英語での表現: minimum

  • Tags: 確率・統計

データの特徴を表す指標の一つで、データ \(\{ X_1, \ldots, X_n \}\) の中で最も小さい値

\[ \min_{1 \le i \le n} X_i \]

のことを指す。


最大事後確率推定#

  • 読み: さいだいじごかくりつすいてい

  • 英語での表現: maximam a posteriori estimation, MAP estimation

  • Tags: 確率・統計

データから確率分布のパラメータを点推定する方法の一つで、ベイズ推定と同様にパラメータ \(\theta\)事前分布 \(p ( \theta )\) を設定して事後分布 \(p ( \theta | X )\) を計算し、その最大値を与える点

\[ \hat{\theta}_\mathrm{MAP} = \arg \max_\theta p ( \theta | X ) \]

をパラメータの推定値とするものを指す。パラメータ変換に対して不変ではない。事後分布の対数を取れば

\[\begin{split} \begin{align} \hat{\theta}_\mathrm{MAP} & = \arg \max_\theta \left( \log p ( X | \theta ) + \log p ( \theta ) - \log p ( X ) \right) \\ & = \arg \max_\theta \left( \log p ( X | \theta ) + \log p ( \theta ) \right) \end{align} \end{split}\]

と表すこともでき、最尤推定の損失項に事前分布に由来する正則化項 \(- \log p ( \theta )\) を付したものと解釈されることもある。


最大値#

  • 読み: さいだいち

  • 英語での表現: maximum

  • Tags: 確率・統計

データの特徴を表す指標の一つで、データ \(\{ X_1, \ldots, X_n \}\) の中で最も大きい値

\[ \max_{1 \le i \le n} X_i \]

のことを指す。


最頻値#

  • 読み: さいひんち

  • 英語での表現: mode

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、その分布やデータで最も多く出現する値のこと。確率変数 \(X\) が連続分布に従う場合はその確率密度関数が、離散分布に従う場合はその確率質量関数がそれぞれ最大値を取る値を \(X\) の最頻値という。データ \(\{ X_1, \ldots, X_n \}\) については、その中で最も多く出現する値(複数ある場合がある)をそのデータの最頻値という。


#

シグモイド関数#

  • 読み: しぐもいどかんすう

  • 英語での表現: sigmoid function

  • Tags: 機械学習

機械学習で「シグモイド関数」という場合、いわゆる標準シグモイド関数 (standard sigmoid funciton)

\[ \varsigma ( x ) = \frac{1}{1 + e^{-x}} \]

のことを指すことが多い。この関数は

  • 狭義単調増加: \(x > x' \implies \varsigma ( x ) > \varsigma ( x' )\)

  • \(\lim_{x \to - \infty} \varsigma ( x ) = 0\)

  • \(\lim_{x \to \infty} \varsigma ( x ) = 1\)

などの性質を満たし、また導関数の値が

\[ \varsigma' ( x ) = \varsigma ( x ) (1 - \varsigma ( x )) \]

として簡単に計算できることなどから、かつてはニューラルネットワークにおける中間層の活性化関数としてよく用いられた。現在でも二値分類を行うネットワークの出力層の活性化関数としてはよく用いられる。

より広義には正数パラメータ \(a\) を加えた

\[ \varsigma_a ( x ) = \frac{1}{1 + e^{- a x}} \]

という形の関数や、さらにこれをグラフ上で拡大縮小・平行移動した「シグマ状の」 (sigmoid) 関数全体を指すこともある。最も広義の意味においてはロジスティック関数 (logistic function) と同じ意味になる。

事後分布#

  • 読み: じごぶんぷ

  • 英語での表現: posterior distribution

  • Tags: 確率・統計

ベイズ統計において、データ \(X\) を観測した後に未知の量 \(\theta\) の事前分布 \(p ( \theta )\)ベイズの定理

\[ p ( \theta | X ) = \frac{p ( X | \theta ) p ( \theta )}{p ( X )} \]

によって更新して得られる分布のこと。分母の周辺尤度 \(p ( X ) = \int p ( X | \theta ) p ( \theta ) d \theta\) が解析的に計算できない場合はマルコフ連鎖モンテカルロ法変分推論などによって近似計算を行うことになる。


指数分布#

  • 読み: しすうぶんぷ

  • 英語での表現: exponential distribution

  • Tags: 確率・統計

単位時間中に平均\(\lambda\)回起こる事象が起きてから、次に起こるまでの時間が従う確率分布、すなわちガンマ分布\(\alpha=1\)としたときの確率分布\(Exp(x;\lambda)(=Ga(x;1,\lambda))\)

確率密度関数

\[ f \left( x;\lambda \right) =\lambda \exp(-\lambda x) \]

モーメント母関数

\[ M_X(t)=\left(\frac{\lambda}{\lambda-t}\right) \]

期待値

\[ E[X]=\frac{1}{\lambda} \]

分散

\[ V[X]=\frac{1}{\lambda^2} \]

ハザード関数
一般に確率密度関数\(f(x)\)累積分布関数\(F(x)\)をもつ確率分布において、以下の関数\(h(x)\)はハザード関数と呼ばれている。

\[ h(x)=\frac{f(x)}{1-F(x)} \]

生存時間分析では、\([0,x]\)までは生存し\([x,x+\Delta x]\)で死亡する確率\(h(x)\Delta x\)で与えられる。指数分布はハザード関数が\(h(x)=\lambda\)で常に一定となる確率分布である。

無記憶性

\[ P(X\geq x_1+x_2|X\geq x_1)=P(X\geq x_2) \]

システム同定#

  • 読み: しすてむどうてい

  • 英語での表現: system identification

  • Tags: 制御工学

主に制御工学に関連する分野において、対象とする系(システム)の入出力データに基づいて統計的手法などを利用したモデリング(≒系の特性の同定)を行うことの総称。システム同定に用いる手法としては、最小二乗法にもとづく線形回帰モデルやARX、ARMAXなどがよく知られている。複雑な系に対しても、入力データに対応する出力を比較的簡便に得られることがメリット。一方でデータの質や、モデルの選択、パラメータチューニングなどによって同定済みモデルの精度が変化するため注意が必要。

詳細は記事 プロセス制御とデータ分析 も参照。


事前分布#

  • 読み: じぜんぶんぷ

  • 英語での表現: prior distribution

  • Tags: 確率・統計

ベイズ統計において、未知の量 \(\theta\)確率変数と仮定して推論を行う際にデータ \(X\) を観測するより前にあらかじめ設定される確率分布 \(p ( \theta )\) のこと。ベイズの定理

\[ p ( \theta | X ) = \frac{p ( X | \theta ) p ( \theta )}{p ( X )} \]

によって事後分布 \(p ( \theta | X )\) へと更新され、推論に利用される。


弱定常性#

  • 読み: じゃくていじょうせい

  • 英語での表現: weak stationarity

  • Tags: 確率・統計

定常性と呼ばれる性質のうち、確率過程の平均・自己共分散(自己共分散行列)が有限で、時間に関して不変であること。つまり、任意の \(t, k\) について、その期待値 \(\mathrm{E}\) と自己共分散 \(\mathrm{Cov}\) が、

\[\begin{split} \mathrm{E} [x_t] = \mu \\ \mathrm{Cov} [x_t, x_{t+k}] = \mathrm{E} [(x_t-\mu)(x_{t+k}-\mu)] = \gamma_k \end{split}\]

を満たすとき弱定常性という。特に時系列解析では、単に定常性と言った場合には弱定常性を指すことが多い。

弱定常性を満たす確率過程としてはホワイトノイズなどが知られている。

関連項目


周辺分布#

  • 読み: しゅうへんぶんぷ

  • 英語での表現: marginal distribution

  • Tags: 確率・統計

ある同時分布から一部の確率変数を取り除いて、残りの確率変数(またはその組)がそれぞれの実現値(またはその組)を取る確率を表現したものを元の同時分布に対する 周辺分布 (marginal distribution) または 周辺確率分布 (marginal probability distribution) という。また、同時分布から周辺分布を作ることを 周辺化 (marginalization) という。

周辺分布についても、同時分布における同時分布関数や同時密度関数または同時質量関数に対応するものとして、それぞれ 周辺分布関数 (marginal distribution function) や 周辺密度関数 (marginal density function) または 周辺質量関数 (marginal mass function) を考えることができる。いま \(d\) 個の確率変数 \(X_1, X_2, \ldots, X_d\) の同時分布から確率変数 \(X_1\) (値域 \(\mathcal{X}_1 \subseteq \mathbf{R}\) )を取り除いて周辺化するとき、これらの関数は元の同時分布の関数からそれぞれ

  • 周辺分布関数: \(F ( x_2, \ldots, x_d ) = \lim_{x_1 \to \infty} F ( x_1, x_2, \ldots, x_d )\)

  • 周辺密度関数: \(f ( x_2, \ldots, x_d ) = \int_{\mathcal{X}_1} f ( x_1, x_2, \ldots, x_d ) d x_1\)

  • 周辺質量関数: \(f_\mathrm{m} (x_2, \ldots, x_d) = \sum_{x_1 \in \mathcal{X}_1} f_\mathrm{m} ( x_1, x_2, \ldots, x_d )\)

のように計算できる。ただし、このような周辺密度関数、周辺質量関数の計算は元の \(d\) 個の確率変数 \(X_1, X_2, \ldots, X_d\) がそれぞれすべて連続的、離散的である場合にのみ成立する。また、複数個の確率変数を取り除いて周辺分布を作る場合も同様に計算できる。

関連項目


周辺尤度#

  • 読み: しゅうへんゆうど

  • 英語での表現: marginal likelihood

  • Tags: 確率・統計

ベイズ統計において、未知の量 \(\theta\)事前分布 \(p ( \theta )\) でデータ \(X\) の尤度 \(p ( X | \theta )\) を周辺化した

\[ p ( X ) = \int p ( X | \theta ) p ( \theta ) d \theta \]

のこと。証拠 (evidence) とも呼ばれる。確率変数ではない未知の量 \(\eta\) (事前分布のパラメータなど)を仮定して

\[ p ( X | \eta ) = \int p ( X | \theta, \eta ) p ( \theta | \eta ) d \theta \]

と書ける場合に \(\eta\) の推論に利用するなどの用途がある。


順位相関係数#

  • 読み: じゅんいそうかんけいすう

  • 英語での表現: rank correlation coefficient

  • Tags: 確率・統計

データの特徴を表す指標の一つで、複数のカラムの値が順位の意味でどのようにばらつくかの傾向を示すもの。Spearmanの順位相関係数 (Spearman rank correlation coefficient, Spearman's rho) とKendallの順位相関係数(Kendall rank correlation coefficient, Kendall's tau) の2つがよく用いられる。以下ではSpearmanの順位相関係数について述べる。

データ \(\{ ( X_1, Y_1 ), \ldots, ( X_n, Y_n ) \}\) について、それぞれの \(\{ X_i \}, \{ Y_i \}\) 内での順位を \(\{ ( R_1, Q_1 ), \ldots, ( R_n, Q_n ) \}\) とする。ただし、複数の値が同順になる場合はそれらの値にすべて対応する中間の順位を割り振る(例えば \(X_1, \ldots, X_4\) がすべて「3位タイ」であるとき、 \(R_1 = \cdots = R_4 = \frac{3 + 4 + 5 + 6}{4} = 4.5\) とする)。このとき、Spearmanの順位相関係数を

\[ r_S = \frac{\sum_{i = 1}^n (R_i - \bar{R} ) ( Q_i - \bar{Q} )}{\sqrt{\sum_{i = 1}^n ( R_i - \bar{R} ) ^2} \sqrt{\sum_{i = 1}^n ( Q_i - \bar{Q} ) ^2}} \]

で定める。ここで \(\bar{R}, \bar{Q}\) はそれぞれ \(\{ R_i \}, \{ Q_i \}\)標本平均とする。これは標本の順位 \(\{ (R_i, Q_i) \}\) についてのPearsonの積率相関係数であるが、 \(\{ (X_i, Y_i) \}\) に対する通常の(Pearsonの)相関係数が両者の線形の関係しか捉えられないのに対し、(Spearmanの)順位相関係数は両者の単調な関係を捉えることができる。なお、標本の中に同順の値が存在しないときは

\[ r_S = 1 - \frac{6 \sum_{i = 1}^n ( R_i - Q_i ) ^2}{n ( n^2 - 1 )} \]

と簡単に計算できる。

関連項目


条件付き確率#

  • 読み: じょうけんつきかくりつ

  • 英語での表現: conditional probability

  • Tags: 確率・統計

ある出来事 (event) \(B\) が起こったという前提(条件)の下で別の出来事 \(A\) が起こる確率を「 \(B\) を所与とした (given) \(A\) の条件付き確率」や「 \(B\) の下での \(A\) の条件付き確率」などという。

具体的には、確率空間 \(( \Omega, \mathcal{F}, P )\) における2つの事象 (event) \(A, B \in \mathcal{F}\) について、 \(P ( B ) \neq 0\) であるとき

\[ P ( A | B ) = \frac{P ( A \cap B )}{P ( B )} \]

によってこの条件付き確率 \(P ( A | B )\) を定める。このとき \(P ( \cdot | B )\)\(( \Omega, \mathcal{F} )\) 上の確率測度になっている。

関連項目


条件付き期待値#

  • 読み: じょうけんつききたいち

  • 英語での表現: conditional expectation

  • Tags: 確率・統計

確率変数 \(X, Y\)同時分布を考えたとき、 \(X\) の実現値 \(X = x\) を所与とした条件付き質量関数または条件付き密度関数によって \(Y: \Omega \to \mathbf{R}\) の取る値を重み付き平均した値 \(\mathrm{E} [ Y | X = x ]\) を「 \(X = x\) を所与とした \(Y\) の条件付き期待値」などという。

具体的には、 \(Y\) が離散的な確率変数で条件付き質量関数 \(f_\mathrm{m} ( y | x )\) が既知の場合は

\[ \mathrm{E} [ Y | X = x ] = \sum_{y \in \mathcal{Y}} y f_\mathrm{m} ( y | x ) \]

と表せる。ただし \(\mathcal{Y}\)\(Y\) の値域とする(この場合は高々可算な集合となる)。

また、 \(Y\) が連続的な確率変数で条件付き密度関数 \(f ( y | x )\) が既知の場合は

\[ \mathrm{E} [ Y | X = x ] = \int_\mathbf{R} y f ( y | x ) d y \]

と表せる。

関連項目


条件付き分布#

  • 読み: じょうけんつきぶんぷ

  • 英語での表現: conditional distribution

  • Tags: 確率・統計

ある同時分布において一部の確率変数の実現値を所与 (given) としたとき、残りの確率変数(またはその組)がそれぞれの実現値(またはその組)を取る確率を表現したものを元の同時分布に対する 条件付き分布 (conditional distribution) または 条件付き確率分布 (conditional probability distribution) という。また、同時分布から条件付き分布を作ることを 条件付け (conditioning) ということがある。

条件付き分布についても、同時分布における同時分布関数や同時密度関数または同時質量関数に対応するものとして、それぞれ 条件付き分布関数 (conditional distribution function) や 条件付き密度関数 (conditional density function) または 条件付き質量関数 (conditional mass function) を考えることができる。簡単のため \(2\) 個の確率変数 \(X, Y\) の同時分布から確率変数 \(X\) の実現値 \(X = x\) を所与として条件付き分布を作ることを考えると、 \(X\) の分布が離散的か連続的かによってその方法が異なる。

(i) \(X\) の分布が離散的な場合

条件付き確率 と同様の方法で構成することができる。即ち、 \(P ( X = x ) \neq 0\) であるとき、条件付き分布関数 \(F ( y | x )\)

\[ F ( y | x ) = P ( Y < y | X = x ) = \frac{P( \{ Y < y \} \cap \{ X = x \} )}{P ( X = x )} \]

で定めて、ここから条件付き質量関数または条件付き密度関数を求めることができる。特に \(Y\)確率分布も離散的な場合、条件付き質量関数 \(f_\mathrm{m} ( y | x )\)

\[ f_\mathrm{m} ( y | x ) = \frac{f_\mathrm{m} ( x, y )}{f_\mathrm{m} ( x )} \]

と表せる。ここで \(f_\mathrm{m} ( x, y )\)\(X, Y\)同時質量関数とし、 \(f_\mathrm{m} ( x )\)\(X\)周辺質量関数とする。

(ii) \(X\) の分布が連続的な場合

一般に \(P ( X = x ) = 0\) となるが、 \(x\) を含む微小区間を考えて極限を取ることで構成することができる。具体的には、条件付き分布関数 \(F ( y | x )\) を、例えば

\[ F ( y | x ) = \lim_{\delta \to 0+} P ( Y < y | x \le X \le x + \delta ) = \lim_{\delta \to 0+} \frac{P( \{ Y < y \} \cap \{ x \le X \le x + \delta \} )}{P ( x \le X \le x + \delta )} \]

などで定めて、ここから条件付き質量関数または条件付き密度関数を求めることができる。特に \(Y\) の確率分布も連続的な場合、条件付き密度関数 \(f ( y | x )\)

\[ f ( y | x ) = \frac{f ( x, y )}{f ( x )} \]

と表せる。ここで \(f ( x, y )\)\(X, Y\)同時密度関数とし、 \(f ( x )\)\(X\)周辺密度関数とする。

関連項目


#


#


正解率#

  • 読み: せいかいりつ

  • 英語での表現: accuracy

  • Tags: 機械学習

すべての予測に対して、実際に正解であるものの割合。 機械学習の評価指標のひとつで、主に分類問題で使用される。

\[ \mathrm{Accuracy} = \frac{\mathrm{TP}+\mathrm{TN}}{\mathrm{TP}+\mathrm{FP}+\mathrm{FN}+\mathrm{TN}} \]

実際は正
Positive

実際は負
Negative

予測は正
Positive

TP(真陽性)
True Positive

FP(偽陽性)
Flase Positive

予測は負
Negative

FN(偽陰性)
Flase Negative

TN(真陰性)
True Negative


正規化#

  • 読み: せいきか

  • 英語での表現: normalization

  • Tags: 確率・統計/機械学習

データを利用しやすくするために変換すること。標準化/規格化と同義。特徴量ごとにとりうる値の範囲が大きく異なると解析結果に悪影響を及ぼすことが多々あるため、データの前処理としてよく施される。正則化と漢字が似ているが意味が違うので注意。

標準化/規格化と同義であるが、機械学習(特に画像処理)においては、データをその値域(最大値最小値)を用いて[0, 1]の範囲に収まるように変換する処理を意味することが多い。この正規化方法はMin-Maxスケーリングとも呼ばれる。

変換前データ\(x\)の最大値\(x_{max}\), 最小値\(x_{min}\)を用いて、変換後の値\(z\) は次式である。

\[ z = \frac{x-x_{min}}{x_{max}-x_{min}} \]

機械学習ライブラリscikit-learnでは、MinMaxScaler として実装されている。

関連項目


正規分布#

  • 読み: せいきぶんぷ

  • 英語での表現: normal distribution

  • Tags: 確率・統計

自然界や産業界で得られるデータによく見られる分布 \(N(x;\mu,\sigma^2)\)。ガウス分布(Gaussian distribution)と呼ばれることもある。測定の偶然誤差など、データの生成メカニズムが明らかでないときにも正規分布を仮定することがある。また特に、正規分布は、独立同分布の多数の確率変数における和もまた確率変数であるとみなすことができ、これが近似的に従う分布である(中心極限定理)ことから重要とされる。

確率密度関数

\[ f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

モーメント母関数

\[ M_X(t)=\exp\left(\mu t+\frac{1}{2}\sigma^2t^2\right) \]

期待値

\[ E[X]=\mu \]

分散

\[ V[X]=\sigma^2 \]

標準正規分布
平均\(\mu=0\)かつ標準偏差\(\sigma=1\)の正規分布\(N(x;0,1)\)を、特に標準正規分布という。一般に\(X\sim N(x;\mu,\sigma^2)\)\(Z=(X-\mu)\left/\sigma\right.\)と変数変換(標準化)すれば、\(Z\sim N(z;0,1)\)である。

\[ f(x;0,1)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right) \]

累積分布関数
標準正規分布\(N(x;0,1)\)の累積分布関数を特に\(\Phi(x)\)とする。

\[ \Phi(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right)dx \]

このとき、通常の正規分布\(N(x;\mu,\sigma^2)\)の累積分布関数は次のようになる。

\[ p(X\leq x)=\Phi\left(\frac{x-\mu}{\sigma}\right) \]

再生性
互いに独立な\(X_i\sim N(x;\mu_i,\sigma_i^2)\)について

\[ X_1+X_2\sim N(x;\mu_1+\mu_2,\sigma^2_1+\sigma^2_2) \]

尖度#

  • 読み: せんど

  • 英語での表現: kurtosis

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、平均を中心とした分布の尖り具合の程度を示すもの。確率変数 \(X\) の平均を \(\mu\)標準偏差\(\sigma\) としたとき、 \(X\) の尖度を

\[ \mathrm{Kurt} [ X ] = \frac{\mathrm{E} [ ( X - \mu ) ^4 ]}{\sigma^4} \]

で定める。この定義において正規分布の尖度は3であり、尖度が3より小さい値を取る場合は正規分布より尖っていない(裾の重い)、逆に3より大きい値を取る場合は正規分布より尖っている(裾の軽い)分布であるとそれぞれ考えられる。このため

\[ \mathrm{Kurt} [ X ] - 3 = \frac{\mathrm{E} [ ( X - \mu ) ^4 ]}{\sigma^4} - 3 \]

過剰尖度 (excess kurtosis) と呼ばれ、またこの値を 「尖度」と定義する場合もある。データ \(\{ X_1, \ldots, X_n \}\) の平均を \(\bar{X}\)不偏分散\(s^2\) とすると、データの過剰尖度はモーメントの推定値から

\[ \gamma_2 = \frac{\frac{1}{n} \sum_{i=1}^n ( X_i - \bar{X} ) ^4}{s^4} - 3 \]

や、キュムラントの推定値から

\[ G_2 = \frac{( n - 1 ) ( n + 1 )}{( n - 2 ) ( n - 3 )} \frac{\frac{1}{n} \sum_{i=1}^n ( X_i - \bar{X} ) ^4}{\left( \frac{1}{n} \sum_{i=1}^n ( X_i - \bar{X} ) ^2 \right) ^2} - \frac{3 ( n - 1 ) ^2}{( n - 2 ) ( n - 3 )} \]

とそれぞれ計算される。

#

相関係数#

  • 読み: そうかんけいすう

  • 英語での表現: correlation coefficient

  • Tags: 確率・統計

確率分布やデータの特徴を表す指標の一つで、複数の確率変数やカラムの値がどのようにばらつくかの傾向を示すもの。いくつかの定義があるが、一般にはPearsonの積率相関係数 (Pearson correlation coefficient) のことを指す。確率変数 \(X, Y\)標準偏差をそれぞれ \(\sigma_X, \sigma_Y\)共分散\(\mathrm{Cov} ( X, Y )\) としたとき、 \(X, Y\) の相関係数を

\[ \rho_{X Y} = \frac{\mathrm{Cov} ( X , Y )}{\sigma_X \sigma_Y} \]

で定める。相関係数 \(\rho_{X Y}\)\(-1 \le \rho_{X Y} \le 1\) をみたす。相関係数の値に対する解釈は

  • \(\rho_{X Y}\) が正の値をとるとき、 \(X\) の値が増加すると対応する \(Y\) の値も増加する傾向にある

  • \(\rho_{X Y}\) が負の値をとるとき、 \(X\) の値が増加すると対応する \(Y\) の値は減少する傾向にある

  • \(| \rho_{X Y} |\) の値が \(1\) に近い程、 \(( X, Y )\) の組は直線状に分布する傾向にある

などがある。データ \(\{ ( X_1, Y_1 ), \ldots, ( X_n, Y_n ) \}\) について、 \(\{ X_i \}, \{ Y_i \}\)標本平均をそれぞれ \(\bar{X}, \bar{Y}\) 、(不偏)標本標準偏差をそれぞれ \(s_X, s_Y\) 、(不偏)標本共分散を \(s_{X Y}\) としたとき、このデータの標本相関係数 (sample correlation coefficient) を

\[ r_{X Y} = \frac{s_{X Y}}{s_X s_Y} = \frac{\sum_{i = 1}^n ( X_i - \bar{X} ) ( Y_i - \bar{Y} )}{\sqrt{\sum_{i = 1}^n ( X_i - \bar{X} ) ^2} \sqrt{\sum_{i = 1}^n ( Y_i - \bar{Y} ) ^2}} \]

で定める。なお、これはデータの従う確率分布の相関係数の不偏推定量にはなっていない。

関連項目

双曲線正接関数#

  • 読み: そうきょくせんせいせつかんすう

  • 英語での表現: hyperbolic tangent function

  • Tags: 数学、機械学習

双曲線関数の一つで、

\[ \tanh ( x ) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \]

という形をしているもの。しばしば「タンチ」などとも発音される。標準シグモイド関数 \(\varsigma ( x )\) を用いて

\[ \tanh ( x ) = 2 \varsigma ( 2 x ) - 1 \]

と書けるため、最も広義の意味でのシグモイド関数の一種でもある。

標準シグモイド関数と同様の性質を多く持ち(有界で狭義単調増加など)、導関数の値も

\[ \frac{d}{d x} \tanh ( x ) = 1 - \tanh^2 ( x ) \]

として簡単に計算できることに加えて、原点 \((0, 0)\) を通ることから標準シグモイド関数にかわってニューラルネットワークにおける中間層の活性化関数としてよく用いられた。現在ではさまざまな理由でReLUの方がよく用いられる。