- 統計の概要
- 統計学における基本用語 期待値・分散・共分散・標準偏差
- 推定の種類(点推定と区間推定)
機械学習で使う統計について、初学者向けに整理しました!
統計(Statistics)
統計とはデータの収集、解析、解釈に関する方法の一種で、不確実性を取り扱うための科学分野です。
統計には記述統計と推測統計の2つの分野があります。
- 記述統計 母集団の性質を理解し、特徴を記述するための手法
⇨データの要約やグラフ化、要約統計量の計算 など - 推測統計 母集団から標本を取り出し、標本から母集団を推測する手法
⇨統計的仮説検定や信頼区間の算出 など
また、統計にはパラメトリック手法とノンパラメトリック手法があります。
- パラメトリック手法 仮定した確率分布に基づいて解析を行う手法
⇨正規分布やポアソン分布 など - ノンパラメトリック手法 データの分布を特定しない手法
⇨カイ二乗検定 など
期待値(Expected value)
期待値とは、確率変数の平均値を表し、確率分布の中心的な傾向を表す指標のことです。
確率変数(X)が離散値の場合、期待値E(X) は以下の式で表されます。
$$ E(X) = \displaystyle \sum_{k=1}^{n} P_i x_i $$
連続値の場合は下記です。
$$ E(X) = \displaystyle \int_{-\infty}^{\infty} xf(x) dx $$
分散(variance)と共分散(covariance)
分散とは、データの値が期待値からどれだけずれているかという、ばらつきの大きさを表す指標です。
確率変数Xの分散Var(X)は、期待値E(X)を用いて 以下の式で表されます。
$$ Var(X) = E(X^2) – (E(X))^2 $$
共分散は、2つのデータ系列の傾向の違いを表す指標です。
2つの確率変数X, Yの共分散は、期待値E(X),E(Y)を用いて以下の式で表されます。
$$ Cov(X,Y) = E(XY) – E(X)E(Y) $$
共分散の数値によって、2つの確率変数には以下の関係があります。
- 「正の値」 似た傾向(正の相関)
- 「負の値」 逆の傾向(負の相関)
- 「0」 関係なし
標準偏差(standard deviation)
分散はデータのばらつきの大きさを表す指標ですが、2乗して計算しているので、元のデータと単位が変わっています。
そのため、分散に対して平方根を取り、元の単位を合わせたものを標準偏差といいます。
$$ \sigma = \sqrt{Var(X)} = \sqrt{E(X^2)-(E(X))^2} $$
標準偏差は、分散と同じくデータのばらつきの大きさを表す指標になります。
分散は値が大きく、データのばらつきがわかりにくい場合があります。
そのため、データのばらつきを視覚的にに理解しやすく、単位も等しい標準偏差を用いる場合が多いです。
推定(estimation)
推定とは、母集団から標本を取得して、その標本を元に母集団のパラメータを推測することを指します。
例えば、ある工場の製品寿命を測定する場合、全製品(母集団)を測定することは困難です。
そこで、ランダムにサンプルを取得(標本)して、その標本を元に母集団の平均や分散などのパラメータを推測するなどに使われます。
推定には点推定と区間推定の2種類があります。
- 点推定 母集団のパラメータを平均値など1つの値に推定する方法
⇨標本平均、標本分散、最尤推定量 などを算出 - 区間推定 母集団のパラメータがどの範囲に存在するかを推定する方法
⇨推定された平均値などの範囲を示す区間を、信頼区間と呼ぶ
また、推定における数値は推定量(estimator)と推定値(estimate)の2つに分けられています。
- 推定量 母集団のパラメータを推定するために利用する数値の計算方法、計算式のこと
推定関数とも呼ぶ - 推定値 推定を終わった結果から計算された具体的な値
統計については以上になります。お疲れ様でした。