基礎知識

基本統計量

基本統計量とは、収集したデータを要約する代表値であり、「データの傾向や分布等の性質を知る」「複数のデータを比較する」「複数のデータ間にある関係を知る」ために用いられる。

最も連想しやすく、多用される「代表値」は「平均値」であろう。しかし、平均値には「データ数」および「データの分布(バラツキなど)」といった情報が含まれない。そこで、通常、「平均値」を記す際には「データ数」と「標準偏差」もセットにして示す必要がある。一方、2つの変量(例えば、「身長」と「体重」)の関係を表す代表値に「相関係数」がある。

自然科学で取り扱う変量は、「パラメトリック」と「ノンパラメトリック」に分類され、変量によって使用できる統計量や解析方法が異なる。

パラメトリック変量
連続数で、母集団の分布型が既知ないし仮定できる(特に正規分布)変量。典型例は身長や体重であり、また、生理学実習Tで取り扱う多くの測定値はパラメトリック変量である。
ノンパラメトリック変量
連続数であっても母集団に分布型が仮定できないか、そもそも連続数でない(離散数である)変量。例えば、順位や、5段階評価の結果(著しく悪い・悪い・普通・良い・著しく良い)などである。

以下に、代表的な基本統計量と、MS-Excelで計算するときの関数名を示す(Excelの関数については、本学図書館にも初学者対象の参考書が多数置いてあるので習得しておく)。

1) データ数
観測値の数である。目で数えてもいいが、あえてExcelの関数を用いるのであれば:
COUNT(データ範囲)
2) 平均値
パラメトリック変量の中心を表す統計量である。「データの総和」を「データ数」で除して得られる。平均値を表示した場合は、必ず次項「標準偏差」を併記する。
Excelの関数:AVERAGE(データ範囲)
3) 標準偏差
パラメトリック変量において、平均値のまわりのバラツキを表す統計量である。「各データと平均値の差」の二乗和を開根(かいこん、ルートを取ること)して得られる。
Excelの関数:STDEV(データ範囲)
なお、Excelで標準偏差を計算すると、小数点以下何桁もの値が表示されるが、標準偏差の「単位」や「有効桁数」は平均値と同じである。
4) 中央値
ノンパラメトリック変量の中心を表す統計量である。「データを昇順(または降順)にソート」し、「順序が中央の値」である。中央値を表示した場合は、必ず次項「四分位数」を併記する。
Excelの関数:MEDIAN(データ範囲)
なお、新聞やニュース番組で「国民の平均所得」が報道されることがあるが、所得は正規分布していないため、「国民の所得の中央値」を示したほうが適切で、実態に即している。
5) 四分位数
ノンパラメトリック変量において、中央値のまわりのバラツキを表す統計量である。
・第1四分位数:「データを昇順(または降順)にソート」したとき、「全体の25%が含まれる値」である
・第2四分位数:「データを昇順(または降順)にソート」したとき、「全体の50%が含まれる値」であり、「中央値」に等しい
・第3四分位数:「データを昇順(または降順)にソート」したとき、「全体の75%が含まれる値」である
Excelの関数:QUARTILE(データ範囲, i)
ここで、iは0〜4の整数で、0のとき最小値、1のとき第1四分位数、2のとき第2四分位数(中央値)、3のとき第3四分位数、4のとき最大値が得られる。
6) 相関係数
2つのパラメトリック変量間の関係を表す統計量である(計算式は煩雑なので省略する)。値は+1.0〜−1.0の範囲を取り、
と解釈できる。
Excelの関数:CORREL(データ1範囲, データ2範囲)