リサーチにおける平均値・中央値・最頻値とは
調査で得られた集団の特徴や傾向を示す値を「代表値」と言います。
代表値として、一般的に平均値が使われることが多いですが、分布の形に合わせて最頻値や中央値を代表値にする場合もあります。
平均値とは
データを全て足した合計値をデータの数で割った値のことを平均値と言います。Meanと表記することもあります。
例えば、7人の年収が「300万、300万、300万、400万、500万、800万、900万」だとします。これらの合計値は3500万となり、データの個数は7なので、平均値は3500万÷7=500万となります。
ただ平均値は、外れ値(極端に離れている値)の影響を受けやすいので注意が必要です。
先ほどの例で出した年収ですが、もし900万円の人が5億円の年収だったらどうでしょう。
合計値は5億2600万となり、平均値は約7514万円になります。しかし7514万円という値は7人の標準的な値とはいいがたく、代表地としては不適切であると言えるでしょう。
中央値とは
データを昇順もしくは降順に並べた時、真ん中に位置する値のことを中央値と言います。Medianと表記することもあります。先の例での中央値は400万円となります。またデータ数が奇数の場合は真ん中が1つだけ存在しますが、偶数の場合は真ん中が2つになるので、その場合はその2つの値の平均値を中央値とします。
先ほどの「年収900万円の人が年収5億円になったら」という例で、平均値は外れ値(5億円)の影響を受けやすいというお話をしましたが、このケースの時に代表値を中央値にすることで外れ値の影響を受けにくく、データを代表している値と言うことができます。
最頻値とは
最も頻繁に(多く)出現する値のことを最頻値と言います。Modeと表記することもあります。今回の例では、300万という値が3個であり最も出現回数が多いので最頻値となります。もし最も頻出する値が複数ある場合、それら全てが最頻値となります。
最頻値を見ることで、データの特性をより分かりやすくすることができます。
最頻値は最も多く現れた数値を指標とするため、外れ値の影響を受けにくく、加えて中央値よりも分布をある程度配慮できると言えるでしょう。
値の使い分け方
上記のことから、それぞれの値は、下記のように使い分けると良いです。
平均値
全てのデータを考慮したい時やデータ間で比較を行いたい時
中央値
データに外れ値がある時
最頻値
大多数のデータの値を知りたい時