さらに統計に関するゴタク


 もっともらしくしたついでに、サンプルのほうもすこしもっともらしくしてみましょう。
 まず、高校生120人ですが、15歳・16歳・17歳・18歳の人数をそれぞれ20人・40人・40人・60人、それぞれの平均年齢を15.75歳・16.5歳・17.5歳・18.25歳とします。つまり、「16歳は全員高校生(*1)だけど、15歳は半分(*2)中学生でしょ。17歳も全員高校生だけど、18歳は半分卒業しちゃってる(*3)でしょ。」ってことです。
 同様に、大学生120人も年齢順に15人・30人・30人・30人・15人とします。これは浪人・留年がいないものとして考えていることになりますが、実際にはご承知の通り、大学生の場合、これらは無視できない数になります。気になる人は自分で計算してみて下さい。

(*1)非高校進学者のことはここでは考えていないことになります。
(*2)4月に調査するのと3月に調査するのとでだいぶ違うはずですが、平均して。
(*3)留年・休学による卒業延期のほか、定時制等4年制の学校も実際にはあります。


 結果は次のようになるはずです。

   初野宿      高校生     大学生     大学生のうち   真の値  
   経験年齢            (浪人なし・   高校卒業前   (設定した
                   留年なし)    経験者      モデル)
 14.0歳未満    0.0名( 0.0%)  0.0名( 0.0%)  0.0名( 0.0%)   ( 0.0%) 
 14.0以上15.0未満 1.2 ( 9.8 )  1.2 ( 2.1 )  1.2 ( 5.0 )   ( 1.0 ) 
 15.0 〜16.0   4.6 (37.4 )  4.8 ( 8.2 )  4.8 (20.0 )   ( 4.0 ) 
 16.0 〜17.0   4.0 (32.5 )  6.0 (10.3 )  6.0 (25.0 )   ( 5.0 ) 
 17.0 〜18.0   2.0 (16.3 )  6.0 (10.3 )  6.0 (25.0 )   ( 5.0 ) 
 18.0 〜19.0   0.5 ( 4.1 ) 11.6 (19.9 )  6.0 (25.0 )   (10.0 ) 
 19.0 〜20.0  --.- (--.- ) 13.5 (23.5 ) --.- (--.- )   (15.0 ) 
 20.0 〜21.0  --.- (--.- ) 12.0 (20.0 ) --.- (--.- )   (20.0 ) 
 21.0 〜22.0  --.- (--.- )  3.0 ( 5.1 ) --.- (--.- )   (10.0 ) 
 22.0 〜23.0  --.- (--.- )  0.4 ( 0.6 ) --.- (--.- )   (10.0 ) 
 23.0 〜24.0  --.- (--.- ) --.- (--.- ) --.- (--.- )   ( 5.0 ) 
 


 この、( )内の数字が一人歩きするわけです。いやー、今時の高校生は、見事に低年齢化が進んでますなあ(^◇^)。高校生の調査結果ばかりでなく、大学生のをみても、一番右のモデルより低い年齢の方に重心がかかってます。中央値は20を切ってますし、モードは19.0〜20.0に移ってしまっています。
 参考までに、2つ前のページのようにして(*4)平均年齢を計算して行くと、左から順に、15.7歳・19.2歳・16.5歳、となります。…ここまで読んだ人ならば、そういう計算をするのがほとんど意味のないことだということはおわかりでしょうけど。(ついでに言うと、前のページの結果を使うと順に16.1・20.3・16.8になります。どうでもいいことですけど。)

(*4)「14.0以上15.0未満」は「14.0」として計算、「15.0以上16.0未満」は「15.0」として計算しています。


 そういう、わり算の分母をいくつにするか、とかいうような集計方法の問題以前にも問題点があります。
 そもそも120名やそこらの調査では人数が少なすぎるのです。上の表の人数をほんの1・2人いじって計算し直すだけで大きく割合が変わってしまいます。つまり、この程度の人数では、調査対象を選ぶときにほとんど偶然にできてしまう誤差のために結果が大きく違ってしまうのです。そんなのは統計として無意味です。
 多分、一万名規模(各年齢千名規模)の調査をしないと統計として意味のあるものにはならないでしょう。その場合も、前にあげた「サンプリングの偏り」「ウソをつく可能性」が避けられないわけで、結局意味ある集計はできないのかもしれません。もちろん、集計方法をよく考えないといけません。


数の問題について

back

平均値の怪・1に戻る