統計に関するゴタク・その1

 「統計でウソをつく法」はいい本なのですが、残念なことに中に出てくる例が原文(アメリカ)そのままで、日本ではちょっとピンと来ないんですよね。そこで身近な例で「統計のウソ」を示して差し上げましょう。(^^)b


 よく雑誌なんかに出ていますな。
 「渋谷でアンケート調査をしました。今の若者の平均初○○年齢は17.3歳(*1)」とかいう記事が。で、それを見たおろかな若者が「平均」に近づこうとしてバタバタするという。
 「平均にあわせることに意味があるのか」という議論もありますが、それ以前に、あんな数字、全く気にする価値はないんです。

 まず、
サンプルの取り方に疑問があります。

 ひとつは「渋谷で」というのが適当かどうか。極端な話、ニューヨークで調べたら全く違う結果が出るでしょう。同じ日本でも、東京と大阪と福岡では違うかもしれないし、東京の中でも渋谷と新宿と田園調布では(どう違うかわからないけど)違うかもしれません。
 次に、渋谷の若者すべてにアンケートを取ったわけではありますまい。声をかけた相手に、なんらかの傾向があったのではないでしょうか。また、声をかけても応じてくれなかった人にもなんらかの傾向があったかもしれません。
 つまり、アンケート結果は、目的とする「今の若者」全体をあらわすものとはほど遠いものになってしまっているわけです。
 さらに、正直に答えているかどうかも疑ってみる必要があります。人間、「つい、見栄を張る」というのはよくあることですから。どう答えれば「見えを張った」ことになるんだか知りませんけども(^^)。
 つまり、アンケート結果そのものがまず怪しいわけです。

 また、その後の
統計処理のやり方にも気をつけないといけません。

 簡単な例を出しましょう。
 「14歳までに○○する者は皆無、15歳で10%が初○○、16歳でさらに10%が初○○、以下同様に1歳ごとに10%が初○○し、24歳の時には全員が○○する」と仮定します。これをグラフにすると次のようになります。この場合、平均初○○年齢は20歳になりますな。(なお、この「真の値」を知ることは実際上不可能です。神のみぞ知ることです)


 ○ 100|□ □ □ □ □ □ □ □ □ □ □ ■ ■ ■
 ○  |□ □ □ □ □ □ □ □ □ □ ■ ■ ■ ■
 済  |□ □ □ □ □ □ □ □ □ ■ ■ ■ ■ ■
 (%) |□ □ □ □ □ □ □ □ ■ ■ ■ ■ ■ ■
    |□ □ □ □ □ □ □ ■ ■ ■ ■ ■ ■ ■
    |□ □ □ □ □ □ ■ ■ ■ ■ ■ ■ ■ ■
    |□ □ □ □ □ ■ ■ ■ ■ ■ ■ ■ ■ ■
    |□ □ □ □ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■
    |□ □ □ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■
    |□ □ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■
    0 --------------------------------------------------------
      13 14 15 16 17 18 19 20 21 22 22 24 25 26
                           年齢(歳)

 さて、渋谷なり何なりで調査をいたしますな。
 上の方で書いた「サンプリング上の問題」はないとして、ですが、たとえば、15歳〜20歳の若者100人ずつを調査したとすると、次のような結果が出ることでありましょう。

  
15歳 15歳で初○○した者  10人(*2)
     まだ○○していない者 90人
  16歳 15歳で初○○した者  10人
     16歳で初○○した者  10人
     まだ○○していない者 80人
  17歳 15歳で初○○した者  10人
     16歳で初○○した者  10人
     17歳で初○○した者  10人
     まだ○○していない者 70人
        :
        : (以下省略)


 15歳〜20歳の答えを全部あわせると、次のようになります。

  15歳で初○○した者   60人
  16歳で初○○した者   50人
  17歳で初○○した者   40人
  18歳で初○○した者   30人
  19歳で初○○した者   20人
  20歳で初○○した者   10人
  まだ○○していない者 390人

 で、まだ○○していない390人を除外して平均を計算すると
  (15×60+16×50+…+20×10)÷210=16.66....
 となり、
真の値とはほど遠い結果が出てきます。

 これで納得がいかない人は、「真の値」やサンプリングのモデルを様々につくって計算してみてください。どの場合も、真の値とはほど遠い結果が、「統計の結果」という一見もっともらしい衣を着て出てくるはずです。(*3)
      *     *     *     *

(*1) 「○○」には思い当たるものを適宜当てはめて下さい。
 「初野宿年齢」「初ヒッチハイク年齢」「初大陸横断年齢」「初ロバと一緒に日本縦断年齢」「初スワンボートで無人島脱出年齢」「初懸賞生活年齢」…等、いろいろあろうかと思います。
(*2) 「あれ?『15歳』って言っても『15歳なりたて』から『16歳直前』までいるんでしょ?10人にはならないんじゃないの?」と思ったアナタ、あなたは鋭い。修正して計算してみて下さい。
 そもそも、たとえば初○○が15歳なりたてでも16歳直前でもアンケートの答えは「15歳」になってしまうわけで、そういう粗っぽいデータをもとに計算して「○○.○歳」まで出すということにも全く意味がないのです。(あれ?でも、試験の平均点って、○○.○点まで計算しているような気がするぞ ^^;)
(*3) そんなわけで、このテの記事を見る度に思うのです。「生データ出せぇ。自分で計算しちゃるぅ。」と。(^◇^)

 

ジャンプ

統計に関するゴタクその2へ

さらなるゴタクへ

雑学方面へ