新聞やテレビのニュースには、グラフなどの統計データが紹介されていることがよくあります。インターネットの記事、CMやパンフレットなどの宣伝ツールなどにも、たびたび登場します。グラフは視覚的にわかりやすいため、様々な媒体でよく使われますが、編集や処理の仕方次第で、データそのものを改ざんすることなく人をだますことができてしまうもの。そう考えるとちょっと恐ろしい気もしてきますよね。
今回は、そんな統計データに潜むワナを紹介したいと思います。
標本・標本数のワナ
もし、正直な学生しか通っていない男子校で「あなたは男性ですか? 」というアンケート調査をしたら、もちろん100%の学生がYESと答えるはずです。この調査をもとにして、「日本には男性しかいない」と結論付けることはできるでしょうか。もちろんできませんよね。このように、データを取った対象(標本)に偏り(上の例でいえば性別の偏り)がある場合、統計データは限定的な意味しか持たない場合があります。統計データを見るときには、どのような対象から取られたデータなのかを気にしましょう。
また、取ったデータの数(標本数)が少ない場合にも偏りが生じる場合があります。あまりにも少ないデータ数をもとにした主張には警戒が必要です。
平均値のワナ
例えば、「このクラスの平均身長は170cmです」と言われると、「なるほど、このクラスには身長が170cm付近の人が多いのか」とつい考えてしまうことってありませんか? しかしよく考えてみてください。確かに、身長が170cm付近の人が多いクラスの平均身長は170㎝になりますが、160cm付近の人と180cm付近の人が同じくらいいるクラスでも平均身長は170cmになります。つまり、平均値の周りに全くデータが存在しないこともあるのです。
また、一人当たりのGDPという指標がありますが、この指標はGDPをその国民の数で割っているもの。一人当たりのGDPがいくら高くても、国民の間の経済格差が大きい可能性はあるのです。
ですから、平均値を見るときには、標準偏差というデータも一緒に見るようにしましょう。標準偏差とは、平均値からどのくらいばらつきがあるのかを表したデータ。さきほどの平均身長の例で言うと、平均値が170cmで標準偏差が10cmというクラスは、およそ170±10cmの間に、生徒たちの身長の実際のデータが存在するということが分かるのです。一人当たりのGDPであれば、標準偏差が大きければ大きいほど経済格差が大きいということが分かります。
平均値を見るときには、標準偏差のデータも大事になってくるというわけですね。
因果関係のワナ
以前テレビを見ていたら、次のような統計データが取れたということを話している人がいました。 「成功者は、朝食にステーキを食べる人が多い。」 そして、成功するには朝食にステーキを食べるとよさそうだという話に移りました。
しかし、成功者が成功する前にステーキを食べていたかどうかについては、上のデータから推し量ることはできませんよね。成功したから朝にステーキを食べているのか、朝にステーキを食べていたから成功したのかは分かりません。もしかしたら、成功には全く別の要因が絡んでいるかもしれないのです。このことをはっきりさせるには、更なる調査が必要となります。
これと似たような例として、次のような主張を耳にしたことがあります。「暴力的な人は、暴力的な映画やゲームを好む」というデータから、暴力的な映画やゲームは人を暴力的にするという結論を導き、暴力的な映画やゲームを禁止しましょうという主張をしていた人がいたのです。しかし上の事例と同様、あくまでもわかることは「暴力的な人は、暴力的な映画やゲームを好む」ということだけであり、もともと暴力的だから暴力的なものが好きなのか、暴力的なものが人を暴力的にさせるのかはわかりません。このデータだけでは、暴力的な人が暴力的なコンテンツに触れることでストレスを発散し、現実での暴力抑止につながっているパターンさえ考えられるのです。
ある統計データをもとに結論を決めつけている主張には、十分注意を払いましょう。特に、元になっているデータが一種類しかない場合には、より一層注意が必要です。
比のワナ
よく前年比120%などと言いますが、これは前の年に比べて1.2倍になったという意味です。
例えば、お小遣いが前年比500%と言ったとき、前の年のお小遣いが100円だったら500円になる程度の違いしかありません。もし、売上が前年比500%と言った場合、前の年の売り上げが1,000万円だったら5,000万円に成長したことを表し、大きく成長したように見えます。
前年比~%、前月比~%といったデータに触れたときには、必ず前年がどうであったかを確認しましょう。また、合わせて前々年、前々月からの比較もしておくと、伸び具合がより明確に分かるようになるでしょう。
~ベースのワナ
統計データには、よく「ドルベース」や「カロリーベース」などと書かれています。ドルベースとはすべてをドル換算したときの統計を表し、カロリーベースはすべてをカロリーに直したときの統計を表します。
例えばGDPをドルに換算したとき、日本円換算では同じGDPの値だったとしても、円高ドル安になればドルベースのGDPは自然と増加します。逆に円安ドル高になれば、ドルベースのGDPは減少します。各国のGDPを比べる時などは、円安なのか円高なのかを考える必要があるのです。
また、日本の食料自給率はカロリーベースで計算されています。カロリーベースで計算された日本の食糧自給率は、皆さんご存知の通り40%を下回っていますが、生産額ベースにすると70%にまで一気に跳ね上がるのだとか。このような違いが生まれる理由は、食材当たりのカロリーが高い肉類などの自給率が低いため。この肉類の自給率の算出方法にも少し問題があるようで、飼料まで含めすべて日本で育てられたものでなければ日本で自給しているとはみなさないようです。
このように、統計データを見るときには算出方法などにも着目するようにしましょう。
*** データは、都合の良い解釈となるよう処理・編集されていることがあります。データを見る人をだまそうと悪い画策をしている人もいるかもしれませんので、データを見る際にはこうしたワナに注意するようにしましょう。 また、データを扱う側になった際にも注意が必要です。データの処理を超えて改ざんにまでなってしまうと、場合によっては犯罪になることがあります。データの改ざんはしないよう、くれぐれもご注意ください。
(参考) 産経ニュース|日本の食料自給率「カロリーベース」の裏のウラ 正直、こんな指標は農業政策に無意味だ