愛車グランプリの結果が発表されました。投票していただいた皆様、本当にありがとうございました。
エントリーした時は(カスタムしてないし...)票が入るとは思ってもいなかったので、素直に嬉しいです。
また、この期間中に多くの方に愛車紹介を見ていただけたのも大変励みになりました。
心より御礼申し上げます。
さて、愛車グランプリにエントリーされた方はきっと、愛車を見て欲しい、グランプリを取りたい、と思われていた方が大半だと思います。
実は自分は全く違う目的で今回エントリーしておりました(もちろん上記の目的もあったのですが、それは比率で言うと10分の1くらい)。
本来の目的とは、、、
「投票結果」というデータを統計的に考察してみたかったのです。
データ解析の勉強なら人為的に作ったデータでも出来るのですが、やはり生きたデータを材料にする方がやってて楽しいです。そんな折に、この愛車グランプリは絶好の題材だと思ったのです。
さすがにエントリー全車の得票データをまとめるのは手作業では難しいので、自分がエントリーしたマツダ・ロードスターに限って考察してみます。
※すごく初歩的な統計的考察をドヤ顔でしているので、その筋に詳しい方はぜひ、生暖かい目で冷ややかに見てください笑
以下がマツダ・ロードスターの得票数とその人数の度数分布です。
2位の方が50票なのに対し、528票とぶっちぎりの結果を叩き出した方が一人いらっしゃいます。
ND_ZN6さんです。総合でも6位に入っておられました。本当におめでとうございます!!!
この結果を見て、僕はND_ZN6さんにめっちゃ感謝しています。
こんなに面白いデータ解析の教材を提供していただいてありがたい限りです!!
では早速、始めの一歩として「平均値」を考察していきます。
上の図だと自分含め2位以下の様子がよくわからないので、表示範囲を絞ってみましょう。
ロードスターのエントリーは101台あり、その得票数の平均値は13.9票でした。
ですが、上のヒストグラムを見て「平均的な得票数は約14票です」と言われると「え〜?ほんと?」と思いませんか?
パッと見、分布の中央は8票くらいに来そうな感じがしませんかね?
平均値は「得票数の合計」割る「人数」で得られます。
これは一見、集団の典型的な値を示してくれているように思えますが、今回のように極端に集団から外れたデータ点が存在すると、その値に大きく引っ張られてしまいます。
試しにND_ZN6さんがエントリーされなかった世界線ではどうなるかというと、1位が50票で、平均値は8.8票となります笑
ね?
僕が解析するにあたってND_ZN6さんに感謝している理由がちょっとわかってもらえましたかね?笑
たった一人が抜けただけで平均値が大きく変わってしまう、とても面白い投票結果なんです!
これは、得票数のように数字で現れるもの以外でも、例えばコミュニティの意思決定などでも似たような経験はありませんか?
比較的意見が近いもの同士の集団の中に、ある日全くかけ離れた意見を持った人物が加わったとします。
すると「全員の総意」を取ったときになぜか極端な意見の方に傾いた結果になってしまう現象が起こるときがあります。
数値的ではないですが、これも単純平均の考え方が作用した結果であると解釈できるかもしれません。
さて、ではこのように極端なデータ点がある場合でも集団の典型的な値を知りたいときはどうするか。
いくつも見方はあるでしょうが、「中央値」もその内の一つの手段だと思います。
中央値は、集団の中で順位がちょうど真ん中の人の得票数を指します。
今回の集団の中央値は6票でした。
ヒストグラムを見て6票と言われれると「なんとなく真ん中くらいかな?」、という気になりますね。
平均値が導出できたら、次は偏差値が知りたくなります。
僕の車には大変ありがたいことに7票も入れてくださった方々がいらっしゃいました。
なので、次は7票が偏差値でいうといくらに相当するか見ていきます。
偏差値は「平均値」、「標準偏差(平均値からのばらつきの指標)」、「自分の得点」の3つの要素を使って導出されます。
このうち、標準偏差にフォーカスするためにヒストグラムをさらに拡大してみます。
標準偏差は、その集団が平均値の周りに綺麗に分布(正規分布)しているときは、サンプル数の約68%が含まれる範囲の幅に相当する概念です。
一般に標準偏差が小さいと、平均値の周りにギュッと集まっていると言えます。
それを踏まえて、得票数の分布のばらつきは何票くらいになるか?
計算してみると、標準偏差は61.7票でした笑
めっちゃバラついていると言っています。
これもND_ZN6さんが集団から大きく外れてぶっちぎりの一位だったからです笑
標準偏差が導出できたので得票数から偏差値を計算します。
僕(7票)の偏差値は48.9でした。
もし学校の定期テストであれば、赤点こそ免れますが、もっと勉強してせめて平均点を超えるように!と教師から言われることでしょう笑
ところで偏差値は「どれだけ異質か」の指標とも言えます。
大学入試の東大の偏差値を調べると最高峰の理科三類で偏差値72程度だそうです。
では、ぶっちぎり1位のND_ZN6さんの偏差値はというと、、、
驚異の偏差値133.4でした!笑笑笑
素晴らしいですね!偏差値100越えはなかなかお目にかかれない結果です。
このようなことが起こるので、例えば学年に一人ずば抜けてテストの点のいい子がいて平均点を大きく引き上げているような場合、世の親御さんたちは子供の偏差値ばかりを見て一喜一憂するのは得策ではありません。
偏差値50以上の人数と、50以下の人数が半々ではない(むしろ50以上が極めて少ない)からです。
こういう場合、むしろ平均点だけではなく中央値と標準偏差も考慮して、どの辺りの実力にいるのかを把握するのが大事だと思います笑
(つまり一人の超秀才のことなど「ほっとけ」というのが精神衛生上のためということです笑)
さて、もう少し数値的な操作をしてみたいと思います。
分布の全体像を知るためにはいくつか方法があると思いますが、最小二乗フィッティングによって考察していきます。
正規分布を仮定して、今回の投票結果をフィットすると、以下のような結果となりました。
平均値は5.3票、標準偏差は2.8票でした。
そう言われると、大体5票くらいが得票数の多いところで、その前後3票(つまり2票から8票)に得票数の大部分がまとまっているように見えます。
このように、色々な方法、角度で分布を見ると様々な主張ができてしまいます。
それは物事を評価する上で重要な判断材料になる一方で、怖いことや注意が必要なことも我々に教えてくます。
例えば平均値。
集団の典型的な値と思われがちですが、単純な平均値は万能ではありません。
例えば僕が悪意のある開発者で「この製品をつければ平均で30psの馬力アップが達成できます」と言って宣伝したとします。
でもこの「平均」の裏では、計測中のほとんどが10ps程度のアップだったのに、たまたま80psアップする時があっただけかもしれません。
そのデータ点も含めての「平均30psアップ」との宣伝文句だとしたら、皆さんならこの製品は買うでしょうか?
そう言っても単純平均の定義上、嘘にはならないのが怖いところです(こういったものは性能評価試験で不合格になるかもしれませんが)。
また、最後に最小二乗フィットの例を出しました。
このときに正規分布を仮定してフィットしましたが、投票数の分布が正規分布となる保証はどこにもありません。
しかし、フィットした結果を見せられると何となく一致してそうに見えて、その時の結果(平均値が5.3票、標準偏差が2.8票)を信じてしまいそうになります。
数字を提示しているから信頼できる、と思ってしまうと、その数字を出してきた人間の思う壺です。
数字を提示する人間は、自分にとって都合のいい見せ方をしているだけかもしれません。
数字そのものと、その数字を根拠にした主張は一旦切り離し、本当にその主張が納得できるものなのか、数字から自分なりに考えることが大事だと僕は思います。
最後はあとがきのようになってしまいましたが、投票結果から色々読み取るのはすごく楽しかったです。
他にも目的によって様々な解析ができることでしょう。
投票していただいた全ての皆さんの一票を余すことなく使って、僕は楽しむことができました。ありがとうございました!