今週に入りまして、風邪からくる胃腸炎になりましてね。
休みっぱなしよ。
昨夜は胃痙攣まで発症しましてね。
マジで辛かったです。
そういう時にロンメル戦車挫折ですからねえ。
踏んだり蹴ったりよ。
で、世の中「統計データがー」って騒いでますね。
アッシが普段、テレビに向かって「ウソ言うんじゃねえ」とかヤジっているのに文句言う長男君がですよ、ニュースで「不正データ」って聴くとテレビに向かってヤジるんですよ。
高校生まで「オヤジ化」してしまう出来事ですからねえ。
まあ、アレよ。
で、この問題、報道関係者が毎日「アーダコーダ」言っているもんですから、何が本当に悪いのか、焦点がボヤけてきてますね。
こういう状況みると「お前ら統計学判ってねえな」と思いますね。
話は変わりますが、アッシは数学の「確率・統計」ってのが大嫌いでした。
この手の問題で多く出題されるのが
・袋の中に玉が5個入っている
・その内2個が赤、3個が白
・袋から玉を3回取出した時、赤が2個以上出てくる確率はナンボや?
・尚、1度取出した玉は、元の袋に戻すこととする
実に実用性の無い問題ですね。
アッシは人間って家業を51年やっておりますが、こういう事象にぶち当たったことがございません。
まあ、学校ってのは下らいない事しか教えねえのよ。
ところが社会人デビューして、「物事は統計的に判断しなければいけません」となりましてね。
最初は何のことだか全然判らない。
当たり前でしてね。
こういう事言う人も、統計学なんて全然判っていないんですよ。
が、この統計学(確率論は除く)を独学で勉強していますとね。
仕事を片付けるのに非常に便利。
特に「改善前と改善後で品質は良くなったのか?」をまとめる時なんか、ホントに効果的。
なんたって、正真正銘の「統計学」使って報告書書いてますからね。
上役も「今更こんな事聴けない状態」で、ポンポンハンコ押してくれました。
じゃ、今回問題になっていることについて、アッシの想像で書いてみます。
当初データは「全数データ」となっていました。
これは判り易いですよ。
平均値が一発で出ますからね。
バラつきなんか考えなくても良い。
ところが、これが「抜き取り調査」だってことがバレちゃった。
抜き取り調査でも平均値が計算できます。
が、これは「推定される平均値」となります。
つまり「○○~××の間に平均値があります」ということになる。
図で書くとこういう事。
これ、正規分布図(ヒストグラム)ですね。
下に-1σ、3σという数字が出てきます。
σは「標準偏差」の事。
バラつきの大きさを表します。
計算式は面倒なので、ここでは割愛します。
平均値に標準偏差の
・1倍を足したり割ったりする=全データの68.27%が含まれる
・2倍を足したり割ったりする=全データの95.45%が含まれる
・3倍を足したり割ったりする=全データの99.74%が含まれる
ということになります。
つまり「抜き取り調査の場合、このバラつきも考慮しないといけない」ということです。
判り易く説明すると
・平均給与=30万円
・標準偏差=10万円
だと
・給与平均額が20万~40万円である確率=68.27%・・・・信頼できませんね。
・給与平均額が10万~50万円である確率=95.45%・・・・まあ信頼できる。
・給与平均額が0万~60万円である確率=99.74%・・・・・これなら信用できる。
ということになります。
これが「データの補正」です。
更に抜き取り調査の場合「無作為抽出」が大原則。
給料が高い会社ばかり選んでいたら、平均値は自ずと高くなる。
これじゃ「ダメ」なんです。
給料が高い会社でも、低い会社でも無作為に選ばないといけません。
さらに、その会社の従業員数も補正(加重平均)しないと、全労働者の正確な平均給与は算出できません。
全くニュースにならない事ですが、ホントはこういう事が問題じゃないの?
数学的素養が全く無いマスコミ関係者殿。
Posted at 2019/02/01 23:24:55 | |
トラックバック(0) |
学ぶという事 | 日記