こんにちは。生涯挑戦!をモットーに新大人世代を応援する、こうちゃんです。
今回は、7章「情報寄せ集めモデル」と8章「多様性と予測」について
特にクイズミリオネアでオーディエンスの集合値がなぜ正確なのか
に絞って自分なりに噛み砕いてみました。
多様な予測が正しく働く理由について、お互いのエラーを打ち消し合うためとあります。
■本文の綴字競技会の順位予測(表8・8)の事例
これはわかりやすい例だと思います。
そこで、ミシェアラとジュリアナの個々の予測より、集団としての予測の誤差の方が
低い事例をよく眺めてみました。
表8・8を引用したものが以下です。
本文にある、この表からの計算をまとめると以下のようになります。
①ミシェアラ個人誤差:20 =(6-6)^2+(3-5)^2+(5-1)^2
②ジュリアナ個人誤差:20 =(10-6)^2+(7-5)^2+(1-1)^2
③2人の平均個人誤差(①と②の平均):20
④集団的誤差(集団的予測の平方誤差):8 =(8-6)^2+(5-5)^2+(3-1)^2
⑤平均からのミシェアラの平方誤差:12 =(6-8)^2+(3-5)^2+(5-3)^2
⑥平均からのジュリアナの平方誤差:12 =(10-8)^2+(7-5)^2+(1-3)^2
⑦予測多様性(⑤と⑥の平均):12
ここで多様性予測定理: 集団的誤差④=平均個人誤差③ー予測多様性⑦
以上表8・8のところの内容をまとめましたが、面白いと思ったのは
・個人の予測の平均誤差20よりも、集団で予測した平均誤差8の方が小さい、すなわち
集団の方が個人のエラーを打ち消しあう効果があって、実際の結果に近い値になる
・予測多様性というのがわかりづらい言葉ですが、個人の誤差を平均したものから、集団の誤差を平均した
のを引いたものとひとまず理解しました。
・この定理が、2人だけでなく、何人の場合でも常に成り立つ、というところがすごいです。
これで、クイズ・ミリオネアの集合の知恵を使ったほうがはるかに正確な理由がなんとなくわかりました。
これは、理系の方は聞いたことがあるかもしれませんが、多くのデータから
近似関数を求めるのに、最小二乗法を使っています。
こういうところにも使えるとは、興味深いです。