もう一人のY君

iPhoneアプリのレビューやアップデートレビューなどを書いています. たまに数学の記事も書きます.

もう一人のY君 MENU  MENU

【数学】必要なサンプル数とは(アンケート)

160816_15

 今回はアンケートに関する話をサラッと.

 

スポンサーリンク

 

[Contents]
 

 

必要なサンプル数の計算式

 細かい話をするとそれなりのボリュームになってしまうので先に書いてしまうと以下になります.

 

[必要なサンプル数nの計算式]

 アンケートを行う対象の母集団の個数を { \displaystyle N } , { \displaystyle p } をその確率, { \displaystyle k } を正規分布による信頼度定数(後述), { \displaystyle L } を誤差定数とするとき, 必要な標本数 { \displaystyle n } は以下によって求まります.

 

{ \displaystyle n = \frac{N}{\frac{N-1}{p(1-p)}\Bigl( \frac{L}{2k} \Bigr)^{2} +1 } }

 

 確率 { \displaystyle p } は, これからアンケートを行うのに分かるわけがありません, 従って大抵は { \displaystyle p = 0.5 } とすることが多いです.

 また信頼度 { \displaystyle k } は例えば99%, 95%, 90%に相当するもので, それぞれ 2.58, 1.96, 1.65 をとります.

 許容誤差 { \displaystyle L } は, 例えば 5%なら0.05に相当します.

 

 これによって得た数 { \displaystyle n } による調査は, 母集団調査に対して { \displaystyle N\pm \frac{L}{2} } の範囲で, 信頼度 { \displaystyle k } の確率で一致することを意味します.

 

 最低必要な数と思ってもらってかまいません.

 

 例えば色んな { \displaystyle N } に対して, { \displaystyle k=2.58 }{ \displaystyle L = 0.05 } として得た結果を求めてみるとおおよそ以下のようになります.

 

N n
100 94
1,000 606
10,000 1,332
100,000 1,513
1,000,000 1,534
10,000,000 1,536
100,000,000 1,537

 

 このように, 母集団が少ないほど必要なサンプル数は母集団とあまり変わりませんが, 母集団が大きくなるほど { \displaystyle n } は一定の値に収束していきます.

 

 極限を学んだ方ならこの右辺は { \displaystyle N\to\infty } とすることで { \displaystyle \Bigl( \frac{k}{L} \Bigr)^{2} } に収束することが分かると思います.

 

 従ってこれを改めてサンプル数の計算式とし, { \displaystyle k } と { \displaystyle L } のみを用いてサンプル数 { \displaystyle n } を評価してみると以下のようになることが分かります.

 

L\K 2.58 1.96 1.65
0.01 66,564 38,416 27,225
0.05 2,662 1,537 1,089
0.1 666 384 272
0.2 166 96 68

 

 このように, 誤差や信頼度に応じて必要なサンプル数が全然違うことが分かります.

 

 当然, これは数学の世界での理想的な数字であるに過ぎません, 現実には例えばアンケートの内容であったり地域による隔たりなどによる, この数式では測ることのできない要素が絡んできます.

 

 因みにNHKのアンケート調査は, 人口構成比によって選ばれた300地点から選ばれた計3,600人, ビデオリサーチ社による調査(視聴率など)は, 毎回ランダム選択, 入れ替わりで全国27地区から選ばれた6,600世帯を対象にしているそうです.

 上の収束値による計算例からしても, この数はそれなりに十分な数であることが分かります.

 

 しかし現実は, 別の意味での信頼性が問われることがあります.

 

 

スポンサーリンク

 


世間に溢れているアンケートはどうか

 街角アンケート的なものから報道各社による独自調査, 国勢調査まで, 世の中には色々な形でアンケートが行われています.

 

 得られた結果はそのまま放置するわけがなく, それをもとに, アンケートを行った対象について色々な考察を並べ, 場合によっては一定の見解を示し, また或いはそれを基に行動されます.

 

 つまり内容次第ではアンケートの信頼性が重要になってきます.

 

 例えば上記を満たす標本を集めたとしても, 極端に偏ったものでは意味がありません.

 

 

その結果に因果関係を見出せるか

 またアンケートが物語る結果は, 基本的に因果関係を持ちません, 得られるのは相関関係であり, 前者が認められるかどうかはその後の考察に委ねられます.

 

 場合によってはその考察が間違っているかもしれません.

 或いはアンケートの取り方に偏りがあったために, 正しい考察が行えなかった可能性があります.

 質が悪いのは, 後者は「指摘されるか気付かない限り, 間違ったまま」であるということです.

 

 選挙でもよく言われる通り, 「投票率」が低ければ, 得られた結果は母集団によるそれと乖離する可能性があります.

 だからといって「必ず間違っている」というわけではありませんけどね.

 

 指摘した因果関係は, 場合によっては極端な話世論を動かす要因となりえるわけですが, そもそもアンケートの類は一体

  • どこで, どのように何人標本を集めたのか
  • 誰が行ったのか

などをキチンと公開していないケースもあります.

 街角アンケートの類に至っては, 標本数も調査の公平さも, 怪しいものです, 従ってそれを基にした評価も信頼に足るものである保証はありません.

 しかし現実は例えば「テレビで~ってやってたから」といった印象というのは, 少し前に比べれば減ったものの影響力は大きいものでした.

 そしてその結果が実際には間違っていたとしても訂正される保証は無く, しかし拡散されたその評価は世間に長くとどまり続けます.

 

 

バイアス

 こういったバイアスとも言うべき要因は, サンプル数の式では見えなかった, 別の「信頼性の低下」を生み出します.

 

 街頭アンケートの類では余計なバイアスがかかる可能性もあります.

 良くも悪くも, 「参加はしたけれど早く立ち去りたい」と, 正しい回答をしない標本が出てくる可能性もあります.

 

 数字の上ではそのような人間の思考は想定されていません, 取り上げたらきりがありませんが, 可能性として受け止めなければなりません.

 

 2択の調査でどちらかを選べない…なんてこともあり得ますよ, 人間ですから.

 

 またアンケートを受けても, 対象について正しく理解していない可能性もあります.

 そういったものを含んだ結果を正しく評価するのも容易ではないでしょうね.

 

 

★いざ街頭アンケートを取ってみるとそれほど差がないように見える......? : ねたたま

 

 結構古いですがこういった恣意的なやり方がちょくちょく横行していたりするわけです.

 

 アンケートの公平さはもちろん, それを世に見せ, 評価する側にも公平さが求められなければなりません.

 

 

 数学の世界での目安数は, そもそも仕組みが出来上がっているためブレることは基本的にありません.

 問題なのはやはりそれに関わる「人」ということですね.

 

 その「人」というのはアンケートに回答する側はもちろん, 調査をする側, そしてその結果を評価する側すべてに言えることです.