第3日1時限目 標本とその誤差

標本調査の原理

(1) 標本と誤差

 母比率や母平均など母集団の特性値を母数 parameter, 標本比率や標本平均など標本の特性値を統計量 statistic という。標本が母集団に似ているかどうかといってもまるごと比較することはできないから,比率や平均値などを用いて標本の代表性を比較検討するのである。標本統計量が母数と同じかそれに近い値である確率が高く,標本統計量から母数を高い確率で推測できるならば,標本調査は全数調査に代わることができる。先に紹介した3つの事例はいずれも確率抽出法による標本調査であり,若干の誤差はあるが母集団を首尾良く代表していた。その原理はどうなっているのだろうか。
 標本には誤差がつきまとう。次のような例を想定してみよう。ある地域で,高齢者総数 1 万人の中から 1,000 を無作為に抽出して要介護者の比率を調査したところ 11 であった。ところが,この結果に疑いをもつ者がいて,同じ母集団から別の 1,000 をもう一度抽出して同じ調査をしたら今度は 9 になった。さらにもう 回やり直したら,違う値がでるかもしれないし同じ値がでるかもしれない。こうなると,標本比率はどのような値になることが最も多く,どのくらいの値にはほとんどならないのかを知りたくなる。サンプリングを無限にくりかえせば,それがわかるに違いない。確率抽出の原理を考える出発点は,ここにある。

(2) 碁石の実験

 1,000人の標本を何回も抽出するのは無理なので,同じ原理の簡単な例でこれを実験してみる。たくさんの碁石が白黒半分ずつ入っている壺から無作為に 10 個取り出して,その中に白石が何個入っているかを調べてみる。サンプリングを何回も繰り返すとどういう標本が出る可能性が高いかを調べるのがこの実験の目的だから,母比率がわかっていると都合がよいのである。白石の母比率は 50 %であるから,一組の標本のなかに白石が 5 個入っていれば,母比率と同じ標本比率が得られたことになる。この実験を 100 回繰り返したらどうなるだろうか。壺をよくかき混ぜた後,目をつぶって碁石を1個抜き出し白か黒かを記録したらその碁石を壺に戻す。これを 10 回続けると 1 組の標本が得られ,その中で白石が何回現れたがわかる。抜き出した碁石をいちいち壺に戻すのは,何度でも抽出を繰り返せるようにするためである。このやり方だと無限に繰り返すことができるが,100 回繰り返したところで作業を終了すると標本調査を 100 回行ったことになる。

1 碁石の抽出実験と理論的標本分布

10 個中の

白石の数

実験結果

標本の数

理論分布

組合せ数

確率(%)

0個

0

1

0.1

1個

0

10

1.0

2個

6

45

4.4

3個

14

120

11.7

4個

15

210

20.5

5個

27

252

24.6

6個

22

210

20.5

7個

12

120

11.7

8個

2

45

4.4

9個

2

10

1.0

10

0

1

0.1

合計

100

1024

100.0

備考) 実際の作業は,碁石ではなく乱数表を用いた。 

 各標本の白石の数は 0 個から 10 個までの範囲でいろいろの値をとるわけだが,それを集計すると 表 3-4 の実験欄のような結果になった。これを標本分布 sampling distribution という。この表をみるとおおむね左右対称の分布になっており,白石5個の標本が最も多い。白石4個ないし6個の標本がその次に多い。この3つの標本のどれか1つが現れる確率は 64 である。実際には,サンプリングはたった 1 回しか行わないから,運悪く母集団の白石の割合とかけ離れた標本になる確率もないわけではない。とはいえ,標本分布は上の通りなのだから,母比率と同じかそれに近い値をもつ標本が抽出されると考えるのが合理的である。確率抽出法は,空くじの多い商店街の福引きとは違って,当たりくじがたくさん入っているくじ引きといってよい。

3 標本分布

(1) 2項分布

 実は,実験しなくてもどういう標本がどのくらいの確率で現れるかを数学計算で求めることができる。いちいち実験しなければ標本分布がわからないというのでは実用性が全くないけれども,実験しなくても数学計算から求められるのであれば大変強力な武器を得たのも同然で,これが確率理論の最大の強みである。表 3-4 理論分布は次のような計算から求めた。壺の中には白石と黒石が半分ずつ入っており,どの碁石も等しい確率で抜き出されるとすると, 1 個目は○か●の2通り,2個目までだと○○,○●,●○,●●の4通り,3個目までだとこの2倍の8通りというように組合せの数が倍々に増えていき,最後の 10 個目になると2の 10 乗すなわち 1,024 通りの組合せになる。次に,1,024 通りの組合せのうち白石が 0 個となる組合せは 1 通り, 1 個となる組合せは 10 通りというように,白石の数を 1 個ずつ増しながら組合せの数を集計すると,表 3-4 の理論値の欄に示した結果になる。理論分布の確率と実験結果を比較してみると,両者はほぼ一致している。碁石の実験を無限に繰り返せば実験結果は理論値と同じなる。

 ある試行(碁石の抽出)において事象A(白石)の起こる確率がわかっているとすると,この試行を独立にn回(10 )繰り返す場合にAの起こる回数 X の値(白石の数)がどのような確率で出現するかは決まっている。これを2項分布 binomial distribution という。上の例では,白黒の割合が等しい場合であったが,白黒の割合が違っていても2項分布は求められる。また,起こりうる事象が白黒の2つではなく,ABCの3つの場合でも,AとBCとか,BとACなど着目する事象とそれ以外にまとめてしまえば2つの事象とみなせるので,あらゆる場合に適用できる一般性をもっている。しかし,標本が大きくなると組合せの数を求める計算が非常に煩雑になる。

(2) 正規分布

 幸いなことに,標本が十分大きければ標本分布は正規分布 normal distribution に近づくことが証明されている。これを中心極限定理 central limit theorem という。正規分布の性質は数学的に調べ尽くされている。釣り鐘形に盛り上がった真ん中は,標本での比率や平均の平均だが,それが母比率または母平均に一致することがわかっている。ということは中心の左右にある標本での比率や平均は誤差をもっているが,中心が盛り上がっているから小さな誤差をもつ標本の現れる確率が高いことがわかる。中心の回りの散らばりが誤差であるが,その散らばり全体の平均をとったものを標準誤差 standard error という。

 有限の大きさをもつ母集団(有限母集団)から抽出される標本比率や標本平均の標準誤差は,母集団の大きさを N,標本の大きさを n,母比率を P,母分散をとすると,正規分布の理論から次の式で求めることができる。母分散とは母集団の中の個体のばらつき具合を表す指標であり,この値が大きいと母集団の中の個体のもつ値のばらつきが大きいことを意味する。

 

標本比率の標準誤差= (1)

 

標本平均の標準誤差=   (2)

 

 (1)式と(2)式の右辺第 2 項の は母集団が無限に大きい場合の標

準誤差である。右辺第 1 は有限母集団修正項と呼ばれている。つま

り,有限母集団では抽出率が大きいとその分だけ標準誤差が小さくなる。しかし,母集団 N が非常に大きく標本の大きさ n がそれに比べて小さいければこの項は限りなく 1 に近づから,修正効果はほとんどなくなってしまう。

 母集団の大きさ N を一定とすれば,標本の大きさ n が大きいと標準誤差は小さくなる。反対に,母分散 が大きいと標準誤差も大きくなる。つまり,母集団の中身が多様であれば標準誤差も大きいということである。なお,比率の標準誤差は,母比率 P 0.5,すなわち 50 %のときに最も大きく,母比率が0.5より大きくても小さくても標準誤差は小さくなることに注意したい。というのは(1)式の P(1-P) は,母比率 0.5 のときが最も大きいからである。

例題1 高齢者総数 1 万人に占める要介護高齢者の割合が 10 %である母集団から大きさ 1,000 の標本を無作為に抽出する場合の要介護高齢者の標本比率の分布を求めよ。

解  標本比率分布の平均は母比率に一致するから 10 %。

   標準誤差は(1)式により,

ゆえに,要介護高齢者の標本比率は平均 10 %,標準誤差 0.9 %の分布となる。

 正規分布では,中心にある母数の両側に設けた一定の範囲に全体の何割の標本統計量が含まれるかを計算することができる。図 3-1 に示すように,母数の両側に標準誤差の 1 倍の幅を設けた範囲には全体の 68 %, 2 (正確には 1.96 )の範囲には 95 %, 3 (正確には 2.58 )の範囲には 99 %の標本統計量が含まれることがわかっている。実際のサンプリングはたった 1 回しか行わないが,その標本統計量が母数の両側の標準誤差の 1.96 倍の範囲から抜き取られる確率は 95 である。したがって,要介護高齢者の標本調査の例では,母数が 10 %,標準誤差が 0.9 %であるから,かりに標本調査を 100 回行うと95 回は 8.2 (101.96×0.9)から 11.8 (101.96×0.9)までの間のどこかに落ちるといえるのである。

4 標本統計量による母数の推定

(1) 点推定と区間推定

 標本統計量の出現確率は計算できたとしても,母数がわからないからこそ標本調査を行うのであるから,いかにして標本統計量から母数を推定するかを考えなければならない。

 道路ですれ違った人の年齢を当てるクイズを考えてみよう。解答者Aは 30 歳と答えたが,解答者Bは 25 歳から 35 歳の間であると答えた。解答者Aの答えは信頼しにくいが,解答者Bの答えは信頼度がぐんとアップしている。これと同じように,標本調査の結果から母数を推定するとき,標本統計量そのものを母数の推定値と断言することを点推定 point estimation という。母数は標本統計量をはさむ一定の範囲内にあると述べることを区間推定 interval estimation といい,その区間を信頼区間 confidence interval という。しかし,その区間に必ず母数が存在する保証はないから,存在するであろう確率を合わせて表明する。この確率(確信の程度)を信頼度 confidence level または信頼係数 coefficient of confidence という。信頼区間と信頼度は連動しており,区間を広くとれば信頼度は上昇する。信頼度が大きいと誤差は小さい,と誤解する向きもあるので注意したい。実際はその逆である。

(2) 標本誤差と信頼区間

 信頼区間の計算は,先に述べた標準誤差の公式を応用する。標準誤差は(1)式では母比率 P が,(2)式では母分散 がわかっていなければ計算できないから,これの代用品として標本比率や標本分散を用いる。なぜ,母比率や母平均の代わりに標本比率や標本平均を用いるのか読者は疑問に思うだろう。これよりもよい推定量が他にないことが数学的に証明されているからだと理解されたい。

 信頼度 95 %のもとで母比率または母平均が存在すると確信できる信頼区間は,標本比率 p または標本平均 を中心として両側に標準誤差の1.96倍の幅を設けた次の範囲である。ただし,標本の分散を ,母集団の大きさを N , 標本の大きさを n とする。 

母比率の信頼区間 (信頼度95%)

    (3) 

母平均の信頼区間(信頼度95%)

(4)

 

例題2 高齢者の母集団 1 万人のなかから無作為に 1,000 人 を選び,介護の必要性を調査したところ要介護者は 9 % であった。95 %の信頼度のもとでの標本誤差を求め,母比率を推定せよ。

解 95 %信頼度のもとでの標本誤差は,(3)式より, 

 すなわち,0.85 である。ゆえに,母比率は,7.33 (91.96×0.85) から 10.67 (91.96×0.85)の区間に存在することが 95 %の確率で断言できる。信頼度を 99 %に引き上げれば,(3)式及び(4)式の定数 1.96 の代わりに 2.58 に置き換えて信頼区間をより広くとる。一定の信頼度のもとで計算される誤差を標本誤差 sampling error という。標本誤差の大きさは信頼度により異なるので,両者はワンセットのものとして理解したい。社会調査では,95 の信頼度を用いることが多い。

 このようにして,標本比率または標本平均を用いて母比率または母平均を一定の確率で推定することができるが,後に述べる非確率抽出法ないし有意抽出法ではこのようなことはできない。確率抽出による標本調査が科学的といわれるゆえんであり,このようにして標本は母集団を代表するのである。