集計の基本(6)

ウエイトバック集計

ウエイトバック集計とは

ウエイトバック集計を端的に説明すると、以下のようになります。
「回収されたサンプル(標本)を母集団の構成に合わせて集計する方法。母集団と回収サンプルの構成比が異なる場合に、属性の抽出率や回収率の違いを補正し母集団構成比を復元する場合などに使用する。国勢調査など既知の正確なウエイトバック集計データに集計値をウエイトバックすることが多い。」

となります。しかし、これを読むだけでは少々わかりにくいかもしれません。具体的にはどのような場面で、どのようなことが行われているのでしょうか。600名の生徒がいる、ある中学校の例を用いて見ていきましょう。

全校生徒数が600人の中学校で、制服廃止に賛成するかどうかのアンケートをとったケースを考えてみます(図1)。

この中学校では、生徒における男女の内訳が男子200人、女子400人です。
アンケートの総回答数は200人で、回答の内訳は男子100人、女子100人でした。
また、アンケートの結果、制服廃止に「賛成」した人は全部で130名、全体の65%でした。

ある中学校における、全体/アンケート回答/アンケート結果における男女内訳

図1 ある中学校における、全体/アンケート回答/アンケート結果における男女内訳

さて、今回のアンケートでは、何らかの理由で女子の回答率が悪かったようです。その結果、生徒総数では男子:女子=1:2である一方で、アンケート回答者数では男子:女子=1:1となりました。これは、本アンケート結果(制服廃止に賛成が65.0%いた)においては女子の声が小さくなっているということを意味します。

そこで男女間の意見の公平を期すため(つまり“正しい学校の縮図を作る”ため)には、アンケートの回答者(回収されたサンプル)の男女比を、生徒全体(母集団)の男女の構成比に合わせて集計し直すことが必要となります。これがウエイトバック集計です。

今回のアンケート回答総数200名における、本来あるべき理想的な男女の数は図2のとおりです。

アンケート回答者の本来あるべき男女比

図2 アンケート回答者の本来あるべき男女比

それに対し実際の回答者数を割り戻すことで、母集団の構成比に戻すための係数(ウエイトバック値)を割り出していきます(図3)。つまり、実際の男子の回答数100人を66.7人になるように縮小=ウエイトバック値0.67、実際の女子の回答数100人を133.3人になるように拡大=ウエイトバック値1.33することで、中学校の正しい縮図を作ることが可能となります。

ウエイトバック値の考え方

図3 ウエイトバック値の考え方

このウエイトバック値を、男女別の回答結果に掛け合わせると、男女間の意見の公平性が担保された、中学校全体の正しい縮図としての、制服廃止に賛成の人割合を導き出すことができます(図4)。

制服廃止についてのアンケート結果のウエイトバック集計

図4 制服廃止についてのアンケート結果のウエイトバック集計

図4を見て分かるように、ウエイトバック集計前の結果では制服廃止賛成比率は65.0%でしたが、ウエイトバック集計後には73.3%になりました。この73.3%が、女性の声を正しく全体の結果に反映させた結果である、といえます。

ウエイトバック集計の注意点

ウエイトバック集計を用いてデータを補正するためには、その補正値の出自が正しいことが大前提になります。すなわち、ウエイトバック値を算出するための母集団の内訳を正しく知ることができる必要があるということです。

上で挙げた例のように、母集団である中学校の生徒全数の男女内訳がはっきり分かっている場合や、国勢調査データのように日本国民全体の性年代の内訳が公のデータとして参照できるような場合であれば良いのですが、「週に1日以上カレーを食べる人」のように、全数もその内訳もはっきりしたものがない指標でウエイトをかけることはできません。

また、ウエイトをかける数が多くなりすぎたり、ウエイトバック値が極端に大きくなったりするのも望ましくないと考えられます。例えば、ウエイトバック値が4ということは、ある1人の回答結果を4人分として扱うことになることを指しますので、その人がたまたまニッチな意見を持つ人であった場合、そのニッチな人の声が4倍になって取り扱われるということになります。

その他にも、ウエイトバック集計後の結果についての検定や多変量解析は、現時点で学術的な「正解」がない状態であるようです。

このように、ウエイトバック集計は万能というわけではなく、活用する際には注意すべきことがあります。マーケティングリサーチにおける原則や、リサーチ業界における長年の経験則等を踏まえると、以下のようなことが言えるでしょう。

  • ウエイトバック集計の基となるウエイトバック値算出のためには、誰もが認める「大元」の数字(母集団の正しい把握)が必要
  • 「全体をみる」必要がない場合、ウエイトバック集計は不要
  • アンケート回答総数が少ない場合、ウエイトバック集計は適していない
  • ウエイトバック値があまりにも大きくなってしまう場合、ウエイトバック集計は適していない
  • 調査開始前にウエイトバック値がなるべく小さくなるように標本設計をしたほうがよい(母集団の構成比に対して、極端な偏りが出ないように標本設計をする)
  • ウエイトバック後の統計処理、解析は慎重に(正解が不明瞭=回避したほうが無難)

※使用するツールによって結果が変わる可能性があります

<< 「単純集計とクロス集計」に戻る

Myリサーチページログイン

ID

パスワード