アンケート調査におけるウェイトバック集計の活用

経営状況を分析する会社員の男女のイラスト 皆さま、こんにちは、SMEアナリティクス部のたまごです。

今回は、リサーチの現場でよく用いられる、ウェイトバック集計という手法についてお話しします。

モチベーション

具体的な説明へ移る前に、そもそもどのような場面で必要とされる手法なのか、レコード会社における活用のモチベーションをお話しします。

以前に別の記事でも紹介されていた通り、レコード会社では、アーティストファンの属性や嗜好を知るために、SNSや音楽ストリーミングサービスのデータ解析を行っています。 しかし、これらのデータから知りたい情報がすべて得られるわけではありません。たとえば「なぜそのアーティストを好きになったのか」といった詳しい背景については、分析結果から推測はできても、直接理解することはできません。

このようなユーザーのインサイトを探るために、レコード会社ではしばしばアンケート調査が実施されます。 調査結果をそのまま集計して利用することもあれば、別のデータと連携させてより深い情報を得ようとすることもあります。 以前に紹介したコレスポンデンス分析は、このようなアンケート調査の可視化において活躍する手法でした。

今回ご紹介するウェイトバック集計は、調査結果の集計の精度向上を目的としたデータ補正の手法になります。 以下では、手法の概要とあわせて、注意すべきポイントについても少しだけお話しします。

ウェイトバック集計とは

概要

ウェイトバック集計とは、調査サンプルが母集団全体を正確に反映するように、各回答単位に対して重みを設定し、サンプルの偏りを補正する手法のことです。

一般に、アンケートを含む社会調査は、ある母集団(調査対象となりうるすべての単位を集めたもの)の属性を理解するために行われます。 ここで、母集団の全ての単位のデータを収集できれば、限りなく誤差の小さな調査結果を入手できますが、リサーチの現場において、このような全数調査は困難な場合がほとんどです。 そのため、母集団の一部から適当な部分、すなわちサンプル(標本)を抽出して、その結果に基づき母集団に関する推論を行うことになります。

しかし、入手した標本に何らかの偏りがある場合、集計結果が母集団の本来の属性からずれてしまうことがあります。 以下で例を見てみましょう。

簡単な例

あるアーティストAのファンに、「アーティストAのライブに来たことがあるか?」というアンケートを取ったとします。

■状況設定

  • 母集団(アーティストAのファン)の性別構成比は 女性70% / 男性30%
  • アンケートの結果、女性/男性 100人ずつサンプルが収集された

収集された200人のサンプル全体で見て、「はい」と答えたライブ参加経験者の割合が 60% という結果になったとしましょう。

ここで、母集団であるファン全体(女性70% / 男性30%)と比べて、サンプル(女性50% / 男性50%)の方が女性の構成比が小さくなってしまっており、サンプル全体の集計結果である 60% という数字は、本来のファン層対比で女性の声を小さく見積もった結果になっていることに注意が必要です。 母集団と実際に収集されたサンプルとの間で、調査対象のなんらかの構成比(ここでは性別)に乖離が生じている場合、サンプル全体の集計結果はその偏りの影響を受けたものになってしまいます。

ウェイトバック集計は、各セグメントの回答結果が母集団の構成比と一致するように適当な補正値(ウェイト)を乗ずる手法です。

今回の例では、女性の構成比を 50%→70% へ、男性の構成比を 50%→30% へ補正する必要があるため、

  • 女性:70% / 50% = 1.4
  • 男性:30% / 50% = 0.6

が、それぞれの回答結果に乗ずるウェイトの値になります。 実際にウェイトバックによる補正を行うと、以下の右表のような結果が得られます。

補正後のサンプル全体のライブ参加経験者の割合は 49% という結果になりました。 危うくライブ参加経験割合を 60% と過剰に見積もってしまうところでしたが、ウェイトバック集計のおかげで、性別構成比を正しく反映した結果を得ることができました。

レコード会社では、アーティストのブランディング方針を考える際などに、アンケートでリスナーの属性や嗜好を調査することがありますが、施策対象として想定している母集団の構成比通りにサンプル収集を行えるとは限りません。このような状況で、収集した結果からバイアスを取り除き、正しい示唆を得るために、ウェイトバック集計は活用されます。

この例では、性別の偏りを補正しましたが、もちろんそれ以外のサンプルの偏りに対しても、ウェイトバック集計は適用可能です。 たとえば、複数の都道府県にまたがり調査を実施した場合、都道府県ごと人口比にもとづき、ウェイトバック集計を行うことも考えられるでしょう。

以下では、ウェイトバック集計を行う際の注意点をいくつかご紹介します。

よくある落とし穴

補正が必要ない状況

補正前後の集計結果をあらためて見てみましょう。

上表の再掲

サンプル全体の参加経験者割合が 60%→49% と変化しているのに対して、女性/男性それぞれの参加経験者割合は補正前後で変化していないことが分かります。 これは、ウェイトバック集計はサンプル全体(あるいは複数セグメントを組み合わせたグループ)の集計結果に対してのみ影響を及ぼし、単一のセグメントの集計結果は補正前後で変化しないことを表します。

「はい」「いいえ」の回答数の両方に同じウェイトを乗じるのですから、考えてみれば当たり前の話ですが、セグメントごとの集計結果を議論する際には、ウェイトバック集計が不要であることは意識しておくと良いでしょう。

ウェイトの大きさ

ウェイトバック集計においては、一部ウェイトが過剰に大きくなってしまう事態は避けるべき、という指摘がよくなされます。

上記の例でウェイトの大きさは 女性=1.4(男性=0.6)でした。これは、女性1人の回答を 1.4人分の回答結果として計上することを意味します。

この程度であれば、直感的に「補正」の範囲に収まっていると言えそうですが、もし仮にあるセグメントにおけるウェイトの大きさが10を超えたとすればどうでしょう。 そのセグメントに含まれる回答者1人の意見を10人分の意見として計上することになり、少数の意見が過大に評価されてしまう恐れがあることが分かります。

少人数に対するアンケート調査では、このような事態に陥りやすいため、調査設計の段階で、ウェイトの値が過大にならないよう、必要なサンプル数の割付を考慮しておくことが大切です。

調査対象の設計

当たり前のようですが、想定する母集団に応じて、ウェイトの値(もちろんウェイトバック後の集計結果)が変わってくる点には注意が必要です。

たとえば、「ある国内ロックバンドの認知度を調査したい」と考えたとき、

  • 日本人口全体
  • インターネット利用者
  • サブスク利用者
  • 邦楽ロックリスナー

のどれを母集団として想定するかに応じて、ウェイトの値は大きく変わってきます。 (ここでは触れませんが、調査方法自体が変わってくることも想像に難くないでしょう)

では、ウェイトバック先の母集団はどのように決めればいいのでしょうか。 これは、調査の結果に基づきどのような施策を実施したいかに応じて、アンケートの実施前に決めておくべきことになります。

たとえば、(あまりいい例ではありませんが)全国の駅にアーティストの広告を展開予定で、その展開数を決めるための参考にしたいような場合は、”日本人口全体”を母集団として想定することができそうです。 一方で、大型ロックフェスに合わせて、現地やSNS上で施策を実施するための参考にしたいということであれば、”サブスク利用者”や”邦楽ロックリスナー”を母集団として想定するのが良さそうです。”日本人口全体”には、施策のターゲットではない人が多く含まれるために、ウェイトバックを行うと、ミスリーディングな結果が得られてしまう可能性があるためです。

“日本人口全体”や“インターネット利用者”といった一般的な集団の属性情報は、公的機関やシンクタンクのレポートなどから入手できることがあります。

一方で、“邦楽ロックリスナー”といった特別なセグメントが関心対象である場合、自前で母集団構成比を把握する必要があります。この場合は、たとえば“邦楽ロックリスナー”を判定するための(ビジネス視点から見て適当な)スクリーニング用の設問に回答してもらい、あらかじめ調査対象のセグメントの構成比を算出しておくというアプローチが考えられます。 前章の例においては、簡単のためにあらかじめ「アーティストAのファン層」の構成比が分かっている状況を取り上げましたが、リサーチの現場においては施策対象の母集団構成比は事前に分かっていないことの方が多く、スクリーニング用の設問による事前調査は非常に重要なステップとなります。

事前に母集団の構成比を意識せずに調査を進めてしまうと、サンプル収集を終えて集計に着手した段階で初めて、一部ウェイトが過大になってしまうことに気づき、改めてコストをかけてサンプルを集めなおすことになってしまった……という事態にも陥りかねません。 (再収集ができない場合は、正確性を欠いた分析を行うことを余儀なくされます)

前節からの繰り返しにはなりますが、あらかじめ最終的な分析の段階を見据えた上で、調査対象やサンプルサイズの設計を行うことが肝要です。