Führen Online-Befragungen zu anderen Ergebnissen als persönliche Interviews?

von Bernd Liedl und Nadia Steiber

Eine Schätzung von Moduseffekten am Beispiel eines Mixed-Mode Surveys

Der zunehmende Einsatz von Online-Befragungen (CAWI) in der Sozialforschung ist ein Trend, der sich im Zuge der COVID-19 Pandemie weiter verstärkte. Der Umstieg von persönlichen Interviews auf Online-Befragungen wirft die Frage nach Moduseffekten auf. Unterscheiden sich die Ergebnisse von Online-Befragungen von jenen, die mittels Interviewer*innen durchgeführt werden? Die Abwesenheit eine*r Interviewer*in kann bei Fragen, die dazu verleiten sozial erwünschte Antworten zu geben, gewährleisten, dass Befragte ehrlicher antworten. Umgekehrt kann das selbständige Ausfüllen von Umfragen ohne Interviewer*in aber auch dazu führen, dass Fragen nicht richtig verstanden oder mit minimalem kognitiven Aufwand beantwortet werden (Mühlböck et al. 2017). In diesem Blogbeitrag geben wir einen Überblick über die Ergebnisse einer rezenten Studie, welche die Bedeutung von Moduseffekten auf Basis der Daten aus dem AKCOVID Panelsurvey (Steiber 2021) untersucht, der ein Mixed-Mode Design aufweist und im ersten Jahr der COVID-19 Pandemie durchgeführt wurde. Wir vergleichen zwei Befragungsmodi: computerunterstützte Telefoninterviews (CATI) und Webinterviews (CAWI).

Macht der Modus die Meinung?

Stellen Sie sich vor, Sie werden in einer Umfrage um eine Einschätzung Ihrer finanziellen Situation gebeten. Macht es einen Unterschied ob Sie von eine*r Interviewer*in gefragt werden oder die Frage nach Ihrer persönlichen finanziellen Situation in einer Online-Befragung (schriftlich, Selbstausfüller) gestellt bekommen? Glauben Sie, dass der Modus der Befragung Einfluss auf Ihre Antwort haben könnte? Die wissenschaftliche Befundlage zu diesen sogenannten Moduseffekten ist durchwachsen. Manche Studien kommen zum Schluss, dass Befragungen auf Basis unterschiedlicher Modi niemals zu den gleichen Ergebnissen führen; das Antwortverhalten signifikant vom Modus der Befragung abhängt – unabhängig vom Thema der Untersuchung und der Fragestellung (Klausch et al. 2013). Andere Autor*innen vertreten die Ansicht, dass CATI und CAWI ähnliche Ergebnisse liefern und nur geringe Unterschiede im Antwortverhalten festgestellt werden können (Vannieuwenhuyze & Revilla 2013; Ansolabehere & Schaffner 2014). Eine dritte Gruppe von Studien zeigt, dass Moduseffekte unter bestimmten Umständen stärker zu Tage treten und zielt darauf, reine Messeffekte von Selektionseffekten zu unterscheiden (Schouten et al. 2013; Vannieuwenhuyze & Loosveldt 2013).

Vergleicht man die Ergebnisse von Online-Befragungen mit jenen von persönlichen Interviews, können etwaige Unterschiede zum einen darauf zurückgeführt werden, dass sich die Stichproben der beiden Befragungsmodi voneinander unterscheiden (Selektionseffekte beispielsweise durch mangelhafte Abdeckung bestimmter Teile der Bevölkerung mittels Online-Befragungen). Dem versucht man aktuell in vielen Mixed-Mode Designs dadurch zu begegnen, dass man die Online-Stichprobe (CAWI) um eine Telefonstichprobe (CATI) ergänzt, und hofft, die Repräsentativität der Stichprobe auf diesem Weg zu optimieren. In diesen Mixed-Mode Designs werden spezifische Gruppen — wie etwa ältere Personen — bei den CATI Interviews überrepräsentiert, weil diese mittels CAWI weniger gut abgedeckt werden können. Aber auch wenn unterschiedliche Zusammensetzungen der CATI und CAWI Stichproben nicht intendiert sind, kann nicht ausgeschlossen werden, dass sich die CATI- und CAWI-Befragten anhand von Eigenschaften voneinander unterscheiden, die sich auf das Antwortverhalten auswirken. Über Selektionseffekte hinausgehend – bzw. unter Kontrolle der Zusammensetzung der Stichproben unterschiedlicher Befragungsmodi – können auch genuine Messeffekte entstehen und Unterschiede im Antwortverhalten je nach Befragungsmodus bedingen.

Zum einen können Messeffekte durch sozial erwünschtes Antwortverhalten bedingt sein. Befragte neigen dazu, in ihren Antworten sozial normierten Erwartungen zu entsprechen (Tourangeau & Smith 1996; Joinson et al. 2007; Kreuter et al. 2008; Malakhoff & Jans 2011). Sozial erwünschtes Antwortverhalten tritt dann verstärkt auf, wenn es um Einstellungen und Verhaltensweisen geht, die stärker durch soziale Normen geregelt werden. Ein Beispiel für einen sensiblen Themenbereich, in dem soziale Erwünschtheit das Antwortverhalten beeinflusst, sind Fragen zu kriminellem Verhalten; aber auch bei scheinbar weniger sensiblen Fragen zum persönlichen Wohlbefinden wird häufig sozialen Erwartungen entsprechend geantwortet (Reinecke 1991). Kommt es dabei auf den Befragungsmodus an? Eine Reihe von Studien kommt zum Schluss, dass der Effekt der sozialen Erwünschtheit bei CATI stärker ausgeprägt ist als bei CAWI (Bowyer & Rogowski 2017; Engel 2015). Während durch die akustische Anwesenheit von Interviewer*innen bei telefonischen Befragungen die sozialen Normen in Erinnerung gerufen werden, wird in der völlig anonymen Situation der Web-Befragung ‚ehrlicher‘ geantwortet.

Zum anderen können Messeffekte und unterschiedliche Ergebnisse je nach Modus durch verschiedene Muster der Antwortverweigerung entstehen (Non-Response). So wird beispielsweise die Antwortoption „weiß nicht“ bei CAWI signifikant häufiger gewählt als bei CATI (Bowyer & Rogowski 2017; Engel 2015). Die soziale Situation einer persönlichen Befragung kann dazu verleiten, Antworten zu geben, auch wenn Befragte keine eindeutige Antwort auf die Frage haben (Atteslander 2008). Umgekehrt kann die Abwesenheit von Interviewer*innen bei CAWI aber auch dazu führen, dass mehr Befragte sensitive Fragen beantworten und damit die Rate der Antwortverweigerung bei Websurveys niedriger ausfällt (Joinson et al. 2007; Kreuter et al. 2008).

Vergleich CAWI mit CATI im AKCOVID Panel Survey

Im Rahmen der AKCOVID Studie wurden im Juni 2020 zwei Tausend in Österreich wohnhafte Personen im Alter zwischen 20 und 64 Jahren befragt (80% davon Online und 20% per Telefon, beides computerunterstützt auf Basis eines identen Fragebogens). Im Jänner 2021 wurden 70% der Respondent*innen ein zweites Mal befragt. In einer rezenten Studie wurde das Antwortverhalten im AKCOVID Panel Survey (Steiber 2021) je nach Modus der Befragung (CAWI versus CATI) untersucht. Ziel der Studie war, herauszufinden, ob für alle Items der Befragung ähnliche Moduseffekte gefunden werden können oder ob sich modusbedingte Verzerrungen auf bestimmte Item-Designs, Themen oder Bevölkerungsgruppen beschränken. Um diesen Fragen nachzugehen, erfolgte ein Vergleich von 46 Variablen in Bezug auf das Ausmaß der Non-Response („weiß nicht“ Antworten oder „keine Angabe“ bzw. „Kann ich nicht sagen“) und das Antwortverhalten (Mittel- und Anteilswerte) zwischen CATI und CAWI.

Zentrale Ergebnisse

Wenig Unterschied zwischen CATI und CAWI in der Non-Response

Beim Vergleich der Non-Response zeigten sich nur bei wenigen Items Moduseffekte (im Einklang mit Befunden von Mühlböck et al. 2017). Über alle 46 Variablen hinweg konnte in Bezug auf das Ausmaß der Non-Response kein Muster festgestellt werden. Es konnten auch keine Themen oder Item-Designs ausgemacht werden, bei denen eher Moduseffekte auf die Non-Response auftraten.

Mehr soziale Erwünschtheit bei persönlichen Interviews (CATI)

Deutlich zu Tage traten dagegen Unterschiede im Antwortverhalten innerhalb der validen Angaben. Über einfache Mittelwertvergleiche zwischen CAWI und CATI hinausgehend, wurde anhand multivariater Regressionsmodelle der bereinigte, für die Zusammensetzung der CATI- und CAWI-Stichproben kontrollierte Moduseffekt geschätzt (Messeffekt). In den Regressionsanalysen wurde für soziodemographische Merkmale (Alter, Geschlecht, Bildung, Bundesland, Urbanität, Erwerbsstatus, Staatsbürgerschaft) der Befragten kontrolliert, um reine Selektionseffekte auszuschließen, die sich bspw. aufgrund des höheren mittleren Alters in den CATI Befragungen ergeben (siehe Langversion der Studie S. 6 für Details zur Zusammensetzung der CAWI- und CATI-Stichproben). In diesen Analysen werden signifikante Moduseffekte insbesondere bei den Themenkreisen soziales Vertrauen, finanzielle Probleme, Sorge um Jobverlust und Gesundheit festgestellt (Tabelle 1).

Bei den in Tabelle 1 gelisteten Themen ist im Rahmen von CATI ein stärker sozial erwünschtes bzw. positiveres Antwortverhalten zu beobachten als bei CAWI (im Einklang mit Bowyer & Rogowski 2017). Die Befragten gaben Interviewer*innen gegenüber eher an, dass man anderen Menschen vertrauen kann. Die soziale Situation des Telefoninterviews scheint auch prosoziale Antworten zu fördern. So gaben CATI-Befragte eher an, der Staat solle für einen angemessenen Lebensstandard der Arbeitslosen sorgen als jene, die einen Webfragebogen ausfüllten.

Die Einschätzung der Befragten bzgl. ihrer finanziellen und sozialen Lage (z.B. subjektive Armutsgefährdung, finanzielle Engpässe, sozialer Status) fiel im Rahmen von Online-Befragungen im Vergleich zu persönlichen Befragungen negativer aus. Sorgen bezüglich der Auswirkungen der Corona-Krise auf die eigene finanzielle Lage wurden Interviewer*innen gegenüber signifikant seltener geäußert, während bei CAWI eher angegeben wurde, dass sich die Sicherheit des Arbeitsplatzes seit Beginn der Pandemie verringert hat. Auch wurden die finanzielle Lage des Haushalts bei CAWI im Mittel prekärer eingeschätzt als bei CATI. Nicht oder kaum von Moduseffekten betroffen waren dagegen Fragen nach den krisenbedingten Veränderungen des Einkommens (faktische Fragen) ohne Bezug auf deren Konsequenzen für die finanzielle Lage bzw. Armutsgefährdung. Ein ähnliches Bild ergibt sich bei der Einschätzung der Gesundheit: Telefonisch Befragte schätzten ihren Gesundheitszustand im Schnitt besser ein. Dies deckt sich mit Befunden aus der Literatur (Hoebel et al. 2014; Epstein et al. 2001).

Wie ist die Stärke dieser Moduseffekte einzuschätzen? Anhand gängiger Effektstärkemaße zeigte die Studie durchwegs kleine Effekte (Tabelle 1). Dies darf jedoch nicht darüber hinwegtäuschen, dass es sich substantiell teils um bedeutsame Effekte handelt. Beispielsweise erreichten CATI-Befragte im Schnitt 1,4 Punkte mehr auf der Skala des sozialen Vertrauens (0-10) als CAWI-Befragte. Auch die Einschätzung der finanziellen Lage des Haushalts zeigt sich stark vom Modus der Befragung beeinflusst – so gaben bei den Telefoninterviews rund 40% der Befragten an, bequem mit dem Haushaltseinkommen auszukommen, während sich dieser Anteil bei Online-Respondent*innen auf lediglich 29% belief (kontrolliert für die Stichprobenzusammensetzung).

In anderen Themenbereichen traten dagegen kaum Moduseffekte auf (Tabelle 2). Ein Beispiel sind politische Einstellungen zu den Themen Einkommensumverteilung und Armutsbekämpfung. Auch der Themenbereich familiäre Beziehungen scheint kaum sozial erwünschtes Antwortverhalten zu triggern. Weder die Fragen nach der Qualität der Paarbeziehung (Zufriedenheit, Konflikte) noch zur Kinderbetreuung oder der Vereinbarkeit von Beruf und Familie wurden je nach Modus unterschiedlich beantwortet.

Kaum von Moduseffekten betroffen zeigte sich auch der Themenbereich Arbeitsbedingungen. Weder die faktischen Fragen zu den wöchentlichen Arbeitsstunden, der Art der beruflichen Tätigkeit, dem Ausmaß der Arbeitsautonomie, der Nutzung von Home-Office und dem Vorhandensein eines Betriebsrats, noch die Fragen zu den Auswirkungen der Pandemie auf die Arbeitsbedingungen (Liste der Items in diesem Themenbereich im Online-Tabellenband) zeigten sich durch den Modus der Befragung beeinflusst. Einzige Ausnahme war die Frage nach der Sicherheit des Arbeitsplatzes, welche im Rahmen von CAWI negativer eingeschätzt wurde.

Fazit

Die Ergebnisse der Regressionsanalysen für 46 verschiedene Variablen (unter Kontrolle für die Zusammensetzung der CAWI- und CATI Stichproben), zeigen, dass Moduseffekte auf bestimmte Themenbereiche eingegrenzt werden können. Für manche Themen wurden signifikante und substantiell bedeutsame Moduseffekte geschätzt. Es zeigte sich, dass Befragte am Telefon stärker sozial erwünscht antworten, Sorgen weniger stark zum Ausdruck bringen, ihre finanzielle Lage, ihren sozialen Status und ihre Gesundheit besser einschätzen, sich prosozialer eingestellt zeigen and eher angeben, anderen Menschen zu vertrauen. Kaum von Moduseffekten betroffen zeigten sich ‚faktische‘ Fragen nach krisenbedingten Veränderungen des Einkommens ohne Bezug auf finanzielle Probleme, Fragen zu Arbeitsbedingungen, familiären Beziehungen, oder politischen Einstellungen.

Die Ergebnisse der hier vorgestellten Studie zu den teils maßgeblichen Effekten des Befragungsmodus zeigen, dass es problematisch sein kann, Ergebnisse aus persönlichen Befragungen für die Zeit vor der Pandemie – beispielsweise aus dem European Social Survey (ESS) oder dem Sozialen Survey Österreich (SSÖ) – mit neueren Ergebnissen aus Online-Befragungen zu vergleichen, insbesondere wenn die CAWI-Befragten auf Basis eines Online Access Panels rekrutiert wurden (z.B. Austrian Corona Panel Project, Values in Crisis Austria sowie auch der CAWI-Teil der AKCOVID Surveys, der in der vorgestellten Studie mit CATI verglichen wurde). Dabei werden Befragte nicht auf Basis einer Zufallsauswahl rekrutiert, sondern sind bereits in einem Pool an Personen, die sich studienunabhängig bereiterklärt haben, an Online-Umfragen teilzunehmen. Aus diesem Pool werden klarerweise Personen ohne Onlinezugang ausgeschlossen, während webaffine Personen mit überdurchschnittlich hoher Lesekompetenz bzw. stärkerem politischen Interesse überrepräsentiert sind (Prandner 2022 S. 337). Zentral für die Einschätzung von CAWI ist die Art der Stichprobenziehung. CAWI auf Basis einer rein zufallsbasierten Auswahl von Befragten und einem adressbasierten push-to-web Design kann einen kleineren Stichprobenfehler aufweisen als CAWI auf Basis von Online-Access Panels. Es gibt in der Tat eine Reihe von methodischen Entwicklungen (Professionalisierung von push-to-web Designs), die dazu führen, dass auch bei CAWI eine mit persönlichen Befragungen vergleichbare Ausschöpfung (survey response rate) sowie eine hohe Repräsentativität erreicht werden können (wie beispielsweise bei der Statistik-Austria Befragung ‚So geht’s uns heute‘).

Die Ergebnisse der Studie zeigen auch, dass Moduseffekte nicht unbedingt in jeder Bevölkerungsgruppe auftreten oder die gleiche Stärke aufweisen. Moduseffekte können beispielsweise je nach dem Alter, der Bildung und dem Geschlecht der Befragten unterschiedlich stark ausfallen. Zukünftige Forschung ist gefordert, sich stärker mit heterogenen Moduseffekte zu beschäftigen (z.B. Epstein et al. 2001), d.h. mit der Möglichkeit, dass sich der Modus der Befragung nicht auf alle Befragten gleich auswirkt. Heterogene Moduseffekte sind in der Literatur beschrieben (Wright et al.1998), bleiben in der Praxis bis dato jedoch meist unbeachtet.

Langversion der Studie: PDF.

Literatur

Ansolabehere, Stephen, und Brian F. Schaffner. 2014. Does Survey Mode Still Matter? Findings from a 2010 Multi-Mode Comparison. Political Analysis 22(3):285–303. doi: 10.1093/pan/mpt025.

Atteslander, Peter. 2008. Methoden der empirischen Sozialforschung. 12. Berlin: Erich Schmidt Verlag.

Bowyer, Benjamin T., und Jon C. Rogowski. 2017. Mode Matters: Evaluating Response Comparability in a Mixed-Mode Survey. Political Science Research and Methods 5(2):295–313. doi: 10.1017/psrm.2015.28.

Engel, Uwe, Hrsg. 2015. Improving Survey Methods: Lessons from Recent Research. New York: Routledge.

Epstein, Joan Faith, Peggy Ripley Barker, und Larry A. Kroutil. 2001. Mode Effects in Self-Reported Mental Health Data. Public Opinion Quarterly 65(4):529–49. doi: 10.1086/323577.

Hoebel, Jens, Elena von der Lippe, Cornelia Lange, und Thomas Ziese. 2014. Mode differences in a mixed-mode health interview survey among adults. Archives of Public Health 72(1):46. doi: 10.1186/2049-3258-72-46.

Joinson, Adam N., Alan Woodley, und Ulf-Dietrich Reips. 2007. Personalization, Authentication and Self-Disclosure in Self-Administered Internet Surveys. Computers in Human Behavior 23(1):275–85. doi: 10.1016/j.chb.2004.10.012.

Klausch, Thomas, Joop J. Hox, und Barry Schouten. 2013. Measurement Effects of Survey Mode on the Equivalence of Attitudinal Rating Scale Questions. Sociological Methods & Research 42(3):227–63. doi: 10.1177/0049124113500480.

Kreuter, Frauke, Stanley Presser, und Roger Tourangeau. 2008. Social Desirability Bias in CATI, IVR, and Web Surveys: The Effects of Mode and Question Sensitivity. Public Opinion Quarterly 72(5):847–65. doi: 10.1093/poq/nfn063.

Malakhoff, Lawrence A., und Matt Jans. 2011. Towards usage of avatar interviewers in web surveys“. Survey practice 4(3):1–14.

Mühlböck, Monika, Nadia Steiber, und Bernhard Kittel. 2017. Less Supervision, More Satisficing? Comparing Completely Self-Administered Web-Surveys and Interviews Under Controlled Conditions. Statistics, Politics and Policy 8(1):13–28. doi: 10.1515/spp-2017-0005.

Prandner, Dimitri. 2022. Zu Datengrundlage und Datenqualität: Methodische Reflexion zur quantitativen Erhebung während der Corona-Krise. In Die österreichische Gesellschaft während der Corona-Pandemie: Ergebnisse aus sozialwissenschaftlichen Umfragen, Hrsg. Wolfgang Aschauer, Christoph Glatz, und Dimitri Prandner, 325–347. Wiesbaden: Springer VS.

Reinecke, Jost. 1991. Interviewer-und Befragtenverhalten. Theoretische Ansätze und methodische Konzepte. Opladen: Westdeutscher Verlag.

Schouten, Barry, Jan van den Brakel, Bart Buelens, Jan van der Laan, und Thomas Klausch. 2013. Disentangling Mode-Specific Selection and Measurement Bias in Social Surveys. Social Science Research 42(6):1555–70. doi: 10.1016/j.ssresearch.2013.07.005.

Steiber, Nadia. 2021. AKCOVID Panel Survey (SUF edition), AUSSDA, V2. doi: 10.11587/D9AYZ7.

Tourangeau, Roger, und Tom W. Smith. 1996. Asking sensitive questions: The impact of data collection mode, question format, and question context. Public Opinion Quarterly 60(2):275–304.

Vannieuwenhuyze, Jorre T. A., und Geert Loosveldt. 2013. Evaluating Relative Mode Effects in Mixed-Mode Surveys: Three Methods to Disentangle Selection and Measurement Effects. Sociological Methods & Research 42(1):82–104. doi: 10.1177/0049124112464868.

Vannieuwenhuyze, Jorre T. A., und Melanie Revilla. 2013. Evaluating Relative Mode Eﬀects on Data Quality in Mixed-Mode Surveys. Survey Research Methods 7(3):157–68.

Wright, Debra L., William S. Aquilino, und Andrew J. Supple. 1998. A Comparison of Computer-Assisted and Paper-and-Pencil Self-Administered Questionnaires in a Survey on Smoking, Alcohol, and Drug Use. The Public Opinion Quarterly 62(3):331–53.