Название | Erstellung von Fragebogen |
---|---|
Автор произведения | K. Wolfgang Kallus |
Жанр | Социология |
Серия | |
Издательство | Социология |
Год выпуска | 0 |
isbn | 9783846344651 |
Während sich für den Beanspruchungsbereich die theoretisch abgeleiteten Belastungsdimensionen weitestgehend abbilden ließen, konnten aufgrund hoher Überlappung der Merkmalsbereiche nur einige korrespondierende Regenerationsbereiche abgebildet werden. Interessanterweise konnten, passend zu kognitiven Stressmodellen (z. B. Lazarus, 1966, 1991), überwiegend positiv bewertete Ereignisse und Zustände als „gute Items“ für Erholung in die Endform des Erholungs-Belastungs-Fragebogens übernommen werden.
Weitere Beispiele für eine theoriegeleitete Entwicklung von Itempools finden sich im Instrument zur Erfassung der Konflikteskalation am Arbeitsplatz (IKEAr; Kolodej, Voutsinas, Jiménez & Kallus, 2005), im EBF-Sport (Kellmann & Kallus, 2000, 2016), im Test zur Erfassung des Mobbingrisikos am Arbeitsplatz (TEMA; Kolodej, Essler & Kallus, 2010), in der Profilanalyse zur Arbeitszufriedenheit (PAZ; Jiménez, 2008) und auch in einer Vielzahl von Verfahren anderer Arbeitsgruppen, wie dem bereits erwähnten arbeitsanalytischen Fragebogen (ISTA; Semmer, Zapf & Dunckel, 1999), im Trierer Inventar zu chronischem Stress (TICS; Schulz, Schlotz & Becker, 2004) oder beim Verfahren zu Beanspruchungsmessung bei der Arbeit (BMS; Debitz, Plath & Richter, 2016). Bögel und Rosenstiel (1997) empfehlen auch für MitarbeiterInnenbefragungen ein stärker theoriegeleitetes Vorgehen.
Eine theoretische Konzeption zur „Messung“ der Facetten eines hypothetischen Konstrukts oder eines hinreichend klar operationalisierten Merkmals stellt die Generalisierbarkeitstheorie (Cronbach, Gleser, Nanda & Rajaratnam, 1972) dar. Danach sollten Items in einem Fragebogen möglichst in „paralleler“ Form Informationen zur Ausprägung einer Facette des Merkmals erfassen. Mehrere dieser Items lassen sich dann zusammenfassen und spiegeln Unterschiede zwischen Personen in der Facette wider. Die Generalisierbarkeitstheorie betont auch die Bedeutung von Situationen, in denen sich das relevante Merkmal widerspiegeln sollte. Situationen sollten bei der Itemzusammenstellung nicht unbeachtet bleiben. Wenn möglich, sollte die jeweils relevante Situation für die Formulierung der Frage berücksichtigt werden. Die Berücksichtigung von Situationen stößt an Grenzen, weil gerade Situationen oft spezifisch oder typisch für bestimmte Bevölkerungs- oder Berufsgruppen sind. Dadurch ergibt sich der unerwünschte Fall, dass der Einsatzbereich eines Fragebogens dann auf spezifische Gruppen einzugrenzen ist oder dass hypothetische Situationen einzubeziehen sind. Hypothetische Situationen erhöhen die Komplexität von Fragen und müssen sehr geschickt formuliert werden, damit alle Antwortenden eine angemessene Vorstellung entwickeln können. Aufgrund dieser Schwierigkeiten reduzieren hypothetische Situationen oft die Qualität des Fragebogens (vgl. Faulbaum, Prüfer & Rexroth, 2009; Porst, 2009). Reaktionen auf hypothetische Situationen lassen sich allerdings nicht ohne Weiteres mit realen Verhaltensweisen und solchen in realen Situationen „mischen“.
Wichtig ist die Generalisierbarkeitstheorie für die Entwicklung von Fragebogen insoweit, als ein Item als Beispiel für eines von vielen möglichen Items betrachtet wird und als solches eine Stichprobe aus dem zu messenden Merkmal darstellt. Daher kann bei einer Prüfung des eigenen Itempools die aus der Generalisierbarkeitstheorie ableitbare Frage „Ist dieses Item typisch für das zu messende Merkmal?“ eine wesentliche Hilfe darstellen. Bei der Itementwicklung sollten nach der Generalisierbarkeitstheorie die TestentwicklerInnen für jeden Subtest ein Bild der möglichen Items vor Augen haben und aus den „möglichen“ Items einige „günstige“, am besten „repräsentative“ Items auswählen. Dabei ist eine ähnliche Varianz für unterschiedliche Facetten (Subtests) anzustreben, wenn die Items (wie im Regelfall) zu einem ungewichteten Mittelwert (oder einer ungewichteten Summe) zusammengefasst werden sollen.
Wenn möglich, sollte zudem ein Pretest an einer größeren Stichprobe durchgeführt werden. Dieser Pretest erlaubt (n ≥ 50) eine erste Einschätzung der psychometrischen Eigenschaften und eine Identifikation von „Ausreißeritems“. Ausreißeritems entstehen durch unerwartete Varianzeinschränkung und z. B. durch missverständliche (mehrdeutige) Formulierung der Iteminhalte, die nicht von der gesamten Stichprobe als Merkmal der zu messenden Facette verstanden werden. Beispiel: Die Selbstbeschreibung mit der Ausprägung von „gar nicht“ bis „sehr stark“ zu dem Zustand „dösig“ wird in Deutschland oberhalb der Main-Linie im Sinne eines Desaktivierungszustandes verstanden. Südlich der Main-Linie ist das Item z. T. „unverständlich“.
Pilotstudien erlauben Schätzungen zur Reliabilität und damit die Schätzung einer sinnvollen Itemzahl für jeden Subtest bzw. jede Merkmalsfacette. Inhaltlich inhomogene Facetten sollten durch mehr Items abgebildet werden, um eine hinreichende „gemeinsame“ Varianz zu erhalten.
Zentral für die Testentwicklung ist zudem, dass Items als Frage-Antwort-Einheiten auch in Bezug auf ihre sprachlich-grammatikalische Struktur, das Rating-Format und die Wortwahl als Stichprobe aus einem Pool möglicher ähnlicher Items gedacht werden. Items mit ähnlichem Inhalt, aber geändertem Antwortformat oder geänderter grammatikalischer Struktur gehören nicht zwingend in dieselbe Gruppe.
Ein wichtiges Beispiel betrifft die mit Negationen formulierten Items. Sprachliche Negationen stellen keine „einfache“ logische Umkehrung dar und sind daher nicht geeignet, Antworttendenzen wie die Tendenz zur Zustimmung abzufangen. Bei einfachen Aussagen wie „Ich mag Skifahren“ („gar nicht“ … „sehr stark“) und „Ich mag Skifahren nicht“ („gar nicht“ … „sehr stark“) wird die Problematik der Negation bereits deutlich. Der Satz „Ich mag Skifahren nicht“ mit der Antwort „gar nicht“ stellt keine angemessene Reformulierung zu „Ich mag Skifahren sehr“ dar. Die Diskussionen über Arbeitszufriedenheit und -unzufriedenheit als zwei relativ unabhängige Dimensionen (Herzberg, 1966) zeigen auf, dass Zufriedenheit und die sprachliche Negation Unzufriedenheit psychologisch kein bipolares Konstrukt darstellen. Interessanterweise zeigen Analysen von Fragebogen in linearen Strukturmodellen immer wieder, dass positiv und negativ formulierte Items dazu tendieren, eigene Faktoren zu bilden (Eid & Schmidt, 2014). Ein empirisches Beispiel dazu liefert die aktuelle Diskussion zur Frage „Engagement als Gegenpol von Burnout“ (Maslach & Leiter, 2008). Mit den methodischen Problemen bei der Messung von bipolaren Merkmalen haben sich z. B. Marsh (1996) und Dunbar, Ford, Hunt und Der (2000) auseinandergesetzt. Auch hier ergibt sich für die negativ formulierten Items ein eigener Faktor. Insbesondere Häufigkeitsskalen tendieren dazu, „scheinbare“ Bipolaritäten aufzulösen. Beanspruchung und Erholung können innerhalb eines Tages „gemeinsam“ variieren. Bestimmte Sportaktivitäten können sogar gleichzeitig (körperlich) hoch beanspruchend und psychisch-emotional extrem erholsam sein.
2.3 Interviews zur Präzisierung des Merkmalsbereiches
Als klassische Ansätze zur Präzisierung von Merkmalsbereichen haben sich neben der Operationalisierung, die auf theoretischen Modellen basiert, eine ExpertInnenbefragung mittels Interview oder die Strukturierung des Problemfeldes durch Interviewstudien etabliert.
Ein vorbildlich nach diesem Modell entwickeltes Fragebogenverfahren ist das FIMEST (Fragebogeninventar zur Messung der Angst vor Sterben und Tod) von Wittkowski (1996). Aufgrund des schwierigen und komplexen Gegenstandsbereichs war hier eine intensive Vorarbeit mit Tiefeninterviews sinnvoll (Wittkowski, 1994).
Wissenschaftliche Interviewstudien haben den ersten