In diesem Abschnitt werden die von Inspirient durchgeführten Prüfungen zur Bewertung der Qualität von Datensätzen im Detail beschrieben. Außerdem werden die in diesem Prozess verwendeten Metriken definiert, wobei der Schwerpunkt auf Metriken liegt, die auf Umfragedaten anwendbar sind.

Prüfungen zur Bewertung der Datenqualität

Für die Bewertung der Qualität von Umfragedatensätzen stehen die folgenden drei Prüfungen zur Verfügung:

Anomalien der Umfragedauer

Die Erkennung von Fällen mit ungewöhnlich kurzer oder langer Dauer kann dazu beitragen, Probleme mit der Qualität der Erhebung zu erkennen und zu untersuchen. Abnormale Falldauern werden mithilfe des generalisierten ESD-Tests (Extreme Studentized Deviate) für die angegebene Dauer-Variable ermittelt. Die Analyseausgabe ist eine Liste der oberen (hochwertigen) und unteren (geringwertigen) Ausreißer der Falldauer.

Anforderungen an die Eingabe Generierte Ausgabe
  • Eine Variable zur Erhebungsdauer
  • Histogramm-Chart mit Ausreißererkennung
  • Liste der hohen/niedrigen Dauerausreißer

Indikator für Straightliner-Antworten

Der Indikator für Straightliner-Antworten verwendet eine Scoring-Methode, die in einem Bereich zwischen 0 und 1 angibt, inwiefern ein Interview als ein Straightliner anzusehen ist.

Für jedes Interview wird der Indikator für Straightliner-Antworten abgeleitet, indem die Abweichung der beobachteten Antworten für ein bestimmtes Interview mit der erwarteten Abweichung verglichen wird, die anhand der Antworten aller Interviews in der Umfrage berechnet wird.

Um ein Maß für die Antwortvariation zu erhalten, werden Fragen mit übereinstimmenden Likert-Skalen-Bereichen gruppiert und dann die relative Häufigkeitsverteilung für jede Bereichsgruppe berechnet, um…

  1. den Mittelwert und die Varianz für jeden Bereich für jedes Interview, d.h. die beobachtete Varianz der Antworten für jeden Bereich für jedes Interview, und
  2. den Mittelwert und die Varianz für jeden Bereich über alle Interviews hinweg, d.h. die erwartete Varianz der Bereichsantworten für die gesamte Umfrage

Aus der beobachteten und der erwarteten Varianz lässt sich für jedes Interview leicht ein Varianzabstandsmaß berechnen. Dieses Abstandsmaß wird dann normalisiert, um den Indikator für die Beantwortungsqualität der Umfrage abzuleiten, der in der von der automatisierten Analyse von Inspirient erzeugten Ausgabe auch Case Divergence Score genannt wird.

Anforderungen an die Eingabe Generierte Ausgabe
  • Eine Fall-ID-Variable
  • Mehrere Antwortvariablen mit der gleichen Punkteskala
  • Balkendiagramm für die Klassifizierung der Fallabweichungen
  • Detaillierter Bericht über das Ergebnis der Abweichung für jeden Fall in einer Umfrage als Microsoft Excel-Datei

Indikator für Interviewer-Effekte

Der Interviewer-Effekt-Indikator liefert eine datengestützte Schätzung der Vertrauenswürdigkeit jedes Interviewers für eine bestimmte Umfrage. Derzeit kombiniert der Indikator zwei Faktoren: Der Grad der Abweichung der Umfragebeantwortung von der erwarteten Antwortverteilung und der Grad der Abweichung der Interviewdauer von der erwarteten Zeit für den Abschluss der Umfrage.

Der Wert für die Abweichung der Umfragebeantwortung wird berechnet, indem Ausreißer in den erwarteten gegenüber den tatsächlichen Häufigkeitsverteilungen der Umfragebeantwortungsvariablen für jeden Interviewer ermittelt werden. Die Interviewer mit der größten Abweichung über alle Interviews hinweg werden an die Spitze gestellt, um priorisiert untersucht werden zu können.

Der Wert für die Abweichung bei der Befragungsdauer wird als durchschnittliche Befragungsdauer pro Interviewer berechnet. Die Interviewer, bei denen die Befragungsdauer deutlich über dem Durchschnitt liegt, werden an die Spitze gesetzt und könnten auf Datenmanipulation hindeuten.

Anforderungen an die Eingabe Generierte Ausgabe
  • Eine Interviewer-ID-Variable
  • Eine Spalte für die Dauer der Umfrage
  • Mindestens eine Antwortvariable
  • Quadrantenanalyse des Interviewereffekts
  • Top-10-Liste der Interviewer mit der höchsten Punktzahl für den Interviewereffekt
  • Detaillierter Bericht über die Berechnung der Interviewer-Effektwerte für jeden Umfragefall, verfügbar als Microsoft Excel-Datei und JSON-Datei

Scoring-Methoden

In diesem Abschnitt werden die folgenden Scoring-Methoden zur Qualitätsbewertung näher erläutert:

Straightliner-Score

Der Straightliner-Score gibt in einem Wertebereich zwischen 0 und 1 an, inwiefern ein Interview als ein Straightliner anzusehen ist.

Die algorithmischen Schritte der Analyse sind wie folgt:

  1. Gruppiere die Beantwortungsvariablen der Umfrage mit gleichen Likert-Skalen. Eine Umfrage kann beispielsweise 20 Beantwortungsvariablen mit einer 3-Punkte-Skala enthalten, die wir als Definitionsbereich #1 bezeichnen können, 10 Beantwortungsspalten mit einer 5-Punkte-Skala, die wir als Definitionsbereich #2 bezeichnen können, und 5 Beantwortungsspalten mit einer 7-Punkte-Likert-Skala, die wir als Definitionsbereich #3 bezeichnen können.

  2. Berechne für jedes Interview, i(1…n), die Häufigkeitsverteilung für jeden Antwortbereich der Umfrage, d(1…m). Die Häufigkeitsverteilung für den Definitionsbereich i1 könnte zum Beispiel wie folgt aussehen:

Definitionsbereich #1 (3-Punkte-Likert-Skala)
Punktwert 1 2 3 Summe
Abs. Freq. 3 10 7 20
Rel. Freq. 0.15 0.5 0.35 1
Definitionsbereich #2 (5-Punkte-Likert-Skala)
Punktwert 1 2 3 4 5 Summe
Abs. Freq. 2 2 2 2 2 10
Rel. Freq. 0.2 0.2 0.2 0.2 0.2 1
Definitionsbereich #3 (7-Punkte-Likert-Skala)
Punktwert 1 2 3 4 5 6 7 Summe
Abs. Freq. 5 0 0 0 0 0 0 5
Rel. Freq. 1 0 0 0 0 0 0 1
  1. Nachdem nun die Häufigkeitsverteilungen der Definitionsbereiche für jedes Interview berechnet wurden, werden die gesamten Häufigkeitsverteilungen der Bereiche für die Umfrage, d.h. für alle Interviews, berechnet, um eine erwartete Verteilung der Bereiche abzuleiten. Eine Umfrage mit 10 Interviews könnte zum Beispiel die folgenden Gesamthäufigkeitsverteilungen der Definitionsbereiche aufweisen:
Definitionsbereich #1 (3-Punkte-Likert-Skala)
Punktwert 1 2 3 Summe
Abs. Freq. 60 100 40 200
Rel. Freq. 0.3 0.5 0.2 1
Definitionsbereich #2 (5-Punkte-Likert-Skala)
Punktwert 1 2 3 4 5 Summe
Abs. Freq. 15 12 35 28 10 100
Rel. Freq. 0.2 0.2 0.2 0.2 0.2 1
Definitionsbereich #3 (7-Punkte-Likert-Skala)
Punktwert 1 2 3 4 5 6 7 Summe
Abs. Freq. 5 7.5 10 12.5 7.5 5 2.5 50
Rel. Freq. 0.1 0.15 0.2 0.25 0.15 0.1 0.05 1
  1. Für jedes Interview, i(1…n), wird der Abstand zwischen der beobachteten Häufigkeitsverteilung und der erwarteten Häufigkeitsverteilung durch Berechnung des normalisierten Residuums, , d.h. der Differenz zwischen der relativen Varianz der beobachteten Häufigkeitsverteilung, rvobs, und der relativen Varianz der erwarteten Häufigkeitsverteilung, rvexp, ermittelt. Für jeden Definitionsbereich, d(1…m), kann diese Berechnung in drei Teilschritte unterteilt werden:

    i. Berechne zunächst die relative Varianz rv (auch bekannt als Streuungsindex) der beobachteten relativen Häufigkeiten und der erwarteten relativen Häufigkeiten anhand der Formel:

    rv = \frac{variance}{mean}
    

    Für i1 ist also die beobachtete relative Varianz des Bereichs d1:

    rv_{obs(i=1, d=1)} = \frac{0.031}{0.333} = 0.093
    

    Und die erwartete relative Varianz des Bereichs d1 ist:

    rv_{exp(d=1)} = \frac{0.023}{0.333} = 0.07
    

    ii. Berechne dann das Residuum r, um ein Abstandsmaß zwischen der beobachteten und der tatsächlichen relativen Häufigkeitsverteilung für das Interview i und den Bereich d zu erhalten:

    r_{(i, d)} = rv_{obs(i, d)} - rv_{exp(d)}
    

    Folglich,

    r_{(i=1, d=1)} = 0.023
    

    iii. Schließlich wird das Residuum für einen bestimmten Definitionsbereich auf einen Wert zwischen [-1, +1] normalisiert, wobei [-1, 0) anzeigt, dass die beobachtete relative Häufigkeitsverteilung eine geringere Variation als erwartet aufweist, während ein positiver Wert (0, +1] eine größere Variation als erwartet anzeigt. Ein Wert von 0 bedeutet, dass die beobachtete relative Häufigkeitsverteilung mit der erwarteten Verteilung übereinstimmt. Die folgende Berechnung wird zur Normalisierung des Residuums verwendet:

    r̃_{(i=1, d=1)} = \begin{cases}
    	\frac{r_{(i, d)}}{rv_{exp(d)}}, \text{falls }r_{(i, d)} \lt 0 \\
    	\frac{r_{(i, d)}}{1 - rv_{exp(d)}}, \text{sonst}
    \end{cases}
    

    Folglich,

    r̃_{(i=1, d=1)} = \frac{0.023}{1 - 0.07} = 0.024
    

    d.h., die beobachtete relative Häufigkeitsverteilung der Antworten für den Bereich d1 des Interviews i1 has eine etwas höhere Varianz als erwartet.

  2. Für ein bestimmtes Interview i werden die Schritte 2 bis 4 für jeden Bereich d(1…n) wiederholt, um eine Reihe von normalisierten Residuen R zu erhalten, d.h. ein normalisiertes Residuum für jeden Definitionsbereich. Ein gewichteter Durchschnitt von R wird verwendet, um einen Divergenzwert, sdiv, für ein bestimmtes Interview, d.h. einen Erhebungsfall, zu ermitteln. Die angewendeten Gewichtungen sind die normalisierten Antwortzahlen für jeden Bereich, z.B. für das obige Beispiel wären die Bereichsgewichtungen wie folgt: d1 = 0.57, d2 = 0.29 und d3 = 0.14.

  3. Schließlich wird Schritt 5 für jedes Interview i(1…n) wiederholt, um eine Reihe von Divergenzwerten Sdiv zu erhalten, d.h. einen für jedes Interview.

Interviewer-Effect-Score

Der Interviewer-Effekt-Score liefert eine datengestützte Schätzung der Vertrauenswürdigkeit jedes Interviewers für eine bestimmte Umfrage. Derzeit kombiniert der Indikator zwei Faktoren: Der Grad der Abweichung der Umfrageantworten von der erwarteten Antwortverteilung und der Grad der Abweichung der Interviewdauer von der erwarteten Zeit für die Durchführung der Umfrage.

Um den Grad der Abweichung der Umfragebeantwortung für jeden Interviewer zu berechnen, führen Sie die folgenden Schritte durch:

  1. Berechne die Kontingenztabellen für alle Umfragebeantwortungsvariablen nach Interviewer-ID-Variable und führe einen Chi-Quadrat-Test durch

  2. Berechne für jede Kontingenztabelle die Chi-Quadrat-Residuen, d.h. die Differenz zwischen der tatsächlichen und der erwarteten Häufigkeitsverteilung der Interviewer-ID und der Antwortvariablen

  3. Lokalisiere Anomalien, indem Sie nach Ausreißer-Residuen suchen (Schwellenwert definiert in Haberman 1973)

  4. Addiere für jede Anomalie die absoluten Restwerte nach Interviewer-ID, um die Gesamtabweichung der Umfragebeantwortung für jeden Interviewer zu erhalten.

  5. Der Wert für die Abweichung der Umfragebeantwortung für jeden Interviewer sollte zwischen 0 und 1 normalisiert werden, damit er später mit anderen Werten kombiniert werden kann.

Um den Grad der Abweichung der Umfragedauer für jeden Interviewer zu berechnen, führen Sie die folgenden Schritte durch:

  1. Berechne für jedes Interview die durchschnittliche Befragungsdauer nach Interviewer-ID

  2. Berechne die globale durchschnittliche Befragungsdauer und setze dann alle Interviewer mit einer durchschnittlichen Befragungsdauer, die über dem globalen Durchschnitt liegt, auf null, um nur die Interviewer zu betrachten, die schneller als der Durchschnitt sind

  3. Die Punktzahl für die Abweichung der Befragungsdauer für jeden Interviewer sollte zwischen 0 und 1 normalisiert werden, damit sie später mit anderen Punktzahlen kombiniert werden kann

Schließlich wird der Interviewer-Effekt-Indikator für jeden Interviewer berechnet, indem der gleich gewichtete Durchschnitt der Umfragebeantwortungsabweichung und der Abweichung der Umfragedauer ermittelt wird.