Korrespondenzanalyse

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Die Korrespondenzanalyse, auch einfache Korrespondenzanalyse, abgekürzt CA (correspondence analysis) ist ein Verfahren der multivariaten Statistik, mit dem die Beziehungen der Variablen einer Kontingenztafel graphisch repräsentiert werden. Die Spalten- und Reihenprofile einer Matrix werden dabei durch Punkte in einem Raum repräsentiert, dessen Koordinatenachsen durch die jeweiligen Merkmale gebildet werden. Sie wird auch als Hauptkomponentenanalyse mit kategorialen Daten bezeichnet.

Bei der Kanonischen Korrespondenzanalyse (CCA) handelt es sich um eine Erweiterung der CA durch Ter Braak. Dabei sind die abgeleiteten Ordinationsachsen Linearkombinationen der Umweltvariablen, welches über ein multiples lineares Regressionsmodell erzeugt wird.[1]

Idee der Korrespondenzanalyse[Bearbeiten | Quelltext bearbeiten]

Die Idee der Korrespondenzanalyse ist es, die Struktur von Kreuztabellen (auch Kontingenztabellen oder Kontingenztafeln genannt) für zwei oder mehr kategorialen Variablen zu visualisieren und zu verstehen. Die Korrespondenzanalyse zielt darauf ab, diese Tabellen auf eine Weise zu analysieren, die Muster oder Beziehungen zwischen den kategorialen Variablen offenbart.

Konkret versucht die Korrespondenzanalyse, die Beziehungen zwischen den Zeilen und Spalten der Kreuztabelle in einem niedrigdimensionalen Raum darzustellen, normalerweise einem zweidimensionalen Raum. Sie tut dies, indem sie die Kreuztabelle in eine Art Koordinatensystem überführt, in dem die Zeilen und Spalten in Beziehung zueinander stehen. Dies geschieht durch die Berechnung von Eigenwerten und Eigenvektoren der Kreuzproduktmatrix der Daten. Die Eigenwerte und Eigenvektoren geben an, wie viel Variation in den Daten durch die verschiedenen Dimensionen repräsentiert wird.

Die Ergebnisse der Korrespondenzanalyse können in Form von Biplot-Diagrammen dargestellt werden, die die Beziehung zwischen den Zeilen und Spalten der Kontingenztabelle in einem zweidimensionalen Raum zeigen.

Die Idee ist es, die Struktur der Daten auf einfache Weise zu erklären, damit Muster oder Assoziationen zwischen den kategorialen Variablen sichtbar werden. Auf diese Weise können komplexe Datenstrukturen verständlich gemacht und interpretiert werden. Die Korrespondenzanalyse ist besonders nützlich, um zu verstehen, wie verschiedene Kategorien miteinander verbunden sind und welche Muster in den Daten vorliegen.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Klasse Mathe Deutsch Englisch Kunst Summe
5 20 15 10 5 50
6 25 20 8 7 60
7 18 22 12 6 58
8 12 18 15 10 55
Summe 75 75 45 28 223

In einer Schule wurden Daten zu den Lieblingsfächern und der Klassenstufe erhoben und mit Hilfe der Korrespondenzanalyse der nebenstehende Biplot erzeugt.

1. Position der Klassenstufen: Die verschiedenen Klassenstufen (5, 6, 7, 8) werden als Punkte im Biplot dargestellt. Die Position der Punkte zeigt, wie ähnlich oder unterschiedlich sich die Klassenstufen in Bezug auf ihre Lieblingsfächer verhalten. Wenn zwei Klassenstufen nahe beieinander liegen, bedeutet dies, dass ihre Lieblingsfächer ähnliche Muster aufweisen.

Klasse 5 und Klasse 6 haben also ähnliche Lieblingsfächer.

2. Position der Lieblingsfächer: Ebenso werden die verschiedenen Lieblingsfächer (Mathe, Deutsch, Englisch, Kunst) als Punkte (Dreiecke) im Biplot dargestellt. Die Position der Punkte zeigt, wie stark bestimmte Fächer mit bestimmten Klassenstufen verbunden sind. Wenn die Pfeile, die von einer Klassenstufe zu einem bestimmten Fach zeigen, lang sind, deutet dies darauf hin, dass dieses Fach von dieser Klassenstufe bevorzugt wird.

Klasse 5 und 6 sind also stark verbunden mit Mathematik, während in Klasse 7 Deutsch bevorzugt wird und in Klasse 8 Kunst und Englisch.

3. Richtung und Länge der Pfeile: Die Richtung und Länge der Pfeile von den Klassenstufen und Lieblingsfächern zum Ursprungspunkt (0,0) zeigt, wie stark sie zur Variation der Daten beitragen. Lange Pfeile zeigen eine hohe Beitrag zur Variation, während kurze Pfeile eine geringere Beitrag anzeigen.

Die Fächer Mathe, Kunst und Englisch sowie die Klassenstufe 8 liefern einen großen Beitrag zur Variation.

Durch die Analyse des Biplots kann man Muster erkennen, wie z. B. ob bestimmte Klassenstufen dazu neigen, bestimmte Fächer zu bevorzugen, oder ob es Unterschiede zwischen den Klassenstufen in Bezug auf ihre Lieblingsfächer gibt.

Anwendungsgebiete[Bearbeiten | Quelltext bearbeiten]

Die Korrespondenzanalyse wurde in der Empirischen Sozialforschung maßgeblich durch Pierre Bourdieus Studie „Die feinen Unterschiede“ populär gemacht. Auch in der Marktforschung ist die Korrespondenzanalyse verbreitet. In der Archäologie kann sie zur Ordnung von Tabellen dienen, die die Fundkombination von Typen in geschlossenen Funden erfassen. Nach einer solchen Ordnung – auch Seriation genannt – weisen die Typen und Fundkomplexe häufig eine zeitliche Abfolge auf.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Ilona Leyer, Karsten Wesche: Multivariate Statistik in der Ökologie: Eine Einführung. 1., Aufl. 2007. Korr. Nachdruck. Springer, Berlin, 2009, ISBN 3-540-37705-0, S. 91.

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]