Vorbereitung

Die Wahlprogramme der Parteien CDU, SPD, Grüne, Linke und FDP wurden heruntergeladen und in reinen Text (ohne Bilder, Formatierungen etc.) abgespeichert. Diese Textdateien wurden anschließend linguistisch annotiert:

  • Die Texte wurden in einzelne Wörter und Satzzeichen aufgesplittet (Tokenisierung)
  • Die Wortarten wurden hinzugefügt (POS Tagging)
  • Die einzelnen Wörter wurden auf ihre Grundform zurückgeführt (ich gehe, du gehst, wir sind gegangen => gehen) (Lemmatisierung)

Die folgende Tabelle listet auf, wie sich die insgesamt 281540 Wörter auf die einzelnen Programme aufteilen. Es fällt auf, dass die Programme ungefähr die gleiche Größe aufweisen, lediglich das der Grünen ist doppelt so umfangreich wie die anderen. Um hier eine Normalisierung anzuwenden, wurden deswegen in den Analysen und Visualisierungen die absolute Anzahl der Wörter im Falle der Grünen durch 2 geteilt.

ParteiAnzahl WörterProzent
CDU465890.16547915038715635
FDP453830.1611955672373375
Linke467610.1660900760105136
SPD473750.16827093841017263
Gruene954320.33896426795481993

Im nächsten Schritt wurden alle Wörter, die in allen Parteiprogrammen vorkommen, extrahiert. Diese Wortliste, die der Schnittmenge entspricht, kann dann, zusammen oder nach Wortarten separiert, analysiert und visualisiert werden. Insgesamt kommen 2040 Wörter in allen Parteiprogrammen vor, davon sind 584 Substantive und Eigennamen.

Klicken Sie sich durch die Analysen und Visualisierungen!

Clustering »