Ein Satireprojekt! Keine Nachrichtenseite!
++ Entspannung auf dem US-Arbeitsmarkt ist in greifbarer Nähe ++
"Lockerungen an Weihnachten stehen zur Disposition"
&
"Aufschwung am US-Arbeitsmarkt gerät ins Stocken"
Generierte Schlagzeile twittern!Disclaimer
Alle generierten Schlagzeilen wurden maschinell erstellt. Die generierten Schlagzeilen wurden nicht geprüft und können despektierliche, pietätlose oder andere problematische Schlagzeilen beinhalten. Wir distanzieren uns deshalb vorsorglich von den Inhalten aller Schlagzeilen. Darüber hinaus können die zur Generierung verwendeten Schlagzeilen aufgrund der durchgeführten Datenbereinigung in wenigen Fällen minimal von den Originalschlagzeilen abweichen, sofern diese Satzzeichen beinhalteten (Beispiel: Inzidenz 86,1 wird zu Inzidenz 861).
Warum?
Die Coronapandemie ist eine schwierige Zeit, die einerseits von stetiger Veränderung und andererseits von gefühlten Wiederholungsschleifen in der Politik und damit auch in den Nachrichten geprägt ist. Seit März 2020 stellen Politiker:innen, Virolog:innen und viele weitere Personen, Institutionen und Gruppierungen fortlaufend Forderungen zur Eindämmung der Pandemie, der Unterstützung der Wirtschaft oder des Bildungssystems, oder bringen sich gegen eben jene Forderungen in Stellung. Bei soviel Durcheinander fällt es mitunter schwer, den Überblick zu behalten, wer heute eigentlich genau was fordert. Das macht die Nachrichtenlage gefühlt austauschbar: „Moment mal, wurde das nicht vor einem Monat schon gefordert, nur nicht von dieser Person? Oder war das sogar schon vor einem Jahr der Fall?“. Viele sind Corona-müde, und das liegt nicht zuletzt an dem Gefühl, dass sich vieles im Kreis dreht. Natürlich können wir das mit unserem Satireprojekt nicht ändern, genauso wenig wollen wir uns damit über die direkten und indirekten Folgen der Pandemie lustig machen. Wir möchten schlicht den Finger in die Wunde des gefühlt nicht enden wollenden Kreislaufes legen und trotz der ernsten Lage etwas schaffen, das Menschen in dieser schwierigen Zeit hoffentlich zum Lachen bringen kann.
Wie?
Die Ausgangsschlagzeilen entstammen der „Coronavirus“-Themenseite von Spiegel Online.
Am 8. April 2021 haben wir alle ~10.000 Schlagzeilen, die auf der Themenseite verfügbar waren, gesammelt und
in eine Textdatei überführt. Die älteste verfügbare Meldung stammte vom 11. März 2020, womit im Wesentlichen der gesamte
Pandemiezeitraum von der ersten bis in die dritte Infektionswelle abgedeckt ist. Die Schlagzeilen wurden anschließend
um Satzzeichen bereinigt, um die Struktur der Schlagzeilen in einem nächsten Schritt besser identifizieren zu können.
Die Identifikation der grammatikalischen Struktur der Schlagzeilen wurde mit einem Dependency-Parser (bereits trainiertes
Machine-Learning Modell) durchgeführt. Dieser Schritt führte zur Identifikation von etwa 1.000 einzigartigen
Schlagzeilen-Strukturen. Im nächsten Schritt wurde 100.000-mal zufällig und automatisiert ein Nomen einer Schlagzeile durch
ein Nomen einer anderen Schlagzeile mit identischer Struktur ersetzt. Da eine identische grammatikalische Struktur
allerdings nicht immer sicherstellt, dass der Kasus des eingefügten Worts in den Satz passt, wurden diese Schlagzeilen noch einmal
ins Englische und dann wieder zurück ins Deutsche übersetzt. Nach anschließender Bereinigung um Duplikate und zufällige Reproduktionen
der jeweiligen Originalschlagzeilen sind etwa 13.000 neu generierte Schlagzeilen erhalten geblieben.
Aus ~10.000 Originalschlagzeilen von Spiegel Online wurden so ~13.000 neue Schlagzeilen,
die dort wahrscheinlich in den allermeisten Fällen so nie erschienen sind.
Wer?
@m_buermann (Idee, Website mit mySQL & Bootstrap, Unterstützung bei Analyse/Aufbereitung)
@doriantsolak (Schlagzeilensammlung mit Rvest,
Dependency-Parsing mit spaCy &
Datenmanagament und Sampling mit Julia)
Inspiriert durch sprichtwortrekombinator.de
(der Maßnahmengenerator ist auch super, uns aber erst aufgefallen, nachdem die Idee geboren war).
Uns ist bewusst, dass die technische Umsetzung noch sehr viel weiter optimiert werden könnte. Am Ende des Tages handelt es sich aber um ein privates Nebenprojekt. Für Diskussion über smartere Herangehensweisen sind wir offen, gehen aber davon aus, dass wir keine Zeit für weitere technische Umsetzungen haben werden.