From a47174439d4b5beaef60d091d869e385663034e5 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Tim=20K=C3=B6nig?= <32549063+TimBMK@users.noreply.github.com> Date: Thu, 14 Sep 2023 14:48:46 +0200 Subject: [PATCH] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 3778de3..08c7640 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ # EPINetz-Policy-Parser -Der hier vorliegende Code dokumentiert die Funktionsweise des Policy Parsers, wie er auf der [EPINetz-Plattform](https://app.epinetz.de/) zum Einsatz kommt. Er dient der vollautomatisierten Klassifizierung von Dokumenten wie Tweets in die 18 Politkfelder **Außenpolitik, Arbeit, Bildung & Forschung, Digitalisierung & Technik, Entwicklungspolitik, Europapolitik, Finanzen & Haushalt, Gesellschaftspolitik, Gesundheitspolitik, Haushalt & Finanzen, Innere Sicherheit, 'Kultur, Medien, Sport', Landwirtschaft & Ernährung, Sozialpolitik, Umweltpolitik, Verkehrspolitik, Verteidigungspolitik und Wirtschaftspolitik**. +Der hier vorliegende Code dokumentiert die Funktionsweise des Policy Parsers, wie er auf der [EPINetz-Plattform](https://app.epinetz.de/) zum Einsatz kommt und ist Teil des [EPINetz-Projekts](https://epinetz.de/). Er dient der vollautomatisierten Klassifizierung von Dokumenten wie Tweets in die 18 Politkfelder **Außenpolitik, Arbeit, Bildung & Forschung, Digitalisierung & Technik, Entwicklungspolitik, Europapolitik, Finanzen & Haushalt, Gesellschaftspolitik, Gesundheitspolitik, Haushalt & Finanzen, Innere Sicherheit, 'Kultur, Medien, Sport', Landwirtschaft & Ernährung, Sozialpolitik, Umweltpolitik, Verkehrspolitik, Verteidigungspolitik und Wirtschaftspolitik**. Dazu wird auf ein zweischrittiges Verfahren zurückgegriffen, bei dem für jedes Politikfeld zunächst eine Reihe an Seedtermen extrahiert wird, auf deren Grundlage mittels Random Walks weitere relevante Terme extrahiert werden. Auf Grundlage dieser erweiterten Termliste werden die Dokumente nach Relevanz und Vorkommen der Terme klassifiziert. Die Seedterme werden auf Grundlage der Tweets der sogenannten Seedaccounts gebildet, welche diese innerhalb eines Jahres verfasst haben. Die Seedaccounts sind für jedes Politikfeld spezifisch und setzen sich aus den Accounts der a) zuständigen Ministerien und b) Mitgliedern der Bundestagsausschüsse zu einzelnen Politikbereichen zusammen. Um die Seedterme zu bilden, werden mittels Chi^2-Werten für jeden Account bzw. jede Accountgruppe die relevantesten Terme extrahiert. Auf Grundlage dieser Seedterme werden dann für 3 Monate mittels Random Walks weitere, für das Politikfeld relevante Terme extrahiert, indem besonders stark mit den Seedtermen verbundene Terme identifiziert werden. Spezifisch werden für alle Seedterme eines Politikfelds Random Walks durchgeführt, für jeden Term der normalisierte Mittelwert über alle Random Walks eines Politikfelds berechnet und die Terme mit den höchsten Scores (die 90% Quantile) extrahiert. Die Grundlage für das Random Walk Verfahren bilden PMI-gewichtete Textnetzwerke (auch semantische Netzwerke genannt) aus Nounwords (Nomen und Eigennamen), deren Kanten die Wahrscheinlichkeit repräsentieren, dass zwei Terme in demselben Dokument vorkommen. Für die Klassifikation von Tweets bestehen diese Textnetzwerke aus den Tweets aller deutschen Politiker:innen aus der EPINetz-Datenbank. Mittels dieser erweiterten Termliste werden die Dokumente eines Zeitraums (idR. einer Woche) klassifiziert, indem die in einem die Politikfeldscores der Terme in einem Dokument aufaddiert werden.