03. Juni 2022 - Service Center Digital Humanities (SCDH) Uni Münster
Schwierigkeit: Einfach Methoden: NER und POS-Tagging
- Lesen Sie die Datei
biographien.txtein. - Trennen Sie an den Zeichen
---den Text in einzelne Dokumente. Jedes Dokument soll gesondert behandelt werden. - Extrahieren Sie aus dem Text Name UND Geburtsort der SchülerInnen.
- Nutzen Sie NER, um die Personen zu identifizieren.
- Extrahieren Sie das Alter der Person.
- Da die Informationen satzweise klar getrennt sind, können Sie Satz für Satz vorgehen.
- Versuchen Sie die Hobbies über POS-Tagging zu ermitteln. Schauen Sie sich die Text an und überlegen Sie, welche Wortart hier Sinn macht.
- Tipp: Mit dem Model
de_core_news_mdbekommen Sie bessere NER-Ergebnisse.
Sie können folgende Keyword-Liste für die Hobbies verwenden:
hobby_keywords = ['Hobbies','Hobby','beschäftige','gerne','spiele','Freizeit','mag']
Schwierigkeit: Schwer Methoden: Dependency Parser, Rule Based Matching
- Lesen Sie Datei
sitzungsprotokolle.txtein. - Trennen Sie an dem Wort
Beschlussden Text in einzelne Dokumente. Jedes Dokument soll gesondert behandelt werden. - Extrahieren Sie die wichtigen Informationen aus jeweiligen Abschnitt. Worüber wurde a) diskutiert, was wurde b) entschieden und was wurde c) vertagt?
- Für diese drei Fälle können Sie die unten angegebene Liste an Keywörtern verwenden.
- Nutzen Sie Rule Based Matching, um die Lemmata der Wörter ausfindig zu machen, z.B. "diskutieren".
- Versuchen Sie dann an weitere Informationen zu gelangen. Dazu können Sie das Dependency Parsing nutzen. Überlegen Sie, welche
dep_-Tags sinnvoll sind, wenn Sie bspw. bereits das Verb eines Satzes bereits ermittelt haben.
Keyword-Liste:
decision_noun_list = ['Entscheidung','Abstimmung','Wahl','Urteil','Votum']
discussion_noun_list = ['Diskussion','Debatte','Gespräch','Eröterung']
decision_verb_list = ['entscheiden','abstimmen','billigen','unterstützen','erlassen','erlässt','erteilen','erteilt']
discussion_verb_list = ['diskutieren','debattieren','beraten','untersuchen']
postponed_verb_list = ['vertagt','aufgeschoben','stunden','verlängern','aufschieben']