Deutscher Bundestag: Redebeiträge der 17. Wahlperiode (2009-2013) durchsuchbar

Project Updates
Timeline of electoral periods and photos of politicians speaking in parliament

Quasi als Nebenprodukt unserer Vorbereitungen zur Integration neuer Parlamente konnten wir über 20.000 weitere Redebeiträge zugänglich machen. Damit sind jetzt 17 Jahre Bundestagsdebatten (über 100.000 Redebeiträge) auf Open Parliament TV Wort für Wort durchsuchbar.

Wir suchen seit längerem nach Wegen, auch ältere Debatten zugänglich zu machen, für welche der Bundestag momentan keine maschinenlesbaren Protokolle zur Verfügung stellt (diese existieren erst seit der 18. Wahlperiode, vorher existieren nur PDF Dateien). Denn auch wenn die Videoaufzeichnungen seit 2009 (17. Wahlperiode) auf der Bundestag-Mediathek verfügbar sind, fehlt uns ohne Protokoll die texliche Grundlage, die Redebeiträge durchsuchbar zu machen.

PolMine Projekt: Protokolle im ParlaMint Format

Seit wenigen Monaten gibt es nun aber nicht nur maschinenlesbare, sondern auch in einem international standardisierten Format veröffentlichte Plenarprotokolle des Bundestages seit 1949. Im PolMine Projekt wird schon seit vielen Jahren unter dem Namen GermaParl ein umfassender Korpus an Plenarprotokollen gepflegt und weiter entwickelt. Diese Protokolle gibt es jetzt – explizit als Beta Version – im ParlaMint XML Format: https://github.com/PolMine/ParlaMint-DE_beta.

Das ParlaMint Format wurde entwickelt, um Parlaments-Protokolle aus unterschiedlichen Ländern interoperabel zu machen (siehe ParlaMint: Comparable and Interoperable Parliamentary Corpora). Da wir uns im Rahmen unserer Arbeit an der Integration neuer Parlamente sowieso intensiv mit dem ParlaMint Format beschäftigen, haben wir spontan mit den Daten experimentiert und festgestellt, dass wir diese sehr gut in unsere Arbeitsabläufe integrieren können.

So wie der Ursprungs-Datensatz sind natürlich auch unsere daraus gewonnen Daten erstmal als „beta“ zu verstehen. Aber wir sind nach vielen Tests, Korrekturen in der Verarbeitung und mehren Audits der Redebeiträge mithilfe einer automatisierten Spracherkennung (Whisper) sehr zuversichtlich dass die Daten gut genug für eine Integration in die Plattform sind.

Danke an das PolMine Projekt für die ständige Arbeit und Weiterentwicklung am GermaParl Korpus, und natürlich an die Bundestags-Mediathek, in der alle Redebeiträge seit 2009 abrufbar sind. In der Mediathek werden auch schrittweise die historischen Debatten veröffentlicht (bereits online: 1.-5. Wahlperiode, 1949-1969): https://www.bundestag.de/mediathek/plenarsitzungen. Auch diese Debatten haben wir natürlich im Blick ;).

Aber jetzt erstmal viel Spaß beim Suchen in 17 Jahren Bundestagsdebatten:

https://de.openparliament.tv