Navigation und Service

PETRUS - Prozessunterstützende Software für die digitale Deutsche Nationalbibliothek

Ziel

Ziel des Projektes PETRUS (Prozessunterstützende Software für die digitale Deutsche Nationalbibliothek) war der Einstieg in die Nutzung maschineller Erschließungsverfahren. Die Deutsche Nationalbibliothek will ihre traditionellen Erschließungsleistungen dort reduzieren, wo sie in Anbetracht der kontinuierlich anwachsenden Publikationsmengen nicht mehr leistbar oder aufgrund technologischer Entwicklungen nicht mehr erforderlich sind. Softwaregestützte Erschließungsmethoden sollen dazu beitragen, die zunehmenden Erschließungsaufgaben besser zu bewältigen, Lücken und Brüche in den bibliografischen Nachweissystemen zu überwinden, die Erschließung der Medien weiter zu vertiefen und die Bearbeitungszeiten zu reduzieren.

Im PETRUS-Projekt wurden die Grundlagen für ein modular zusammengestelltes, softwaregestütztes Erschließungssystem geschaffen. Für vier ausgewählte Szenarien der formalen und inhaltlichen Erschließung von Netzpublikationen wurden maschinelle Erschließungsmodule entwickelt und implementiert. Softwarelösungen aus den Bereichen Daten- und Textanalyse, Computerlinguistik, maschinelles Lernen und Information Retrieval werden genutzt, um aus Titeldaten und maschinenlesbaren Texten (beispielsweise Volltexte oder digitalisierte Inhaltsverzeichnisse) neue Metadaten für die Suche und Verzeichnung zu generieren. Auch Arbeitsabläufe, Datenstrukturen und Qualitätsanforderungen wurden angepasst.

Seit März 2011 werden die Datensätze von parallelen Ausgaben einer Publikation automatisch miteinander verknüpft. Materialartunabhängige Informationen wie Inhaltserschließungsdaten und Normdatenverknüpfungen elektronischer und gedruckter Publikationen werden wechselseitig ausgetauscht.

Alle als Phrase aus Fremdaten in die Titeldaten übernommenen Personennamen werden seit Mitte 2011 automatisch mit den standardisierten Ansetzungen in der Gemeinsamen Normdatei verknüpft. Ist der Personenname bereits vorhanden, dann wird der Titeldatensatz direkt verknüpft; ansonsten wird zunächst automatisch ein neuer Normdatensatz angelegt.

Seit Januar 2012 werden die etwa hundert DDC-Sachgruppen für deutsch- und englischsprachige Monografien der Bibliografie-Reihe O maschinell vergeben. Die Modelle für die Klassifikation wurden zuvor über ein maschinelles Training mit intellektuell erschlossenen Publikationen erlernt.

Auch die Beschlagwortung deutschsprachiger Netzpublikationen mit dem kontrollierten Vokabular der Gemeinsamen Normdatei soll künftig maschinell durchgeführt werden. An diesem Verfahren für die verbale Erschließung wird zurzeit noch gearbeitet.

Die Deutsche Nationalbibliothek setzt diese Initiative auch über das Projektende hinaus fort. Schrittweise werden weiterhin neue Anwendungsszenarien entwickelt und weitere Medienarten in die automatischen Erschließungsprozesse mit einbezogen.

Projektdauer

2009 - 2011

Letzte Änderung: 19.3.2014

Diese Seite

Schriftbanner mit Deutscher Nationalbibliothek Leipzig, Frankfurt am Main