Navigation und Service

Evaluation eines NERD-Verfahrens

Personen und Organisationen, Orte und Ereignisse – so genannte Entitäten – spielen eine wichtige Rolle bei der Suche nach Dokumenten und der Bewertung der Relevanz von Dokumenten. In den letzten Jahren wurden technische Verfahren entwickelt, die Erwähnungen solcher Entitäten in Texten automatisch auffinden und beschreibenden Datensätzen zuordnen können. Durch die so generierten Informationen können bessere Möglichkeiten für die Recherche in Textdokumenten geschaffen werden. Die dabei eingesetzten Verfahren werden als „Named Entity Recognition and Disambiguation“-Verfahren (kurz „NERD“-Verfahren) bezeichnet. Die AIDA-Software des Max-Planck-Instituts für Informatik in Saarbrücken realisiert ein solches NERD-Verfahren.

In dem Projekt Evaluation eines NERD-Verfahrens wurden die Potenziale des Einsatzes eines solchen Verfahrens für die Recherche in der Nationalbibliografie evaluiert. Im ersten Schritt wurden dazu Volltexte aus dem Bestand der Deutschen Nationalbibliothek mit der AIDA-Software des MPI verarbeitet. Im zweiten Schritt wurden Prototypen entwickelt, die die gewonnenen Entitätsinformationen nutzen. Abschließend wurde eine Bewertung des Verfahrens durchgeführt.

Schritt 1: Einführung des NERD-Verfahrens

Die Erkennung und Disambiguierung von Volltexten aus dem Bestand der Deutschen Nationalbibliothek stellt eine besondere Herausforderung dar, da es sich um inhaltlich sehr heterogene und teilweise sehr umfangreiche Texte handelt. Im Rahmen des Projektes wurden daher Anpassungen und Erweiterungen der AIDA-Software vorgenommen. Neben diesen technischen Aspekten wurden außerdem die sehr umfangreichen Entitätsinformationen, die bereits in der Gemeinsamen Normdatei (GND) vorliegen, in das NERD-Verfahren integriert.

Schritt 2: Nutzung von Entitätsinformationen

Ein Kernaspekt des Projekts „Evaluation eines NERD-Verfahrens“ war die Exploration von Anwendungsmöglichkeiten für Entitätsinformationen in der Recherche, um auf dieser Basis die Qualität des Verfahrens zu beurteilen. Im Projekt wurden zwei Softwareprototypen realisiert: Der erste Prototyp ermöglichte es, beim Betrachten eines digitalen Dokuments Informationen zu den Entitäten auf der angezeigten Textseite abzurufen. Im zweiten Prototyp wurden Entitätsinformationen als Grundlage für den Aufbau einer Suchmaschine verwendet, die eine entitätenbasierte Recherche erlaubte.

Projektpartner

Max-Planck-Institut für Informatik

Projektdauer

April 2013 bis Mai 2014

Letzte Änderung: 18.09.2014

Kurz-URL: http://www.dnb.de/nerd

Diese Seite

Schriftbanner mit Deutscher Nationalbibliothek Leipzig, Frankfurt am Main