Dirk Scholz von der Bayerischen Staatsbibliothek referierte über Buch-Volltexte der BSB im Internet. Als Beispiele für Volltextangebote nannte er dMGH, Digi20, Leibniz Publik, Ostdok und Bavarica-Volltexte, welche sich sowohl in ihrer äußerlichen Erscheinungsweise als auch in ihren Funktionalitäten ähneln.
Er stellte im Folgenden den standardisierten Workflow von der Digitalisierung über die OCR-Erfassung (beide gesteuert durch die ZEND, die Zentrale Erfassungs- und Nachweisdatenbank) bis zur Webbereitstellung dar, um einen Einblick zu gewähren, wie diese Standardfunktionalitäten zustande kommen.
Zentral für die Digitalisierung sei der Grundsatz “Kein Digitalisat ohne Katalogisat”. Für die OCR-Verarbeitung werde im Regelfall mit 400 dpi und Graustufen gescannt. Die OCR-Erfassung erfolge – sofern nicht über Dienstleister oder im Rahmen der Kooperation mit Google – über den ABBYY Recognition Server, da dieser bei internen Tests die besten und am einfachsten weiterzuverarbeitenden Ergebnisse geliefert habe. Für die OCR-Erfassung liefen bis zu drei Workflows parallel, von denen zwei die Möglichkeit der Nachkorrektur von Ergebnissen über die sogenannten ‘Korrekturstationen’ ermöglichten. Diese würden aber auf Grund des Arbeitsaufwands und technischer Schwierigkeiten bisher nur bei Ostdok eingesetzt.
Grundlage für die Webbereitstellung seien die Bilddateien, die Volltexte inklusive Koordinaten auf Buchstabenebene und Strukturdaten. Als Format werde TEI-konformes xml verwendet. Über GATE erfolge eine automatische Extraktion von Orts- und Personennamen, die zur facettierten Suche bereitstünden.
Zu Bedenken sei auch, dass dieser Workflow auf den Massendurchfluss ausgerichtet sei, und daher soweit wie möglich ohne manuelles Eingreifen zu funktionieren habe.
Dirk Scholz of the Bavarian State Library talked about the presentation of full texts in its different projects. He gave a thorough overview of the workflow, which is tailored for mass processing of millions of pages.
VD; Mark-Oliver Fischer