Videos endlich online!

Es hat dann doch etwas länger gedauert, aber jetzt sind alle Vorträge unserer Doppel-Veranstaltung „Historische Dokumente auf dem Weg zum digitalen Volltext“ (11. – 12. Oktober 2011) und in die entsprechenden Blog-Artikel eingebunden.

Wie gehabt finden sich alle Informationen zum zweiten Tag, den „Erfahrungen aus der Digitalisierungspraxis“, hier auf dem mdzblog, während Sie sich alles Wissenswerte zum ersten Tag, dem „IMPACT Demo Day“ auf dem Blog des IMPACT-Projektes zu Gemüte führen können.

Viel Vergnügen beim Ansehen!

—————————————————————-

It took us a bit longer than expected, but all videos of our dual event „Turning Historical Documents into Digital Full Texts“ (11 – 12 October 2011) are now online and embedded into the relevant blog posts.

For the second day, you’ll find them here on the mdzblog. For the first day, please visit the blog of the IMPACT project.

Have fun watching!

 

Mark-Oliver Fischer

Impressionen und überarbeitete Artikel

Diese Diashow benötigt JavaScript.

Eine Woche nach unserer sehr erfolgreichen Veranstaltung unter dem Namen „Historische Dokumente auf dem Weg zum digitalen Volltext“ haben wir uns alle Artikel noch mal angesehen und, wo nötig, überarbeitet, um sprachliche und inhaltliche Schwächen zu beseitigen. Wenn man einen Vortrag live mitschreibt, klingt Manches doch mal holpriger, als man gerne hätte. Außerdem wurden inzwischen die Präsentationen zu allen Vorträgen eingebunden. Einige Leser des Blogs warten sicher auch sehr gespannt auf die Videos der Vorträge. Leider muss ich Sie diesbezüglich noch vertrösten, da ich mich vermutlich erst im November wieder darum kümmern kann, dann aber mit Hochdruck. Versprochen!

Ein Dank geht an unsere Praktikantinnen RM und VD, ohne die es hier nur wenig zu sehen gäbe, da sie sich am Veranstaltungstag fleißig um die Blogartikel und Videomitschnitte gekümmert haben.

                                                                            

One week after our very successful event „Turning Historical Documents into Digital Full Texts“, we had a look at all articles and reworded them were necessary, to weed out factual, grammatical and spelling errors. Turns out blogging live just isn’t that easy. The presentations slides were added to all talks, the videos of all the talks will take a a little while longer, as I don’t have the time to work on them yet. But in early November, there should be nothing keeping me away from them any longer.

I would also like to thank our interns RM and VD, without whom there wouldn’t be a lot to see here, as they filmed and blogged tirelessly on the day of the event.

 

Mark-Oliver Fischer (BSB)

Veranstaltungsende

Mit dem zweiten Veranstaltungstag mit dem Titel „Erfahrungen aus der Digitalisierungspraxis: OCR, Volltexte und Präsentationsformen“ endet nun der OCR-Workshop unter dem Motto „Historische Dokumente auf dem Weg zum digitalen Volltext“.

Das Münchener Digitalisierungszentrum bedankt sich recht herzlich bei den Referenten und Sponsoren, die den fachlichen Austausch im Rahmen dieser Veranstaltung erst möglich gemacht haben!

Wir sind bemüht, Videos und Präsentationsfolien möglichst bald zur Verfügung zu stellen.
________________________

Hereby the second part and therefore the OCR workshop in Munich ended. Many thanks to the lecturers and sponsors who enabled the exchange of information.

 

RM

Anforderungen an die Präsentation barrierefreier, digitaler Bibliotheksangebote


Matthias Leopold von der Deutschen Zentralbücherei für Blinde zu Leipzig sprach über die Anforderungen an die Präsentation barrierefreier, digitaler Bibliotheksangebote.

Er erläuterte anfänglich, was unter Barrierefreiheit zu verstehen ist und gab einen Überblick über die rechtlichen Rahmenbedingungen der Arbeit der DZB (§ 45a UrhG). Sie produziere beispielsweise Braille-Bücher, Musikalien, navigierbare Hörbücher und Großdrucke. Der Hauptanteil der Literatur stamme bisher aus dem belletristischen Genre, es werde aber vermehrt an der Bereitstellung von Sach- und Fachbüchern gearbeitet.

OCR-Fehler wirkten sich bei der Umwandlung in Brailleschrift sehr viel stärker und sinnentstellender aus als bei ’normaler‘ Schrift, zusätzlich stelle die Linearisierung, also die Wiedergabe der Leserichtung ein großes Problem dar.

Bibliotheken sollten bedenken, dass für blinde und sehbehinderte Menschen der Zugang zu medialen Inhalten als Studien- und Arbeitsmittel von genauso hoher Bedeutung sei wie für gut Sehende. Daher sollten sie digitalisierte Inhalte möglichst hoch strukturiert und damit auch für diese Zielgruppen navigierbar angeboten werden.

Darüber hinaus führe die Beachtung von Konzepten der Barrierefreiheit nicht nur zum Abbau von Barrieren für Behinderte, allgemein lasse sich auf diese Weise eine benutzerfreundlichere Mediennutzung erreichen.

                                                                     

Matthias Leopold of the German Central Library for the Blind talked about the invaluable service his institution provides for sight-impaired people, by creating braille or audio versions of fiction and non-fiction books. He talked about the concept of accessibility, what libraries can do to follow it and how this can lead to better services for all users, impaired or not.

 

VD; Mark-Oliver Fischer

Präsentation von Zeitungs-Volltexten im Internet


Christa Müller von der Österreichischen Nationalbibliothek präsentierte ANNO – AustriaN Newspapers Online. Auf dem seit Mai 2003 bestehenden Portal stünden ca. 190 historische österreichische Zeitungs- und Zeitschriftentitel frei und kostenlos für interessierte Leser zur Verfügung. Weitere Titel und Jahrgänge würden regelmäßig dazu kommen.

Da von Zeitungen als „Verbrauchsgut“ oft nur wenige Exemplare erhalten seien, arbeite die Österreichische Nationalbibliothek mit Kooperationspartnern zusammen, um eigene Lücken zu schließen und den Bestand so digital komplettieren zu können.

Es werde vom Papiermaterial gescannt, da dies – wie in Tests vorab festgestellt worden sei – eine bessere OCR-Qualität ermögliche. Schwierigkeiten für die OCR lägen in der ungleichmäßigen Verteilung der Druckerschwärze auf einem dünnen Papier, dem großen Format und der Einteilung in Spalten, der kleinen Schrift und dem Vorkommen vieler Eigennamen.

Diese Probleme beeinflussten auch die Qualität der Suchergebnisse. Eine Lösung hierfür könnten beispielsweise besondere Formen der Filterung sein (z.B. die Suche mit einem Ersatzzeichen für den ersten Großbuchstaben bei Wörtern in Frakturschrift, der oft nicht von der OCR erkannt werde). Für einige Zeitschriften existiere auch bereits eine Erschließung der Inhaltsverzeichnisse als HTML-verlinkter Text (durchsuchbar nach AutorIn, Artikeltitel, Jahr und Ort). Insgesamt sei bei der Frage nach der Durchsuchbarkeit OCR-erkannter Texte aber noch viel zu tun.

                                      

Christa Müller of the Austrian National Library presented ANNO – AustriaN Newspapers Online, which provides free access to 190 historical Austrian newspapers and magazines. Her focus was on the problem of getting accurate search results from a faulty OCRed full text.

 

VD; Mark-Oliver Fischer

Buch-Volltexte der BSB im Internet


Dirk Scholz von der Bayerischen Staatsbibliothek referierte über Buch-Volltexte der BSB im Internet. Als Beispiele für Volltextangebote nannte er dMGH, Digi20, Leibniz Publik, Ostdok und Bavarica-Volltexte, welche sich sowohl in ihrer äußerlichen Erscheinungsweise als auch in ihren Funktionalitäten ähneln.

Er stellte im Folgenden den standardisierten Workflow von der Digitalisierung über die OCR-Erfassung (beide gesteuert durch die ZEND, die Zentrale Erfassungs- und Nachweisdatenbank) bis zur Webbereitstellung dar, um einen Einblick zu gewähren, wie diese Standardfunktionalitäten zustande kommen.

Zentral für die Digitalisierung sei der Grundsatz „Kein Digitalisat ohne Katalogisat“. Für die OCR-Verarbeitung werde im Regelfall mit 400 dpi und Graustufen gescannt. Die OCR-Erfassung erfolge – sofern nicht über Dienstleister oder im Rahmen der Kooperation mit Google – über den ABBYY Recognition Server, da dieser bei internen Tests die besten und am einfachsten weiterzuverarbeitenden Ergebnisse geliefert habe. Für die OCR-Erfassung liefen bis zu drei Workflows parallel, von denen zwei die Möglichkeit der Nachkorrektur von Ergebnissen über die sogenannten ‚Korrekturstationen‘ ermöglichten. Diese würden aber auf Grund des Arbeitsaufwands und technischer Schwierigkeiten bisher nur bei Ostdok eingesetzt.

Grundlage für die Webbereitstellung seien die Bilddateien, die Volltexte inklusive Koordinaten auf Buchstabenebene und Strukturdaten. Als Format werde TEI-konformes xml verwendet. Über GATE erfolge eine automatische Extraktion von Orts- und Personennamen, die zur facettierten Suche bereitstünden.

Zu Bedenken sei auch, dass dieser Workflow auf den Massendurchfluss ausgerichtet sei, und daher soweit wie möglich ohne manuelles Eingreifen zu funktionieren habe.

                                                 

Dirk Scholz of the Bavarian State Library talked about the presentation of full texts in its different projects. He gave a thorough overview of the workflow, which is tailored for mass processing of millions of pages.

 

VD; Mark-Oliver Fischer

Erfahrungsbericht: Kollaborative Korrektur


Constanze Hofmann von Distributed Proofreaders berichtete über die kollaborative Produktion elektronischer Bücher.

Distributed Proofreaders unterstütze seit 2000 das bereits 1971 gegründete Project Gutenberg ehrenamtlich dabei, gemeinfreie Bücher jedermann kostenfrei und in verschiedenen elektronischen Formaten zugänglich zu machen. Project Gutenberg habe mehr als 35.000 Bücher im Programm, von denen Distributed Proofreaders aktiv an über 21.000 Titeln mitgewirkt habe.

Mehr als 1000 Freiwillige arbeiteten wöchentlich an den digitalen Büchern. Der aktuell etablierte Workflow sehe vor, dass die eingescannten und OCR-erfassten Digitalisate insgesamt dreimal Korrektur gelesen werden. Die Formatierung der Texte erfolge davon unabhängig, in zwei Durchläufen, bevor die einzelnen Abschnitte zusammengefügt und eventuelle Illustrationen eingefügt werden.

Die Bearbeiter könnten sich ihre Rollen dabei nach ihren Interessen aussuchen, wobei einige Funktionen erst nach einer gewissen Zeit der Mitarbeit freigeschaltet werden würden. Um Neueinsteigern den Einstieg zu erleichtern, stünden spezielle Mentoren bereit, und auch  die Organisation des Projekts als Ganzes werde ausschließlich von Freiwilligen übernommen.

                                                                         

Constanze Hofmann of Distributed Proofreaders talked about the collaborative production of eBooks. Founded in 2000 to aid Project Gutenberg in the creation of electronic versions of books in the public domain, the volunteers behind DP are now responsible for most of the titles released over Project Gutenberg.

 

VD; Mark-Oliver Fischer