Wie kann man Buchscans restaurieren?

Hier kann wirklich alles besprochen werden.

Moderator: Moderatoren

Antworten
Glaskocher
Illumina-Mitglied
Beiträge: 1042
Registriert: Dienstag 27. Oktober 2015, 22:17
Wohnort: Leverkusen

Wie kann man Buchscans restaurieren?

Beitrag von Glaskocher »

Hallo Freunde der gescannten Literatur!

Ich habe im Moment das Problem, daß ich das Inhaltsverzeichnis eines alten Buches (Rheinboldt: Chemische Unterrichtsversuche) digitalisieren will. Bei der 6. Auflage (relativ druckfrisch, 1979 herausgegeben, lizensierter Nachdruck durch Amazon) klappte das sehr gut, bis auf wenige wiederkehrende "Erkennungslücken" bei der OCR-Texterkennung. Jetzt will ich die Erstauflage behandeln, die seit 1933 viel "Gilb" angesammelt hat. Der Rohscan ist etwas verschwommener, obwohl mit dem selben Gerät erstellt. In der OCR-Bearbeitung bekomme ich über 50% Fehler und Buchstabensalat.

Gibt es eine Möglichkeit, die als .pdf abgelegten Scans per "Massenverarbeitung" so zu restaurieren, daß die Texterkennung über 90% sinnvollen Text ausgibt? Ich hoffe, daß ich den "Papierton" irgendwie zurückdrängen kann und eventuell die Kantenschärge am Buchdtaben etwas "nachschärfen" kann. Allerdings weiß ich nicht, ob das mit dem Adobe 9.5 oder dem Windows-Picturemanager machbar ist.


Die Notlösung währe, den gesamten Text vom Inhaltsverzeichnis abzutippen, was mit der "Einfingersuchmethode" etwas mühsam würde. Zumal ich noch die Auflagen 3 und 4 mit einbeziehen möchte, da es mindestens zwei Überarbeitungen und Erweiterungen oder Neusortierungen gab.

Dr. Death
Illumina-Mitglied
Beiträge: 18
Registriert: Sonntag 1. Januar 2017, 20:57

Beitrag von Dr. Death »

Hallo Glaskocher,

mit diesem Problem hatte ich auch schon zu kämpfen und mit folgendem Rezept gute Ergebnisse erzielt:
Der Scan muss zunächst im Kontrast verbessert werden, das ist eine simple Photoshop-Funktion. Er sollte auch als tif-Datei vorliegen, weil jpg-Dateien gerade an den Kanten kleine Strukturen wie den Buchstaben nicht so genau sind. Wenn das nicht hilft, konvertieren in schwarzweiß (8 Bit) und nochmal den Kontrast verstärken oder in 1 Bit (schwarz/weiß) umwandeln.

Ein gutes OCR-Programm kommt aber auch mit vergilbtem Hintergrund gut klar. Möglicherweise liegt es an veralteter Software. Es gibt auhc Webseiten wo man online OCRen kann:
u.v.a. https://www.onlineocr.net/de/

Grüße vom
Dr. Death

Antworten