OCR/pl

From Gramps
Jump to: navigation, search


Podczas poszukiwań swojego drzewa rodzinnego, wielokrotnie będziesz korzystał z książek czy dokumentów państwowych lub innych. Możesz zaoszczędzić sobie długiego i nużącego przepisywania tych tekstów do GRAMPSa jeśli skorzystasz z możliwości, jakie daje optyczne rozpoznawanie obrazów (Wikipedia: OCR).

Poniżej znajdziesz kilka wskazówek, jak postępować z obrazami lub jak skanować dokumenty, aby później skonwertować je na tekst.

Jak to działa?

  • Obrazy muszą posiadać duży kontrast (czarny tekst, białe tło oraz dobrą rozdzielczość).
  • Program OCR skanuje obraz i używa biblioteki glifów aby wykryć konkretne znaki. Te, które są rozpoznane, są następnie transformowane w odpowiadający im znak/tekst.
  • Słowniki są wykorzystywane w celu minimalizacji błędów. Każde zeskanowane słowo jest porównywane do tych obecnych w słowniku w celu określenia, czy faktycznie ono istnieje i w celu minimalizacji błędów.
  • Niektóre programy rozpoznają także formatowanie, np pogrubienie, kursywę czy inny rozmiar czcionki.

Użycie OCR wraz z GRAMPSem

Nie ma niestety wiele programów OCR na licencji open-source do rozpoznawania tekstu, i większość z nich używa tego samego silnika. Dla Intelligent Word Recognition (IWR) lub Intelligent Character Recognition (ICR), używany dla pisanych certyfikatów, są jeszcze rzadsze.

Możesz używać niektórych z tych programów równolegle z GRAMPSem. Dla narzędzi typu backend, tylko programy dla linii poleceń są dostępne (użyj -h aby zobaczyć ich opcje), ale na szczęście powstało również kilka wersji GUI:

  • Tesseract może być dobrym rozwiązaniem dla anglojęzycznych użytkowników, ale aktualnie rozpoznaje tylko znaki US-ASCII ...
  • GOCR/JOCR jest używany przez xsane oraz kooka. Można też generować własne bazy znaków z obrazu za pomocą polecenia:
mkdir ./db
gocr -p ./db/ -m 130 -m 256 certificate.pnm
Skutkować to będzie wyświetleniem pytania o każdy nowo rozpoznany znak jaką wartość posiada (a,b,c...), i będzie generować nowy indeks (db.list) + oraz portable-bitmap (pbm) dla Twoich liter.. Każdy wpis w db.list oznacza jeden plik .pbm i jest połączony do podanej przez ciebie wartości (a, b, c ...)
Ten sposób nie jest jednakże bardzo skutecznym dla tekstu pisanego.
  • With Ocrad, wymaga użycia formatu pgm dla pliku.
  • Osoby używające KDE mogą prawdopodobnie znać Kooka, standardowe narzędzie skanujące KDE z wbudowaną funkcją OCR (używającą GOCR, Ocrad, które są na licencji OSS, albo komercyjnego KADMOS).
  • Również, Conjecture jest narzędziem OCR, które oba rdzenie programów OCR o licencji open-source.
  • Gamera Project jest natomiast bardzo obiecująco wyglądającym narzędziem napisanym w pythonie ...

Przykłady i informacje pokrewne

Wydaje się, że najłatwiejszym sposobem będzie użycie kooka albo xsane (np zeskanowanie obrazu i użycie OCR) albo import istniejącego już obrazu do programu kooka i wtedy wykonanie OCR.

Przegląd darmowych programów rozpoznawania tekstu (OCR) dla Linuksa.

Robot skanuje starożytny manuskrypt w 3-D. Również, (w 2007r), grupa studentów i absolwentów z Grecji podjęła studia na Center for Hellenic Studies w Waszyngtonie, D.C., aby stworzyć transkrypcję XML tego tekstu. Ewentualnie, ich praca będzie dostępna dla każdego pod adresem na licencji Creative Commons.

Jak zrobić pełny automatyczny skaner książek przy pomocy klocków LEGO ...

Personal tools