UneDose | Jak działa obraz-na-tekst (inaczej optyczne rozpoznawanie znaków)

Lesley Fowler
0
1599
133

Reklama

Wyciąganie tekstu z obrazów nigdy nie było łatwiejsze niż obecnie dzięki technologii optycznego rozpoznawania znaków (OCR).

OCR pozwala nam robić wszelkiego rodzaju użyteczne rzeczy, takie jak wyszukiwanie obrazów za pomocą zapytań tekstowych, odtwarzanie dokumentów bez wpisywania ich ręcznie, a nawet konwertowanie tekstu odręcznego na tekst cyfrowy Jak przekonwertować obraz z pisma odręcznego na tekst za pomocą OCR Jak przekonwertować obraz z pismem odręcznym do tekstu za pomocą OCR Aby przekonwertować obraz pisma odręcznego na tekst cyfrowy, który można edytować i wyszukiwać, potrzebne jest narzędzie OCR (optyczne rozpoznawanie znaków). Wypróbuj jedno z tych narzędzi OCR, aby zdigitalizować pismo ręczne. .

Ale czym jest optyczne rozpoznawanie znaków? Jak to faktycznie działa? Może ci się to wydawać czarną magią, ale pod koniec tego artykułu dobrze zrozumiesz, w jaki sposób komputery mogą rozpoznawać litery i słowa.

Jak działa optyczne rozpoznawanie znaków

Aby zrozumieć, w jaki sposób tekst jest pobierany z obrazu, najpierw musimy zrozumieć, czym są obrazy i jak są przechowywane na komputerach.

ZA piksel jest pojedynczą kropką określonego koloru. Na obraz jest zasadniczo zbiorem pikseli. Im więcej pikseli na obrazie, tym wyższa jest jego rozdzielczość. Komputer nie wie, że obraz drogowskazu jest naprawdę drogowskazem - po prostu wie, że pierwszy piksel ma ten kolor, następny piksel jest tym kolorem i wyświetla wszystkie jego piksele, abyś mógł je zobaczyć.

Oznacza to, że tekst i tekst nie różnią się od komputera i dlatego optyczne rozpoznawanie znaków jest tak trudne. Mając to na uwadze, oto jak to działa.

Krok 1: Wstępne przetwarzanie obrazu

Zanim tekst będzie można wyciągnąć, obraz należy w pewien sposób masować, aby ułatwić ekstrakcję i zwiększyć prawdopodobieństwo sukcesu. Nazywa się to przetwarzaniem wstępnym, a różne rozwiązania programowe wykorzystują różne kombinacje technik.

Najbardziej popularne techniki obróbki wstępnej obejmują:

Binaryzacja
Każdy piksel obrazu jest konwertowany na czarny lub biały. Celem jest wyjaśnienie, które piksele należą do tekstu, a które do tła, co przyspiesza faktyczny proces OCR.

Deskew
Ponieważ dokumenty są rzadko skanowane z doskonałym wyrównaniem, znaki mogą być pochylone lub nawet odwrócone do góry nogami. Celem jest tutaj zidentyfikowanie poziomych linii tekstu, a następnie obrócenie obrazu, tak aby linie te były faktycznie poziome.

Zniszczyć
Niezależnie od tego, czy obraz został poddany binaryzacji, czy nie, mogą występować szumy, które mogą zakłócać identyfikację znaków. Despeckling pozbywa się tego szumu i próbuje wygładzić obraz.

Usuwanie linii
Identyfikuje wszystkie wiersze i oznaczenia, które prawdopodobnie nie są znakami, a następnie usuwa je, aby rzeczywisty proces rozpoznawania OCR nie był pomylony. Jest to szczególnie ważne podczas skanowania dokumentów za pomocą tabel i pudeł.

Podział na strefy
Dzieli obraz na odrębne fragmenty tekstu, takie jak identyfikacja kolumn w dokumentach wielokolumnowych.

Źródło zdjęcia: WayneRay / Wikimedia

Krok 2: Przetwarzanie obrazu

Po pierwsze, proces OCR próbuje ustalić linię bazową dla każdego wiersza tekstu na obrazie (lub jeśli został podzielony na strefy podczas wstępnego przetwarzania, będzie działał przez każdą strefę pojedynczo). Każda zidentyfikowana linia znaków jest obsługiwana jeden po drugim.

Dla każdej linii znaków oprogramowanie OCR identyfikuje odstępy między znakami, szukając pionowych linii pikseli nietekstowych (co powinno być oczywiste przy odpowiedniej binaryzacji). Każdy fragment pikseli między tymi nietekstowymi liniami jest oznaczony jako “znak” który reprezentuje jedną postać. Dlatego ten etap nazywa się tokenizacja.

Po tokenizacji wszystkich potencjalnych znaków na obrazie oprogramowanie OCR może użyć dwóch różnych technik w celu zidentyfikowania znaków, którymi są te tokeny:

Rozpoznawanie wzorców
Każdy token jest porównywany piksel po pikselu z całym zestawem znanych glifów - w tym liczb, interpunkcji i innych specjalnych symboli - i wybierane jest najbliższe dopasowanie. Ta technika jest również znana jako dopasowanie macierzy.

Jest tu kilka wad. Po pierwsze, tokeny i glify muszą mieć podobny rozmiar, inaczej żaden z nich nie będzie pasował. Po drugie, tokeny muszą mieć podobną czcionkę jak glify, co wyklucza pismo ręczne. Ale jeśli znana jest czcionka tokena, rozpoznawanie wzorów może być szybkie i dokładne.

Ekstrakcja funkcji
Każdy token jest porównywany z różnymi zasadami opisującymi, jaki to może być charakter. Na przykład dwie pionowe linie o równej wysokości połączone pojedynczą linią poziomą prawdopodobnie będą dużą literą H..

Ta technika jest przydatna, ponieważ nie ogranicza się do niektórych czcionek lub rozmiarów. Można go także bardziej precyzyjnie rozpoznać w subtelnych różnicach między wielką literą I, małą literą L i liczbą 1. Wadą? Programowanie reguł jest znacznie bardziej złożone niż zwykłe porównywanie pikseli w tokenie z pikselami w glifie.

Krok 3: Przetwarzanie obrazu

Po zakończeniu dopasowywania wszystkich tokenów oprogramowanie OCR może po prostu zadzwonić do niego i przedstawić wyniki. Ale zwykle trzeba zrobić trochę więcej krówek, aby upewnić się, że nie przewracasz oczami na bełkotliwe wyniki.

Ograniczenia leksykalne
Wszystkie słowa są porównywane z leksykonem zatwierdzonych słów, a te, które nie pasują, są zastępowane słowem najbardziej pasującym. Słownik jest jednym z przykładów leksykonu. Może to pomóc w poprawieniu słów zawierających błędne znaki, np “cierń” zamiast “th0rn”.

Optymalizacje specyficzne dla aplikacji
Gdy OCR jest używany w ustawieniach niszowych, takich jak dokumenty medyczne lub prawne, można zastosować specjalny rodzaj OCR, który jest specjalnie zaprojektowany dla tego ustawienia. W takich przypadkach oprogramowanie OCR może szukać równań matematycznych, terminów branżowych itp.

Język naturalny
Ta zaawansowana technika koryguje zdania za pomocą modelu językowego, który opisuje, jak prawdopodobne są pewne słowa po innych słowach. Jest podobny do technologii, która przewiduje, jakie słowo chcesz wpisać na klawiaturze mobilnej.

Po wykonaniu tej czynności tekst może być wyjątkowo czytelny.

Zalecane narzędzia do optycznego rozpoznawania znaków

Teraz, gdy wiesz, jak działa OCR, powinno być łatwo zauważyć, że nie wszystkie narzędzia OCR są sobie równe. Dokładność wyników zależy w dużym stopniu od tego, jak dobrze oprogramowanie wdraża różne techniki OCR omówione w tym artykule.

Zdecydowanie zalecamy do tego OneNote, który jest tylko jednym z powodów, dla których bije Evernote do robienia notatek Evernote vs. OneNote: Która aplikacja do robienia notatek jest dla Ciebie odpowiednia? Evernote vs. OneNote: Która aplikacja do robienia notatek jest dla Ciebie odpowiednia? Evernote i OneNote to niesamowite aplikacje do robienia notatek. Trudno wybrać między nimi. Porównaliśmy wszystko, od interfejsu po organizację notatek, aby pomóc Ci wybrać. Co najlepiej Ci odpowiada? . Jeśli chcesz zapłacić za rozwiązanie premium, rozważ OmniPage. Zobacz nasze porównanie OneNote vs. OmniPage dla OCR Free vs. Płatne oprogramowanie OCR: Microsoft OneNote i Nuance OmniPage w porównaniu Free vs. Płatne oprogramowanie OCR: Microsoft OneNote i Nuance OmniPage w porównaniu Oprogramowanie skanera OCR pozwala konwertować tekst z obrazów lub plików PDF na tekst edytowalny dokumenty Czy darmowe narzędzie OCR, takie jak OneNote, jest wystarczająco dobre? Dowiedzmy Się! . W przypadku dokumentów mobilnych warto wypróbować te aplikacje OCR na urządzenia z systemem Android 6 Najlepsze aplikacje Android OCR do wyodrębniania tekstu z obrazów 6 Najlepsze aplikacje Android OCR do wyodrębniania tekstu z obrazów Czy chcesz zdigitalizować dowolny wydrukowany tekst, aby zachować miękka kopia tego? Jeśli tak, wystarczy narzędzie do optycznego rozpoznawania znaków (OCR). .

Jak korzystać z OCR? Czy masz jakieś ulubione narzędzia OCR, o których nie wspominaliśmy? Daj nam znać w komentarzach poniżej!