Anonim

Jednou z vecí, ktorá ma často frustrovala, je nemožnosť ľahko kopírovať text z obrázkov a určitých súborov PDF (napr. Tých, ktoré mohli byť vytvorené zo skenovaných dokumentov). Našťastie sa v priebehu času vyvinuli softvérové ​​riešenia na riešenie tohto problému, čo umožňuje značné časové úspory, ktoré by sa inak strávili manuálnym kopírovaním a prepisovaním textu. V dnešnom tipe sa chystám hovoriť o bezplatnom softvérovom nástroji s názvom Capture2Text, ktorý používa algoritmus OCR (Optical Character Recognition), ktorý vám umožní zachytiť text z obrazových a PDF súborov.

Inštalácia a nastavenie

Najprv prejdite na stránku SourceForge projektu a stiahnite si najnovšiu verziu programu Capture2Text. Tento softvér je dodávaný ako archív ZIP a v tom čase neobsahuje špecializovaný inštalátor. Po stiahnutí rozbaľte archív a spustite súbor Capture2Text.exe. Spustí sa softvér a do systémovej lišty sa umiestni ikona:

Najprv budete chcieť nastaviť preferencie softvéru, konkrétne klávesové skratky (alebo klávesové skratky), ktoré sa majú použiť na spustenie a zastavenie snímania:

V mojom prípade som sa rozhodol začať používať klávesy „Windows + q“ a pomocou klávesu „Enter“ ich zastaviť. Tieto možnosti môžete upraviť podľa toho, čo vám najviac vyhovuje. Majte na pamäti, že kláves „Windows + s“ sa často používa na snímanie obrazovky (napr. Programami ako Microsoft One Note).

Na ďalšej karte je možné nakonfigurovať možnosti OCR vrátane vstupného jazyka (v súčasnosti je podporovaných sedem jazykov) a možnosti použitia predbežného spracovania OCR na zvýšenie presnosti (vysoko odporúčané). Nakoniec na karte Výstup je okrem iných možností možné vybrať, či sa má zachytený text uložiť iba do schránky alebo či sa má spustiť samostatné vyskakovacie okno.

Používanie softvéru

Po nainštalovaní a nakonfigurovaní softvéru môžete začať používať kombináciu klávesových skratiek start capture. Pomocou myši vyberte oblasť na obrázku, ktorá obsahuje text, ktorý chcete zachytiť. Ak chcete zastaviť snímanie, stačí stlačiť klávesovú skratku, ktorú ste sa rozhodli zastaviť. Text sa potom skopíruje do schránky, výstupného vyskakovacieho okna alebo do oboch. Príklad je uvedený nižšie.

Z môjho rýchleho testovania nástroja pomocou obrázkov som zistil, že jeho presnosť je slušná. Je zrejmé, že existujú také obmedzenia nástrojov, ako sú tieto a OCR všeobecne. Napríklad silne upravený text (veľmi kurzíva, kurzíva alebo moderný text) nemusí fungovať tak dobre, niekedy dokonca vôbec. V niektorých prípadoch to tiež pomôže mierne upraviť rozmery snímacieho políčka alebo hrať so zväčšením samotného obrázka, aby sa dosiahol presnejší výsledok.

Pri zachytávaní textu zo skenovaných dokumentov PDF je presnosť v poriadku, s niekoľkými konečnými úpravami, ktoré sú spravidla stále potrebné na zachytenom výstupe (v závislosti od kvality počiatočného skenovania). Tiež som si všimol, že spracovanie softvéru môže trvať niekoľko sekúnd dlhšie, najmä pri výzve na prevod veľkého množstva textu.

Ako už bolo povedané, celkovo si myslím, že tento nástroj odvádza dobrú prácu, najmä preto, že je voľne k dispozícii - odporúčam vám ho vyskúšať.

Dodatok 11/16/2015:

Ďalšou možnosťou pre tých, ktorí majú účty Google, je tiež možné využiť možnosti OCR spoločnosti Google odovzdaním súboru na disk Google (ďalšie podrobnosti nájdete tu). Okrem toho je pre používateľov prehliadača Google Chrome k dispozícii doplnok OCR s názvom Copyfish, ktorý by ste si mohli tiež vyskúšať.

Ako zachytiť text z obrázkov pomocou softvéru OCR