How-To:Linux 使用 Tesseract 做 OCR 圖文辨識
操作環境:
- Fedora 34
- Tesseract v4.1.3
在如今這個年代,利用 OCR(Optical Character Recognition)技術來辨識圖像上的文字,已經算是一項隨手可得的功能,並不必然得依賴特定的軟體就能夠實現。比方說其實線上的 Google 文件,就有提供 OCR 的能力。不過倘若希望以開放原始碼的工具來達成,則 Tesseract 這款 OCR 引擎應該是時至目前為止,維護最為積極也相對成熟的一項專案。
Tesseract 做圖文辨識有一定的成效,然而若是想要認真地對掃描文件進行辨識,那麼就 DR 自己的使用經驗來說,使用諸如 ABBYY FineReader 這類的商業軟體可能會是比較可靠的。