怎么用Python和Tesseract識別圖片文字

發布時間：2021-11-24 17:57:33 來源：億速云閱讀：222 作者：小新欄目：大數據

這篇文章給大家分享的是有關怎么用Python和Tesseract識別圖片文字的內容。小編覺得挺實用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

安裝

Linux 和 Mac 平臺的安裝非常簡單，直接命令行安裝即可，默認只有英文語言包，漢語包需要額外指定

sudo apt-get install tesseract-ocr  # ubuntu

brew install tesseract  # macOS

Windows 平臺需要二進制安裝包，官方下載地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows，安裝時需要選擇中文語言包才是識別漢字

怎么用Python和Tesseract識別圖片文字

配置

安裝完成后，需要設置兩個環境變量 $PATH 和 $TESSDATA_PREFIX，如果不指定后面會報錯，把 tessertact 的安裝路徑加入 PATH 變量中，TESSDATA_PREFIX 變量的值指定為語言包的路徑

怎么用Python和Tesseract識別圖片文字

實戰

Python-tesseract 是 tessertact 的 Python 封裝包，它需要依賴圖片處理庫 PIL（Pillow），環境搭建完成后就可以開始做定制化開發了。

以下我以杜甫的《登高》作為 demo 從中提取出其中的文字

怎么用Python和Tesseract識別圖片文字

# pip install pytesseract 先安裝依賴包
try:
    import Image
except ImportError:
    from PIL import Image
import pytesseract
# lang 指定中文簡體
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)

輸出結果：

風急天高猿哨哀 , 渚清沙白鳥飛回。無邊落木蕭蕭下 , 不盡長江滾滾來。萬里悲秋常作客 , 百年多病獨登臺。艱難苦恨繁霜鬢 , 漫倒新停濁酒杯。

感謝各位的閱讀！關于“怎么用Python和Tesseract識別圖片文字”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，讓大家可以學到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么用Python和Tesseract識別圖片文字

安裝

配置

實戰

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么用Python和Tesseract識別圖片文字

安裝

配置

實戰

猜你喜歡

最新資訊

相關推薦

相關標簽