国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - 基于Python實現對PDF文件的OCR識別

基于Python實現對PDF文件的OCR識別

2020-09-03 10:29LuCima Python

大家可能聽說過使用Python進行OCR識別操作。在Python中,最出名的庫便是Google所資助的tesseract。利用tesseract可以很輕松地對圖像進行識別。現在問題來了,如果想對一個PDF文檔進行OCR識別,該怎么做呢?下面一起來看看。

最近在做一個項目的時候,需要將PDF文件作為輸入,從中輸出文本,然后將文本存入數據庫中。為此,我找尋了很久的解決方案,最終才確定使用tesseract。所以不要浪費時間了,我們開始吧。

1.安裝tesseract

在不同的系統中安裝tesseract非常容易。為了簡便,我們以Ubuntu為例。

Ubuntu中你僅僅需要運行以下命令:

基于Python實現對PDF文件的OCR識別

這將會安裝支持3種不同語言的tesseract

2.安裝PyOCR

現在我們還需要安裝tesseract的Python接口。幸運的是,有許多出色的Python接口。

我們采用最新的一個:

基于Python實現對PDF文件的OCR識別

3.安裝Wand和PIL

在我們開始之前,還需要另外安裝兩個依賴包。一個是Wand。它是Imagemagick的Python接口。

我們需要使用它來將PDF文件轉換成圖像:

基于Python實現對PDF文件的OCR識別

我們也需要PIL因為PyOCR需要使用它。你可以查看官方文檔以確定如何將PIL安裝到你的操作系統中。

4.熱身

讓我們開始我們的腳本吧。首先,我們需要導入一些重要的庫:

基于Python實現對PDF文件的OCR識別

注意:我將從PIL導入的Image模塊改名為PI了,因為如果不這樣做的話,它將和wand.image模塊發生重名沖突。

5.開始

現在我們需要獲得OCR庫(在本例中,即tesseract)的句柄以及我們在PyOCR中將使用的語言:

基于Python實現對PDF文件的OCR識別

我們使用tool.get_available_languages里的第二種語言,因為之前我曾嘗試過,第二種語言就是英語。

接著,我們需要建立兩個列表,用于存儲我們的圖像和最終的文本。

基于Python實現對PDF文件的OCR識別

下一步,我們需要采用wand將一個PDF文件轉成jpeg文件。讓我們試一試吧!

基于Python實現對PDF文件的OCR識別

注意:PDF_FILE_NAME替換成當前路徑下的一個可用的PDF文件名。

wand已經將PDF中所有的獨立頁面都轉成了獨立的二進制圖像對象。我們可以遍歷這個大對象,并把它們加入到req_image序列中去。

基于Python實現對PDF文件的OCR識別

現在,我們僅僅需要在圖像對象上運行OCR即可,非常簡單:

基于Python實現對PDF文件的OCR識別

現在,所有識別出的文本已經加到了final_text序列中了。你可以任意地使用它。以上就是利用Python對PDF文件做OCR識別的全部內容,希望這個教程能夠幫助到你們!

英文原文:https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/

譯者:LuCima

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 中文字幕亚洲综合 | 成人精品电影 | 视频一区二区国产 | 国产精品一区二区久久 | 国产v日产∨综合v精品视频 | 日韩av网页 | 国产成人免费高清激情视频 | 中文字幕日韩欧美一区二区三区 | 久久九| 久久亚洲国产精品 | 国产在线日韩 | 久久久国产精品久久久 | 国产一区二区三区免费播放 | 国产精品 日韩 | 久久久久亚洲精品 | 欧美亚洲三级 | 不卡一区二区三区视频 | 成年人免费网站 | 日韩在线视频播放 | 韩日av片| 久久久天堂国产精品女人 | 精品伦精品一区二区三区视频 | 日韩在线网 | 精品国产乱码久久久久久丨区2区 | 精品在线观看一区 | 久久精品国产久精国产 | 欧美一级淫片007 | 亚洲成av人片在线观看 | 日韩精品一区二区三区视频播放 | 1000部精品久久久久久久久 | 欧美伦理电影一区二区 | 中文久久| 午夜黄色影院 | 美女88av| 欧美精品一区二区三区四区五区 | 亚洲综合在线视频 | 日韩国产精品一区二区三区 | 日韩欧美不卡 | 亚洲高清色综合 | 国产亚洲欧美一区 | 国产黄色av |