python實現ocr識別:pytesseract
python常用pytesseract進行圖片上的文字識別,即ocr識別,完整的代碼比較簡單,只要下面一行即可,但是實際使用時環境配置上容易出錯。
1
2
3
4
5
|
from pil import image import pytesseract text = pytesseract.image_to_string(image. open ( '/users/alice/documents/develop/pythoncode/textinphoto.png' )) print (text) |
因此使用前,需要先安裝pillow和pytesseract依賴包。
然而運行時仍然報錯,raise tesseractnotfounderror()
pytesseract.pytesseract.tesseractnotfounderror: tesseract is not installed or it's not in your path
原因是因為未安裝tesseract,然后使用pip3 install tesseract之后仍然提示錯誤,如圖:
1
2
3
4
|
alicedembp:~ alice$ pip3 install tesseract requirement already satisfied: tesseract in / library / frameworks / python.framework / versions / 3.7 / lib / python3. 7 / site - packages ( 0.1 . 3 ) alicedembp:~ alice$ tesseract - bash: tesseract: command not found |
無法使用,往上找了很多教程,說是要使用brew安裝,于是得以解決,步驟為:
- 先安裝brew
1
|
alicedembp:~ alice$ ruby - e "$(curl -fssl https://raw.githubusercontent.com/homebrew/install/master/install)" |
- 再使用brew安裝leptonica
1
|
alicedembp:~ alice$ brew install leptonica |
- 使用brew安裝tesseract
1
|
alicedembp:~ alice$ brew install tesseract |
- 安裝成功,通過命令行tesseract -v的方式查看是否成功,出現版本號則為安裝成功
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
alicedembp:~ alice$ tesseract usage: tesseract - - help | - - help - extra | - - version tesseract - - list - langs tesseract imagename outputbase [options...] [configfile...] ocr options: - l lang[ + lang] specify language(s) used for ocr. note: these options must occur before any configfile. single options: - - help show this help message. - - help - extra show extra help for advanced users. - - version show version information. - - list - langs list available languages for tesseract engine. alicedembp:~ alice$ tesseract - v tesseract 4.0 . 0 leptonica - 1.78 . 0 libgif 5.1 . 4 : libjpeg 9c : libpng 1.6 . 36 : libtiff 4.0 . 10 : zlib 1.2 . 11 : libwebp 1.0 . 2 : libopenjp2 2.3 . 1 found avx2 found avx found sse |
接下來就可以直接使用了,使用如下代碼:
1
|
alicedembp:~ alice$ tesseract / users / alice / documents / develop / pythoncode / textinphoto.png / users / alice / documents / develop / pythoncode / output.txt |
打開textinphoto.png的圖片,將文字輸出到output.txt,圖片如下
運行成功,產生output.txt文檔,里面的文本為圖片中識別出的文字。
到此這篇關于python實現ocr識別之pytesseract案例詳解的文章就介紹到這了,更多相關python ocr識別之pytesseract內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!
原文鏈接:https://blog.csdn.net/alice_tl/article/details/89299405