亚洲乱色熟女一区二区三区麻豆,永久黄网站色视频免费,亚洲欧美日韩一区二区,亚洲综合色噜噜狠狠网站超清,中文字幕乱码一区二区三区免费

首頁(yè) > win軟件 > 圖形圖像 > 圖像處理 > Tesseract ocr
Tesseract ocr

Tesseract ocr

官方版 v3.0.2
大小

41.94MB

語(yǔ)言

簡(jiǎn)體

系統(tǒng)

WinAll

類別

圖像處理

下載

128

更新

2025-03-06

要不點(diǎn)點(diǎn)贊?

28

軟件介紹

Tesseract ocr官方版是一款功能全面的圖像識(shí)別軟件。Tesseract ocr最新版界面友好,簡(jiǎn)單易用,可以讀取各種格式的圖像并將它們轉(zhuǎn)換成超過(guò)60種語(yǔ)言的文本。Tesseract ocr軟件可以幫助用戶制作擁有驗(yàn)證碼識(shí)別、身份證識(shí)別、圖像轉(zhuǎn)文字等功能的軟件。

軟件特色

      去持多語(yǔ)言

      當(dāng)前3.02 版本支持包括英文,簡(jiǎn)體中文,繁體中文,支持Windows,Linux,Mac OSX 多平臺(tái)。使用中Tesseract 的識(shí)別率非常高。

      Tesseract安裝

      這里使用的版本為Tesseract3.02。直接點(diǎn)擊上面的鏈接,下載windows下的安裝文件tesseract-ocr-setup-3.02.02.exe。安裝tesseract-ocr-setup-3.02.02.exe。安裝成功后會(huì)在相應(yīng)磁盤上生成一個(gè)Tesseract-OCR目錄。如圖我是安裝到了如下位置安裝完成打開命令行,輸入tesseract,展現(xiàn)如下圖說(shuō)明已經(jīng)安裝成功。

軟件功能

      命令行測(cè)試使用

      接下來(lái)就可以使用tesseract進(jìn)行圖片識(shí)別了。準(zhǔn)備一副待識(shí)別的圖像,這里用畫圖工具隨便寫了一段字,然后定義成1.jpg,在命令行中定位到圖片路徑然后輸入命令:tesseract 1.jpg result -l eng,其中result表示輸出結(jié)果文件txt名稱,eng表示用以識(shí)別的語(yǔ)言文件為英文。會(huì)發(fā)現(xiàn)圖片當(dāng)前目錄下生成了1個(gè)result.txt文件里面結(jié)果為

      增加中文語(yǔ)言庫(kù)

      安裝目錄下的tessdata目錄存放的是語(yǔ)言識(shí)別包,如果想增加中文識(shí)別功能,可以將中文的語(yǔ)言庫(kù)放到此目錄下,下載后將解壓出的chi_sim.traineddata放到此目錄下。然后調(diào)用的時(shí)候指明語(yǔ)言庫(kù)即可,例如:tesseract xxx.jpg result -l chi_sim照樣。

      執(zhí)行后結(jié)果

      可以看到,識(shí)別率并不是十分令人滿意。而且這邊使用的例子都是十分正規(guī)的字體。如果遇到驗(yàn)證碼那種不規(guī)則的字體,識(shí)別率也會(huì)大打折扣的,當(dāng)然可以參考網(wǎng)上的相關(guān)資料進(jìn)行對(duì)Tesseract字符識(shí)別進(jìn)行樣本訓(xùn)練,通過(guò)使用訓(xùn)練后的語(yǔ)言庫(kù)會(huì)提高識(shí)別精度。這里就不做演示了。

使用方法

      那如何使用java程序調(diào)用相應(yīng)的tesseract進(jìn)行操作呢?

      這里介紹2種方式

      一種是使用cmd方式,另外一種就是使用tess4j。tess4j的源碼地址 http://sourceforge.jp/projects/sfnet_tess4j/ 中文首頁(yè)

      感興趣的自己下載查看源代碼。

      由于范例代碼較多就不一一貼出來(lái)了,會(huì)在文章結(jié)尾提供一個(gè)下載鏈接,大概講下結(jié)構(gòu),

      如上圖,tess4j包下是使用tess4j調(diào)用tesseract,src下的dll文件是需要使用到的。同時(shí),加載的語(yǔ)言庫(kù)文件也要放到tessdata目錄下。而cmd 包下是使用cmd方式調(diào)用的范例,額外需要swingx-1.6.1.jar,調(diào)用時(shí)直接配置使用的安裝的路徑,并配置語(yǔ)言庫(kù)即可。

      代碼下載地址,由于附帶了data文件,jar包等,所以會(huì)比較大,接近50M。導(dǎo)入到工程即可。各個(gè)包下都有測(cè)試的Test類,直接右鍵就可以運(yùn)行。前提是對(duì)應(yīng)目錄下有相應(yīng)圖片。

      在cmd包下ClearImageHelper這個(gè)類是對(duì)圖片進(jìn)行處理的類,比如灰度轉(zhuǎn)換,二值化,縮放等等,對(duì)于復(fù)雜圖片可以先進(jìn)行處理,來(lái)提高圖片識(shí)別率。而tess4j下也封裝了圖片處理的工具類,基本都包含這些功能,例子中也給出了部分樣例。

      Bty,話說(shuō)使用原生態(tài)識(shí)別調(diào)用,跟tess4j得到的結(jié)果還是有所差別的。

小編寄語(yǔ)

Tesseract ocr是一款非常實(shí)用的圖像處理軟件,深受用戶喜愛,廣受好評(píng)。飛速下載站還提供其他圖像處理軟件下載,如UltraISO軟碟通,Quixel Suite,Renderbus,有需要的同學(xué)快點(diǎn)擊下載吧!

軟件介紹 軟件特色 軟件功能 使用方法 小編寄語(yǔ)