一、什么是OCR
很早之前就聽說有提取圖片中文字的工具和方法,這種文字識別技術(shù)稱為OCR(Optical Character Recognition)。OCR技術(shù)的出現(xiàn),實現(xiàn)了將印刷文字掃描得到的圖片轉(zhuǎn)化為文本文字的功能,提供了一種全新的文字輸入手段,大大提高了用戶工作的效率。
二、OCR適合對象
1.印刷行業(yè)、文印店:經(jīng)常會遇到客戶只給你一本厚厚的宣傳冊(因為客戶不知道電子稿保存的重要意義,甚至壓根就不知道什么是電子稿),要你明天之前,必須把那本幾十頁宣傳冊上的文字,原原本本打出來。生意還是要做,沒有辦法,你只能再當一回為了打字而打字的工具了,除非你使用OCR;
2.辦公室工作人員:老板某天拿了一張寫滿字的傳單給你,要求你馬上打成Word文檔,對于打字慢或是懶得打的你,為了完成工作任務(wù),OCR就很適合你了;
3.其他對象:工作中、網(wǎng)絡(luò)中、現(xiàn)實生活中,OCR對很多人都是有用的,能幫你輕松提高效率。
三、準確選擇OCR軟件
正常購買掃描儀的時候,配套軟件就會附有OCR功能,在網(wǎng)絡(luò)上搜索,也會有一系列的OCR軟件可以下載,如:
1.清華紫光OCR V7.5 簡介:清華紫光 OCR支持Windows環(huán)境下的GB、BIG5、JIS和Shif。
2.ABBYY FineReader OCR Professional 7.0.0.963 簡介:一款OCR軟件。為用戶提供了現(xiàn)代OCR赤銅的全部功能,給予它們對信息管理的完全控制。
3.掃描小精靈 V1.30 Build 2003.03.21 簡介:針對OCR的圖像增強、虛擬TWAIN、批量掃描。
4.Mini Ocr 漢字顯示字體識別軟件 1.0 簡介:本軟件是飛濤軟件工作室開發(fā)的一款免費Ocr軟件,主要用于識別圖像文件之中出現(xiàn)的漢字。
5.Mini Ocr 漢字顯示字體識別軟件 V1.0 簡介:本軟件是飛濤軟件工作室開發(fā)的一款免費Ocr軟件。
6.奧普印刷體文字識別OCR系統(tǒng) 專業(yè)版
筆者從事互聯(lián)網(wǎng)行業(yè)也有三四年了,很早前就知道有OCR(文字識別技術(shù)),也曾花了好幾天的時間研究了不下十種的OCR軟件(包含以上6種),結(jié)果不是軟件安裝失敗,就是提取文字的識別率太低。過了好久,筆者下載了"尚書六號",才發(fā)現(xiàn)它就是多年來一直尋找的OCR軟件,并親眼見證了OCR的成果,識別率達到90%以上。欣喜之余,寫了這篇"圖片文字提取(OCR)圖解教程",首刊在私房博客(http://www.fz10000.com)上,為所有在尋找OCR或想體驗OCR成果的人提供參考,歡迎各網(wǎng)站轉(zhuǎn)載。
"尚書六號"下載地址:http://www.csdx.org/soft/shangsu6.zip
四、圖片文字提取(OCR)圖解范例
1.從掃描儀導(dǎo)入圖片或截圖生成
[圖1] 截圖后,打開Photoshop,新建文件,分辨率設(shè):300像素/英寸
[圖2] 粘貼后,保存為.jpg格式
[圖3] 保存后的.jpg圖片
圖1、圖2、圖3是假設(shè)在瀏覽網(wǎng)頁時,遇到含有文字的圖片,利用騰訊TT截圖功能,在Photoshop粘貼生成.jpg文件;當然,也可以使用鍵盤上的PrintScan鍵截圖后,打開附件里的畫圖,進行粘貼生成.jpg文件。
2."尚書六號"的界面
3.導(dǎo)入需要提取的圖片
[圖5] 點擊"文件",選擇"打開圖象頁"
[圖6] 選擇剛才保存的sample.jpg并點擊"打開"
[圖7] "尚書六號"自動識別的三個選框
4.提取文字并保存文本
[圖8] 不修改默認設(shè)置,直接點擊"識別"后,彈出的界面
[圖9] 將框內(nèi)的文字選中,并復(fù)制到文本文件或Word文檔進行個別錯字修正
出處:藍色理想
責任編輯:藍色
◎進入論壇計算機技術(shù)版塊參加討論
|