OCR字符識別

OCR字符識別是指電子設(shè)備（例如掃描儀或數(shù)碼相機）檢查紙上打印的字符，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進行掃描，然后對圖像文件進行分析處理，獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率，是OCR最重要的課題的友好性，產(chǎn)品的穩(wěn)定性，易用性及可行性等。

OCR字符識別組成
OCR字符識別造價信息
OCR字符識別由來歷史
OCR字符識別常見問題
OCR字符識別文獻
OCR文字識別軟件結(jié)構(gòu)
漢王 PDF OCR 8.1簡體中文版軟件功能
OCR文字識別歷史背景

OCR字符識別基本信息

中文名	OCR字符識別	屬????性	對文本資料進行掃描，然后對圖像文件進行分析處理，獲取文字及版面信息的過程

OCR字符識別組成

編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅(qū)動軟件即可。因此，OCR軟件主要是由下面幾個部分組成。

1. 圖像輸入、預(yù)處理：

2. 圖像輸入：對于不同的圖像格式，有著不同的存儲格式，不同的壓縮方式。預(yù)處理：主要包括二值化，噪聲去除，傾斜較正等

3. 二值化：

對攝像頭拍攝的圖片，大多數(shù)是彩色圖像，彩色圖像所含信息量巨大，對于圖片的內(nèi)容，我們可以簡單的分為前景與背景，為了讓計算機更快的，更好的識別文字，我們需要先對彩色圖進行處理，使圖片只前景信息與背景信息，可以簡單的定義前景信息為黑色，背景信息為白色，這就是二值化圖了。

4. 噪聲去除：

對于不同的文檔，我們對噪聲的定義可以不同，根據(jù)噪聲的特征進行去噪，就叫做噪聲去除

5. 傾斜較正：

由于一般用戶，在拍照文檔時，都比較隨意，因此拍照出來的圖片不可避免的產(chǎn)生傾斜，這就需要文字識別軟件進行較正。

6. 版面分析：

將文檔圖片分段落，分行的過程就叫做版面分析，由于實際文檔的多樣性，復(fù)雜性，因此，還沒有一個固定的，最優(yōu)的切割模型。

7. 字符切割：

由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識別系統(tǒng)的性能，這就需要文字識別軟件有字符切割功能。

8. 字符識別：

這一研究，已經(jīng)是很早的事情了，比較早有模板匹配，后來以特征提取為主，由于文字的位移，筆畫的粗細，斷筆，粘連，旋轉(zhuǎn)等因素的影響，極大影響特征的提取的難度。

9. 版面恢復(fù)：

人們希望識別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變，的輸出到word文檔,pdf文檔等，這一過程就叫做版面恢復(fù)。

10. 后處理、校對:

根據(jù)特定的語言上下文的關(guān)系，對識別結(jié)果進行較正，就是后處理。

編輯本段工作流程一個OCR識別系統(tǒng)，其目的很簡單，只是要把影像作一個轉(zhuǎn)換，使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字，一律變成計算機文字，使能達到影像資料的儲存量減少、識別出的文字可再使用及分析，當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間。

從影像到結(jié)果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正，將結(jié)果輸出。國內(nèi)最有實力的OCR字符識別公司有：云脈OCR, 漢王OCR等。

查看詳情

OCR字符識別造價信息

市場價

信息價

詢價

材料名稱	規(guī)格/型號	市場價（除稅）	工程建議價（除稅）	品牌	單位	稅率	供應(yīng)商
字符顯示終端	品種:字符顯示終端;型號:P3.75;產(chǎn)品說明:P3.75 LED電子雙色屏;	查看價格	查看價格	藍普	m2	13%	云南勇恒科技有限公司
字符疊加器	TC-9304	查看價格	查看價格	天地偉業(yè)	臺	13%	南京天地偉業(yè)數(shù)碼科技有限公司
字符疊加器	TC-9316-4H	查看價格	查看價格	天地偉業(yè)	臺	13%	南京天地偉業(yè)數(shù)碼科技有限公司
字符疊加器	TC-9101	查看價格	查看價格	天地偉業(yè)	臺	13%	天津天地偉業(yè)數(shù)碼科技有限公司成都辦事處
字符疊加器	TC-9316	查看價格	查看價格	天地偉業(yè)	臺	13%	天津天地偉業(yè)數(shù)碼科技有限公司成都辦事處
字符疊加器	TC-9304	查看價格	查看價格	天地偉業(yè)	臺	13%	天津天地偉業(yè)數(shù)碼科技有限公司成都辦事處
字符疊加器	TC-9316	查看價格	查看價格		臺	13%	大連天地偉業(yè)數(shù)碼科技有限公司
字符疊加器	TC-9316-4H	查看價格	查看價格		臺	13%	天地偉業(yè)數(shù)碼科技有限公司哈爾濱辦事處

材料名稱	規(guī)格/型號	除稅信息價	含稅信息價	單位	地區(qū)/時間
制作地標(biāo).字符	貼附式大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2017年4月信息價
制作地標(biāo).字符	貼附式大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2017年3月信息價
制作地標(biāo).字符	大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2017年1月信息價
制作地標(biāo).字符	貼附式大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2016年12月信息價
制作地標(biāo).字符	貼附式大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2016年7月信息價
制作地標(biāo).字符	大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2016年5月信息價
制作地標(biāo).字符	大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2016年4月信息價
制作地標(biāo).字符	大型、小型、箭頭等	查看價格	查看價格	m2	東莞市2016年3月信息價

材料名稱	規(guī)格/需求量	報價數(shù)	最新報價（元）	供應(yīng)商	報價地區(qū)	最新報價時間
快速沖洗接頭DN32OCr18Ni9	快速沖洗接頭DN32OCr18Ni9\|1個	3	查看價格	上海菲航閥門制造有限公司	四川達州市	2017-06-13
號牌識別軟件能識別漢字、顏色、字符	能識別漢字、顏色、字符\|41套	1	查看價格	深圳市索威爾科技開發(fā)有限公司	廣東惠州市	2010-11-09
OCR證件閱讀器	3mm;圖像分辨率:不小于300DPI;色彩深度:24位真彩色;圖像格式:BMP,JPEG,JPEG2000;光源:可見光,紅外光(B900),紫外光(UVA);OCR識別:可識別符合ICAO9303文件\|20套	1	查看價格	盛視科技股份有限公司	全國	2018-11-08
不帶字符功能矩陣	BL-D2150SV(機箱數(shù) 是1) BL-D2150S-8-8\|6742臺	1	查看價格	北京美電貝爾電業(yè)科技有限公司	北京北京市	2015-12-24
不帶字符功能矩陣	BL-D2150SV(機箱數(shù) 是1) BL-D2150S-12-6\|422臺	1	查看價格	北京美電貝爾電業(yè)科技有限公司	北京北京市	2015-03-30
字符疊加功能	通過軟件定制，各收費亭達到字符疊加功能，車道收費亭字符疊加功能，含過車信息，收費信息，上下收費站信息等字符疊加信息。\|147套	1	查看價格	金三立視頻科技（深圳）有限公司	廣東東莞市	2017-04-27
不帶字符功能矩陣	BL-D2150SV(機箱數(shù) 是1) BL-D2150S-8-4\|3891臺	1	查看價格	北京美電貝爾電業(yè)科技有限公司	北京北京市	2015-12-01
不帶字符功能矩陣	BL-D2150SV(機箱數(shù) 是1) BL-D2150S-16-12\|5414臺	1	查看價格	北京美電貝爾電業(yè)科技有限公司	北京北京市	2015-11-14

OCR字符識別由來歷史

光學(xué)文字識別的概念是在1929年由奧地利科學(xué)家Gustav Tauschek最先提出來的，后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。

早在60、70年代，世界各國就開始有OCR的研究，而研究的初期，多以文字的識別方法研究為主，且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例，1960年左右開始研究OCR的基本識別理論，初期以數(shù)字為對象，直至1965至1970年之間開始有一些簡單的產(chǎn)品，如印刷文字的郵政編碼識別系統(tǒng)，識別郵件上的郵政編碼，幫助郵局作區(qū)域分信的作業(yè)；也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式。

20世紀70年代初，日本的學(xué)者開始研究漢字識別，并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚，在70年代才開始對數(shù)字、英文字母及符號的識別進行研究，70年代末開始進行漢字識別的研究，到1986年漢字識別的研究進入一個實質(zhì)性的階段，不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件，由于識別率及產(chǎn)品化等多方面的因素，未能達到實際要求。同時，由于硬件設(shè)備成本高，運行速度慢，也沒有達到實用的程度。只有個別部門，如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產(chǎn)品。進入20世紀90年代以后，隨著平臺式掃描儀的廣泛應(yīng)用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術(shù)的進一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。

查看詳情

OCR字符識別常見問題

破解版OCR

已發(fā)，請查收！
求問漢王ocr怎么樣

1）雙擊桌面上的漢王圖標(biāo)將進入漢王軟件界面； 2）將待掃描的紙張放到掃描儀的工作面上； 3）點擊漢王軟件界面工具欄的第一個圖標(biāo)（掃描按鈕），進入掃描設(shè)置窗口——設(shè)置成標(biāo)準，文本，單色，400象...
掃描儀ocr安裝方法是什么?

如果是自帶的話，隨即光盤都有OCR軟件如果不是自帶的，可以找經(jīng)銷商（賣機器的地方）要個，網(wǎng)上現(xiàn)在都有下載的，漢王OCR，清華紫光等都還不錯

OCR字符識別文獻

基于BP神經(jīng)網(wǎng)絡(luò)的金屬材料字符識別研究

格式：pdf

大?。?span id="dxqgeay" class="single-tag-height">77KB

頁數(shù)： 3頁

評分： 4.5

字符識別是模式識別領(lǐng)域的一項傳統(tǒng)課題,其內(nèi)容是模式識別領(lǐng)域中很多課題的基本內(nèi)容。人工神經(jīng)網(wǎng)絡(luò)的出現(xiàn)為字符識別的研究提供了一種新的手段,BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)作為人工神經(jīng)網(wǎng)絡(luò)的一個分支,現(xiàn)已成為其最廣泛的應(yīng)用。本文以三層BP網(wǎng)絡(luò)作為模型,并將其應(yīng)用于對金屬角鐵上的字符識別。由于角鐵字符為數(shù)字與英文字母混合,文中在對傳統(tǒng)的BP算法進行了改進的基礎(chǔ)上,采用了分組神經(jīng)網(wǎng)絡(luò)的設(shè)計方法,取得了良好的識別效果。

立即下載

MER方法在工程圖紙字符識別中的算法研究與應(yīng)用

格式：pdf

大?。?span id="ziqoj5i" class="single-tag-height">77KB

頁數(shù)： 2頁

評分： 4.4

如何把數(shù)字圖像中各種長度和角度書寫的字符或字符串統(tǒng)一識別、組合并校正成歸一化的水平方向,以供后續(xù)準確的字模識別,是工程圖紙數(shù)字圖像字符識別中必須首先解決的問題。應(yīng)用計算最小鄰接矩形方法來實現(xiàn)上述目標(biāo),取得了良好效果。

立即下載

OCR文字識別軟件結(jié)構(gòu)

由于掃描儀的普及與廣泛應(yīng)用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅(qū)動軟件即可。因此，OCR軟件主要是由下面幾個部分組成。

1、圖像輸入、預(yù)處理：

圖像輸入：對于不同的圖像格式，有著不同的存儲格式，不同的壓縮方式。預(yù)處理：主要包括二值化，噪聲去除，傾斜較正等

2、二值化：

3、噪聲去除：

對于不同的文檔，我們對噪聲的定義可以不同，根據(jù)噪聲的特征進行去噪，就叫做噪聲去除

4、傾斜較正：

由于一般用戶，在拍照文檔時，都比較隨意，因此拍照出來的圖片不可避免的產(chǎn)生傾斜，這就需要文字識別軟件進行較正。

版面分析：

5、將文檔圖片分段落，分行的過程就叫做版面分析，由于實際文檔的多樣性，復(fù)雜性，因此，還沒有一個固定的，最優(yōu)的切割模型。

6、字符切割：

由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識別系統(tǒng)的性能，這就需要文字識別軟件有字符切割功能。

7、字符識別：

8、版面恢復(fù)：

人們希望識別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變，的輸出到word文檔,pdf文檔等，這一過程就叫做版面恢復(fù)。

9、后處理、校對：

根據(jù)特定的語言上下文的關(guān)系，對識別結(jié)果進行較正，就是后處理。

開發(fā)一個OCR文字識別軟件系統(tǒng)，其目的很簡單，只是要把影像作一個轉(zhuǎn)換，使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字，一律變成計算機文字，使能達到影像資料的儲存量減少、識別出的文字可再使用及分析，當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間。

從影像到結(jié)果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正，將結(jié)果輸出。2100433B

查看詳情

漢王 PDF OCR 8.1簡體中文版軟件功能

有批量處理功能，避免了單頁處理的麻煩；支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件；可識別簡體、繁體和英文三種語言；具有簡單易用的表格識別功能；具有TXT、RTF、HTM和XLS多種輸出格式，并有所見即所得的版面還原功能。新增打開與識別PDF文件功能，支持文字型PDF的直接轉(zhuǎn)換和圖像型PDF的OCR識別，既可以采用OCR的方式將PDF文件轉(zhuǎn)換為可編輯文檔，也可以采用格式轉(zhuǎn)換的方式直接轉(zhuǎn)換文字型PDF文件為RTF文件或文本文件。

查看詳情

OCR文字識別歷史背景

光學(xué)文字識別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的，后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。

1986年以后我國的OCR研究有了很大進展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產(chǎn)品。

進入20世紀90年代以后，隨著平臺式掃描儀的廣泛應(yīng)用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術(shù)的進一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。其中以O(shè)CR為科技核心的云脈技術(shù)不斷創(chuàng)新進取，研發(fā)了一系列OCR軟件產(chǎn)品，并且運用在醫(yī)院，學(xué)校，企業(yè)等各大市場。

查看詳情

OCR字符識別相關(guān)推薦

相關(guān)百科
相關(guān)知識
相關(guān)專欄

百科

OCR字符識別

OCR字符識別基本信息

OCR字符識別組成

OCR字符識別造價信息

OCR字符識別由來歷史

OCR字符識別常見問題

OCR字符識別文獻

OCR文字識別軟件結(jié)構(gòu)

漢王 PDF OCR 8.1簡體中文版軟件功能

OCR文字識別歷史背景

最新詞條