OCR文字識別

OCR(optical character recognition)文字識別是指電子設備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題。衡量一個OCR系統(tǒng)性能好壞的主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。

OCR文字識別基本信息

中文名 OCR文字識別 外文名 Optical Character Recognition

由于掃描儀的普及與廣泛應用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動軟件即可。因此,OCR軟件主要是由下面幾個部分組成。

1、圖像輸入、預處理:

圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式。預處理:主要包括二值化,噪聲去除,傾斜較正等

2、二值化:

對攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的,更好的識別文字,我們需要先對彩色圖進行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。

3、噪聲去除:

對于不同的文檔,我們對噪聲的定義可以不同,根據(jù)噪聲的特征進行去噪,就叫做噪聲去除

4、傾斜較正:

由于一般用戶,在拍照文檔時,都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識別軟件進行較正。

版面分析:

5、將文檔圖片分段落,分行的過程就叫做版面分析,由于實際文檔的多樣性,復雜性,因此,還沒有一個固定的,最優(yōu)的切割模型。

6、字符切割:

由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識別系統(tǒng)的性能,這就需要文字識別軟件有字符切割功能。

7、字符識別:

這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細,斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。

8、版面恢復:

人們希望識別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復。

9、后處理、校對:

根據(jù)特定的語言上下文的關系,對識別結(jié)果進行較正,就是后處理。

開發(fā)一個OCR文字識別軟件系統(tǒng),其目的很簡單,只是要把影像作一個轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計算機文字,使能達到影像資料的儲存量減少、識別出的文字可再使用及分析,當然也可節(jié)省因鍵盤輸入的人力與時間。

從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正,將結(jié)果輸出。2100433B

OCR文字識別造價信息

市場價 信息價 詢價
材料名稱 規(guī)格/型號 市場價
(除稅)
工程建議價
(除稅)
行情 品牌 單位 稅率 供應商 報價日期
樓棟文字標識 品種:樓棟文字標識;顏色:黃/綠/藍;外形尺寸(mm):h=2350;系列:彩繪; 查看價格 查看價格

立邦

m2 13% 重慶安途交通設施有限公司
地面文字 1600×600其他說明:注:可定制 路面標線 文字標記(字高3m) 熱熔型漆;品種:交通標志牌、板;工程:馬路畫線部分;類型:交通指示標志;規(guī)格:1600×600; 查看價格 查看價格

齊力

13% 上海齊力交通設施有限公司
文字絲印 文字絲印在不銹鋼板面,文字高度為20cm 查看價格 查看價格

13% 中山市東升鎮(zhèn)安達裝飾工程部
文字標識 品種:非文字標識;顏色:黃/綠/藍;外形尺寸(mm):h=800;系列:彩繪; 查看價格 查看價格

立邦

m2 13% 重慶安途交通設施有限公司
文字絲印 文字絲印在不銹鋼板面,英文字高度為3cm 查看價格 查看價格

13% 中山市東升鎮(zhèn)安達裝飾工程部
文字絲印 文字絲印在不銹鋼板面,文字高度為10cm 查看價格 查看價格

13% 中山市東升鎮(zhèn)安達裝飾工程部
地面文字 0.6 M X 1M 查看價格 查看價格

摩佰爾

13% 摩佰爾(天津)電子科技有限公司
文字拼圖 H2170XW1020/PG-F116 浮雕類 查看價格 查看價格

13% 佛山市南海盤古雕塑藝術(shù)工藝廠河南銷售
材料名稱 規(guī)格/型號 除稅
信息價
含稅
信息價
行情 品牌 單位 稅率 地區(qū)/時間
文字母鉛碼 查看價格 查看價格

韶關市2010年7月信息價
道路熱熔膠標線(修補工程) 文字、箭頭等修復 查看價格 查看價格

m2 東莞市2012年7月信息價
道路熱熔膠標線(修補工程) (含文字、箭頭等修復) 查看價格 查看價格

m2 東莞市2012年3月信息價
道路熱熔膠標線(修補工程) 文字、箭頭等修復 查看價格 查看價格

m2 東莞市2011年2月信息價
道路熱熔膠標線 修補工程 含文字、箭頭等修復 查看價格 查看價格

m2 東莞市2017年3月信息價
道路熱熔膠標線 修補工程 含文字、箭頭等修復 查看價格 查看價格

m2 東莞市2016年10月信息價
道路熱熔膠標線 修補工程 含文字、箭頭等修復 查看價格 查看價格

m2 東莞市2016年8月信息價
道路熱熔膠標線 修補工程 含文字、箭頭等修復 查看價格 查看價格

m2 東莞市2016年7月信息價
材料名稱 規(guī)格/需求量 報價數(shù) 最新報價
(元)
供應商 報價地區(qū) 最新報價時間
視頻文字識別模塊 按圖片|1臺 1 查看價格 杰創(chuàng)智能科技股份有限公司 廣東   2017-10-20
文字 文字高100、寬90、線寬10|1套 3 查看價格 佛山市虹霞創(chuàng)展廣告燈飾器材有限公司 廣東  韶關市 2022-06-06
文字 1.文字,按圖紙訂制 2.其他詳見圖紙設計要求|32個 3 查看價格 廣州點宜點廣告有限公司 廣東  佛山市 2019-03-15
快速沖洗接頭DN32OCr18Ni9 快速沖洗接頭DN32OCr18Ni9|1個 3 查看價格 上海菲航閥門制造有限公司 四川  達州市 2017-06-13
OCR證件閱讀器 3mm;圖像分辨率:不小于300DPI;色彩深度:24位真彩色;圖像格式:BMP,JPEG,JPEG2000;光源:可見光,紅外光(B900),紫外光(UVA);OCR識別:可識別符合ICAO9303文件|20套 1 查看價格 盛視科技股份有限公司 全國   2018-11-08
文字絲印 文字絲印在不銹鋼板面,文字高度為20cm|700個 1 查看價格 中山市東升鎮(zhèn)安達裝飾工程部 廣東  江門市 2015-10-13
文字絲印 文字絲印在不銹鋼板面,文字高度為10cm|500個 1 查看價格 中山市東升鎮(zhèn)安達裝飾工程部 廣東  江門市 2015-10-13
文字絲印 文字絲印在不銹鋼板面,英文字高度為3cm|500個 1 查看價格 中山市東升鎮(zhèn)安達裝飾工程部 廣東  江門市 2015-10-13

光學文字識別的概念是在1929年由德國科學家Tausheck最先提出來的,后來美國科學家Handel也提出了利用技術(shù)對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。

早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數(shù)字為對象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識別系統(tǒng),識別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導的地址書寫方式。

20世紀70年代初,日本的學者開始研究漢字識別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對數(shù)字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年漢字識別的研究進入一個實質(zhì)性的階段,不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件,由于識別率及產(chǎn)品化等多方面的因素,未能達到實際要求。同時,由于硬件設備成本高,運行速度慢,也沒有達到實用的程度。只有個別部門,如信息部門、新聞出版單位等使用OCR軟件。

1986年以后我國的OCR研究有了很大進展,在漢字建模和識別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。

進入20世紀90年代以后,隨著平臺式掃描儀的廣泛應用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。其中以OCR為科技核心的云脈技術(shù)不斷創(chuàng)新進取,研發(fā)了一系列OCR軟件產(chǎn)品,并且運用在醫(yī)院,學校,企業(yè)等各大市場。

OCR文字識別常見問題

  • 廣聯(lián)達文字識別

    打開CAD 時選擇文字格式。文字格式全選 gbcbig.shx。從新下載CAD字體,安裝到“font”文件目錄下,就不會有亂碼的問題了。是你的CAD軟件中的字庫不全,或打開是沒有選擇合適的字體。不是C...

  • 導入CAD時 文字識別不出來

    使用天正批量轉(zhuǎn)舊功能。然后再導入 天正CAD圖紙是經(jīng)過了天正加密的,如果在一臺只安裝了autoCAD軟件的電腦上打開這些圖紙,也是會出現(xiàn)以上問題。 以前有人是將天正CAD圖打開后采用分解或炸開操作...

  • cad導圖,文字識別不了,全是問號,標注變大了,怎么辦

    你需要cad字體,咱網(wǎng)上搜索一下cad字體你會下載到很多字體 或者你用天正打開選擇ht的字體就可以了

OCR文字識別文獻

常見儀表識別(圖片加文字) 常見儀表識別(圖片加文字)

格式:pdf

大?。?span id="isdjakl" class="single-tag-height">1.5MB

頁數(shù): 15頁

評分: 4.4

常減壓儀表 氣動三通球閥 氣動三通球閥 氣動球閥是由氣動執(zhí)行機構(gòu)和三通閥組成,是一種旋轉(zhuǎn)類切斷 調(diào)節(jié)閥門,具有關閉嚴密,結(jié)構(gòu)緊湊,重量輕,維修方便等優(yōu)點。 廣泛用于氣體、液體、蒸汽、油品等腐蝕性介質(zhì)的管道自動化 控制。 ZJHM 型氣動套筒調(diào)節(jié)閥 ZJHM 型氣動套筒調(diào)節(jié)閥形小、體輕、高性能、大容量,是符合 IEC 標 準的新一代通用調(diào)節(jié)閥產(chǎn)品。它廣泛應用于石化、輕紡等行業(yè)中一般流 體介質(zhì)和工藝條件且安裝空間緊湊的自動控制系統(tǒng)。本產(chǎn)品由新型的氣 動多彈簧薄膜執(zhí)行機構(gòu)和低流阻套筒閥組成。特點如下: 1、采用平衡 型閥芯,不平衡力小,允許壓差大,操作穩(wěn)定。 2、閥芯導向面大,可 改善由渦流和沖擊引起的振蕩,并減少損壞。 3、比普通單雙座調(diào)節(jié)閥 噪聲低 10dB 左右。 4、結(jié)構(gòu)簡單,裝拆維修方便。 ZJHP型氣動單座調(diào)節(jié)閥由氣動多彈簧薄膜執(zhí)行機構(gòu)和低流阻單座閥組成,新型 執(zhí)行機構(gòu)高度氏、重量輕

立即下載
企業(yè)形象識別系統(tǒng)文字釋義 企業(yè)形象識別系統(tǒng)文字釋義

格式:ppt

大?。?span id="fi4hijz" class="single-tag-height">1.5MB

頁數(shù): 未知

評分: 3

企業(yè)形象識別系統(tǒng)文字釋義——企業(yè)標準色   企業(yè)標識   企業(yè)旗幟   廠歌   企業(yè)愿景   企業(yè)使命   企業(yè)核心價值觀   ……   編制于2009年。共9頁PPT。   [color=blue]歡迎您來筑龍建筑施工網(wǎng)--建筑人的網(wǎng)上家園[/color]>>>點擊進入http://sg...

立即下載

光學文字識別的概念是在1929年由奧地利科學家Gustav Tauschek最先提出來的 ,后來美國科學家Handel也提出了利用技術(shù)對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。

早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數(shù)字為對象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識別系統(tǒng),識別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導的地址書寫方式。

20世紀70年代初,日本的學者開始研究漢字識別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對數(shù)字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年漢字識別的研究進入一個實質(zhì)性的階段,不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件,由于識別率及產(chǎn)品化等多方面的因素,未能達到實際要求。同時,由于硬件設備成本高,運行速度慢,也沒有達到實用的程度。只有個別部門,如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進展,在漢字建模和識別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。進入20世紀90年代以后,隨著平臺式掃描儀的廣泛應用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。

編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動軟件即可。因此,OCR軟件主要是由下面幾個部分組成。

1. 圖像輸入、預處理:

2. 圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式。預處理:主要包括二值化,噪聲去除,傾斜較正等

3. 二值化:

對攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的,更好的識別文字,我們需要先對彩色圖進行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。

4. 噪聲去除:

對于不同的文檔,我們對噪聲的定義可以不同,根據(jù)噪聲的特征進行去噪,就叫做噪聲去除

5. 傾斜較正:

由于一般用戶,在拍照文檔時,都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識別軟件進行較正。

6. 版面分析:

將文檔圖片分段落,分行的過程就叫做版面分析,由于實際文檔的多樣性,復雜性,因此,還沒有一個固定的,最優(yōu)的切割模型。

7. 字符切割:

由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識別系統(tǒng)的性能,這就需要文字識別軟件有字符切割功能。

8. 字符識別:

這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細,斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。

9. 版面恢復:

人們希望識別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復。

10. 后處理、校對:

根據(jù)特定的語言上下文的關系,對識別結(jié)果進行較正,就是后處理。

編輯本段工作流程一個OCR識別系統(tǒng),其目的很簡單,只是要把影像作一個轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計算機文字,使能達到影像資料的儲存量減少、識別出的文字可再使用及分析,當然也可節(jié)省因鍵盤輸入的人力與時間。

從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認錯的文字更正,將結(jié)果輸出。國內(nèi)最有實力的OCR字符識別公司有:云脈OCR, 漢王OCR等。

有批量處理功能,避免了單頁處理的麻煩;支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件;可識別簡體、繁體和英文三種語言;具有簡單易用的表格識別功能;具有TXT、RTF、HTM和XLS多種輸出格式,并有所見即所得的版面還原功能。新增打開與識別PDF文件功能,支持文字型PDF的直接轉(zhuǎn)換和圖像型PDF的OCR識別,既可以采用OCR的方式將PDF文件轉(zhuǎn)換為可編輯文檔,也可以采用格式轉(zhuǎn)換的方式直接轉(zhuǎn)換文字型PDF文件為RTF文件或文本文件。

OCR文字識別相關推薦
  • 相關百科
  • 相關知識
  • 相關專欄