脫機(jī)手寫識(shí)別(offline handwriting recognition)是文字識(shí)別中最有挑戰(zhàn)性的一個(gè)問題。主要原因有二,一是手寫文字(樣本)變化很大,不同的人有不同的字體和風(fēng)格,一些比較潦草的字,常常連人都難以辨認(rèn)。二是脫機(jī)識(shí)別的對(duì)象是已經(jīng)寫好的字,因此難以像聯(lián)機(jī)識(shí)別(onfine recognition)那樣提取出對(duì)識(shí)別很有幫助的筆順信息。
Bayes分類器模型是統(tǒng)計(jì)模式識(shí)別的基本模型。該模型基于各候選類的先驗(yàn)概率密度函數(shù)(PDF)計(jì)算輸入樣本屬于各類的概率。因此要利用Bayes分類器進(jìn)行文字識(shí)別,就要將各候選字的PDF事先估計(jì)出來,存儲(chǔ)在系統(tǒng)之中。由于各字的PDF難以用簡單的概率分布解析描述,因此須用數(shù)值描述。但由于漢字種類很多,存儲(chǔ)所有字
的PDF數(shù)值描述通常需要很大的空間。近年來有學(xué)者提出用分段線性近似的方法描述PDF,只用6個(gè)數(shù)據(jù)便能描述一個(gè)PDF。從而實(shí)現(xiàn)了一個(gè)低存儲(chǔ)開銷的基于Beyes分類器的手寫漢字識(shí)別系統(tǒng)。
語音識(shí)別的主要困難來自于語音的多變性,即人們講話的聲音受性別、年齡、口音、語速、情緒、身體狀況、文化程度、社會(huì)地位等眾多因素的影響??朔Z音多變性的手段同樣是特征抽取和分類器建模。但適用于語音識(shí)別的方法與文字識(shí)別的方法有所不同。在特征抽取方面,人們普遍采用線性預(yù)測倒譜系數(shù)(LPCC)、鎂爾頻率倒譜系數(shù)(MFCC)等方法;在分類器建模方面,早期主要采用動(dòng)態(tài)時(shí)間彎曲(DTW)和矢量量化(VQ)的方法,而目前主要采用HMM。
HMM改變了以往利用觀測語音直接判斷含義(說話人要講的是什么)的方法,而是先計(jì)算發(fā)音系統(tǒng)經(jīng)歷了哪個(gè)運(yùn)動(dòng)(狀態(tài)轉(zhuǎn)移)過程產(chǎn)生的這個(gè)語音,然后再來判斷說話人要說什么。這種方法在語音和含義之間搭建了一個(gè)橋梁,即發(fā)音系統(tǒng)的運(yùn)動(dòng)過程。從而降低了直接由具有多變性的語音判斷含義的困難。
圖像識(shí)別是模式識(shí)別的一個(gè)重要領(lǐng)域,涵蓋目標(biāo)識(shí)別、指紋識(shí)別、掌紋識(shí)別、虹膜識(shí)別、人臉識(shí)別等多個(gè)方向。近年來,隨著生物信息識(shí)別技術(shù)在身份認(rèn)證、信息安全以及反恐等領(lǐng)域中重要作用的突顯,圖像識(shí)別技術(shù)受到了廣泛的重視。
指紋識(shí)別是最成熟的一項(xiàng)生物信息識(shí)別技術(shù)。目前,各種類型的指紋識(shí)別系統(tǒng)已在公安、海關(guān)、公司門禁、PC機(jī)設(shè)鎖等多種場合得到應(yīng)用,成為展現(xiàn)圖像識(shí)別技術(shù)實(shí)用價(jià)值的標(biāo)志。指紋識(shí)別系統(tǒng)既有應(yīng)用于公司、家庭或個(gè)人計(jì)算機(jī)的嵌入式系統(tǒng)一指紋鎖,也有用于刑偵、護(hù)照通關(guān)、網(wǎng)絡(luò)身份認(rèn)證等領(lǐng)域的大型系統(tǒng)。嵌入式系統(tǒng)存儲(chǔ)的指紋(特征)數(shù)較少(一般在100枚以內(nèi)),可用簡單的算法實(shí)現(xiàn)高精度識(shí)別,所要解決的主要問題是如何用簡單、小巧、廉價(jià)的設(shè)備實(shí)現(xiàn)指紋的正確采集和識(shí)別。大型系統(tǒng)往往需要儲(chǔ)存上百萬的指紋,因此如何提高指紋的比對(duì)速度便成為關(guān)鍵。為了能夠進(jìn)行快速處理,需要對(duì)指紋進(jìn)行很好的組織和采用高速算法。 2100433B
Fisher線性判別分析的基本思想:通過尋找一個(gè)投影方向(線性變換,線性組合)將高維問題降低到一維問題來解決,并且要求變換后的一維數(shù)據(jù)具有如下性質(zhì):同類樣本盡可能聚集在一起,不同類的樣本盡可能地遠(yuǎn)。
Fisher線性判別分析,就是通過給定的訓(xùn)練數(shù)據(jù),確定投影方向W和閾值y0,即確定線性判別函數(shù),然后根據(jù)這個(gè)線性判別函數(shù),對(duì)測試數(shù)據(jù)進(jìn)行測試,得到測試數(shù)據(jù)的類別。
將樣本換算到某個(gè)空間,最大化組間差異,最小化組內(nèi)差異,隨后將每個(gè)組求平均向量,求出組內(nèi)所有向量與其的距離和矩陣X每個(gè)組的平均向量之間再平均得到全局平均向量,每個(gè)組內(nèi)平均向量與全局平均向量的距離和矩陣Y。最后求這兩和的比例的Y/X最大值。
在向量空間里就是求矩陣的特征向量,投影到這個(gè)特征向量后聚合度就明顯了。(對(duì)比主向量,主向量是說投影到這個(gè)主向量后特征區(qū)分更明顯)
SVM是一種經(jīng)典分類器。支持向量機(jī) (SVM) 是一個(gè)類分類器,正式的定義是一個(gè)能夠?qū)⒉煌悩颖驹跇颖究臻g分隔的超平面。 換句話說,給定一些標(biāo)記(label)好的訓(xùn)練樣本 (監(jiān)督式學(xué)習(xí)),SVM算法輸出一個(gè)最優(yōu)化的分隔超平面。SVM算法的實(shí)質(zhì)是找出一個(gè)能夠?qū)⒛硞€(gè)值最大化的超平面,這個(gè)值就是超平面離所有訓(xùn)練樣本的最小距離。這個(gè)最小距離用SVM術(shù)語來說叫做間隔(margin)。 概括一下,SVM分類器就是最優(yōu)分割超平面最大化訓(xùn)練數(shù)據(jù)的間隔。
K-Means算法是以距離作為相似度的評(píng)價(jià)指標(biāo),用樣本點(diǎn)到類別中心的誤差平方和作為聚類好壞的評(píng)價(jià)指標(biāo),通過迭代的方法使總體分類的誤差平方和函數(shù)達(dá)到最小的聚類方法。
(1) 從 n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中心;
(2) 循環(huán)(3)到(4)直到每個(gè)聚類不再發(fā)生變化為止
(3) 根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;
(4) 重新計(jì)算每個(gè)(有變化)聚類的均值(中心對(duì)象)
在實(shí)際的分類中通常使用將多個(gè)弱分類器組合成強(qiáng)分類器進(jìn)行分類的方法,統(tǒng)稱為集成分類方法(Ensemble Method)。比較簡單的如在Boosting之前出現(xiàn)Bagging的方法,首先從從整體樣本集合中抽樣采取不同的訓(xùn)練集訓(xùn)練弱分類器,然后使用多個(gè)弱分類器進(jìn)行voting,最終的結(jié)果是分類器投票的優(yōu)勝結(jié)果。這種簡單的voting策略通常難以有很好的效果。直到后來的Boosting方法問世,組合弱分類器的威力才被發(fā)揮出來。
Boosting意為加強(qiáng)、提升,也就是說將弱分類器提升為強(qiáng)分類器。而我們常聽到的AdaBoost是Boosting發(fā)展到后來最為代表性的一類。所謂AdaBoost,即Adaptive Boosting,是指弱分類器根據(jù)學(xué)習(xí)的結(jié)果反饋Adaptively調(diào)整假設(shè)的錯(cuò)誤率,所以也不需要任何的先驗(yàn)知識(shí)就可以自主訓(xùn)練。
所有樣本作為訓(xùn)練集,初始權(quán)重,訓(xùn)練弱分類器分錯(cuò)的增加權(quán)重,再訓(xùn)練,最終得到的分類器是弱分類器的加權(quán)平均。
數(shù)據(jù)的采集是進(jìn)行統(tǒng)計(jì)模式識(shí)別驗(yàn)證的前提條件。一個(gè)性能良好的識(shí)別系統(tǒng)一定需要首先捕獲到好的特征數(shù)據(jù)。利用這些數(shù)據(jù),我們就可以進(jìn)行后續(xù)的預(yù)處理、特征提取、特征選擇等工作。一般來說,這里的數(shù)據(jù)采集肯定需要借助相應(yīng)的硬件設(shè)備,諸如,聲音傳感器、圖像傳感器等等。如果傳感器的靈敏度不高,或者傳感器的精確度不高,那么勢必會(huì)對(duì)所采集到的數(shù)據(jù)產(chǎn)生一定的噪聲污染。這樣一來,盡管可以通過后續(xù)的預(yù)處理來減弱甚至消除一部分噪聲,但是,終究無法做到完全去除噪聲的干擾。所以,數(shù)據(jù)采集部分應(yīng)該盡量保證所得到的數(shù)據(jù)純正、干凈。通常我們可以采集相當(dāng)數(shù)量的數(shù)據(jù),并從中選擇最優(yōu)、最好、最具有代表性的數(shù)據(jù)來作為原始的輸入。這樣,就從源頭上保證了數(shù)據(jù)取樣對(duì)最終生物識(shí)別驗(yàn)證系統(tǒng)的干擾最小。
另外,需要注意的是,針對(duì)不同的生物特征,數(shù)據(jù)采集的方法和原理是不同的。掌紋識(shí)別,是基于人的手掌脈絡(luò)的不同分叉、線條的粗細(xì)等特征為依據(jù)來進(jìn)行最終的識(shí)別。筆跡識(shí)別則是利用了不同的人在簽名時(shí)筆劃的長度、角度、偏移,握筆的力度、書寫時(shí)的速度,加速度等特征來進(jìn)行區(qū)分的。
在基于統(tǒng)計(jì)方法的模式識(shí)別技術(shù)領(lǐng)域,所謂的預(yù)處理一般是指去除噪聲的干擾,加強(qiáng)有效信息的過程。前面已經(jīng)提到,原始數(shù)據(jù)的采集不可避免的要引入一些噪聲的干擾,對(duì)于一個(gè)實(shí)際的生物識(shí)別系統(tǒng)而言,預(yù)處理是一個(gè)必要的環(huán)節(jié)。但是,需要注意的是,雖說預(yù)處理的作用都是減弱甚至消除噪聲的干擾,同時(shí)增強(qiáng)有用信息的強(qiáng)度,不過,針對(duì)不同的特征,預(yù)處理的方法也是千差萬別。
一般來說,從傳感器得到的數(shù)據(jù)屬于原始測量空間的數(shù)據(jù),而原始測量空間的數(shù)據(jù)是無法直接進(jìn)行判別分類的,或者說,直接利用原始測量空間得到的數(shù)據(jù)進(jìn)行判別分類往往達(dá)不到期望的效果。通常來說,我們需要將數(shù)據(jù)從原始的測量空間“變換”到二次空間,而這個(gè)二次空間,研究人員一般將它稱為特征空間。將數(shù)據(jù)從原始空間變換到特征空間后,我們就得到了表征某模式的二次特征,一般我們所指的特征就是這里所謂的二次特征。
就特征的屬性而言,大體上可分為三類:(1)物理特征,(2)結(jié)構(gòu)特征,(3)數(shù)學(xué)特征。就特征抽取方法而言,其研究的內(nèi)容可分為二類:(1)若對(duì)象的屬性是明確的則研究的核心問題是如何將它們與目標(biāo)物體的其它部分分離開來并轉(zhuǎn)化為能為計(jì)算機(jī)所接受的數(shù)據(jù),(2)若對(duì)象的屬性不很明確,則需研究特征抽取的一般原則。
在模式識(shí)別的文獻(xiàn)中,已提出多種準(zhǔn)則函數(shù)供特征抽取時(shí)參考和利用,基于Fisher判別準(zhǔn)則的變換是最為重要的一種特征抽取方法。此外,還有基于最小均方誤差的準(zhǔn)則(它對(duì)應(yīng)于K一L變換特征抽取),基于瑞利商的準(zhǔn)則,基于最小錯(cuò)誤概率的準(zhǔn)則等。人們已注意到,特征壓縮的投影方向取決于選擇的準(zhǔn)則,而不同的投影方向?qū)τ谧R(shí)別的效果將產(chǎn)生很大影響。
屬于同一類別的各個(gè)模式之間的差異,部分是由環(huán)境噪聲和傳感器的性質(zhì)所引起的,部分是模式本身所具有的隨機(jī)性質(zhì)。前者如紙的質(zhì)量、墨水、污點(diǎn)對(duì)書寫字符的影響;后者表現(xiàn)為同一 個(gè)人書寫同一字符時(shí),雖然形狀相似,但不可能完全一樣。
因此當(dāng)用特征向量來表示這些在形狀上稍有差異的字符時(shí),同這些特征向量對(duì)應(yīng)的特征空間中的點(diǎn)便不同一,而是分布在特征空間的某個(gè)區(qū)域中。這個(gè)區(qū)域就可以用來表示該隨機(jī)向量實(shí)現(xiàn)的集合。假使在特征空間中規(guī)定某種距離度量,從直觀上看,兩點(diǎn)之間的距離越小,它們所對(duì)應(yīng)的模式就越相似。在理想的情況下,不同類的兩個(gè)模式之間的距離要大于同一類的兩個(gè)模式之間的距離,同一類的兩點(diǎn)間連接線上各點(diǎn)所對(duì)應(yīng)的模式應(yīng)屬于同一類。一個(gè)畸變不大的模式所對(duì)應(yīng)的點(diǎn)應(yīng)緊鄰沒有畸變時(shí)該模式所對(duì)應(yīng)的點(diǎn)。在這些條件下,可以準(zhǔn)確地把特征空間劃分為同各個(gè)類別相對(duì)應(yīng)的區(qū)域。在不滿足上述條件時(shí),可以對(duì)每個(gè)特征向量估計(jì)其屬于某一類的概率,而把有最大概率值的那一類作為該點(diǎn)所屬的類別。
分類器有多種設(shè)計(jì)方法,如貝葉斯分類器、樹分類器、線性判別函數(shù)、近鄰法分類、最小距離分類、聚類分析等。
圖像處理與模式識(shí)別算法工程師需要哪些基礎(chǔ)?
圖像處理 模式識(shí)別 智能信息處理 視頻信息處理 信號(hào)與系統(tǒng)分析 軟件開發(fā) 數(shù)據(jù)庫 VC++ matlab
市場價(jià)模式,價(jià)差模式的應(yīng)用范圍
你好,這個(gè)首先的看你是陜西的那個(gè)市區(qū)呢,按照西安舉例:最高限價(jià)是按照“差價(jià)模式”記取費(fèi)用的。招標(biāo)清單及投標(biāo)文件是按照“市場價(jià)模式”執(zhí)行的。這個(gè)就是西安的模式。
純做法模式需要單獨(dú)套定額,量表模式自動(dòng)套定額,
一個(gè)模式識(shí)別系統(tǒng)一般工作在兩個(gè)方面:訓(xùn)練和分類;統(tǒng)計(jì)模式識(shí)別的理論依據(jù)就是貝葉斯理論,當(dāng)然也可采用修正的bayes理論(風(fēng)險(xiǎn)估計(jì)) ;當(dāng)然bayes理論要求類的分布情況,在已知分布情況下就可直接使用,但一般這種可能性較小,對(duì)于只是知道分布函數(shù),但不知道參數(shù)的情況,就是估計(jì)參數(shù)的過程,而在更一般情況下,對(duì)應(yīng)分布是一點(diǎn)信息沒有,這樣可采用Parzen窗核函數(shù)估計(jì)其分布或直接基于訓(xùn)練數(shù)據(jù)建立決策邊界。實(shí)際上多層感知器就是一個(gè)非參數(shù)的過程。
統(tǒng)計(jì)模式的一種分類方法分為指導(dǎo)性訓(xùn)練和非指導(dǎo)性訓(xùn)練;非指導(dǎo)性訓(xùn)練一般對(duì)于數(shù)據(jù)的已知信息很少,如遠(yuǎn)程的空間遙感應(yīng)用,這里一般采用聚類的方法。另一種分類方法是基于決策邊界是直接獲得還是間接獲得,前者一般是在幾何空間就可完成。無論采用那種方法,訓(xùn)練集非常關(guān)鍵,主要訓(xùn)練的數(shù)據(jù)量要足夠大而且要足夠典型,這樣才能保證算法的可靠性,訓(xùn)練集的應(yīng)用上注意以下幾點(diǎn):訓(xùn)練樣本的個(gè)數(shù)應(yīng)該在10倍于特性數(shù)據(jù)維數(shù);相對(duì)于訓(xùn)練樣本,分類器的未知參數(shù)不能過多;分類器不能出現(xiàn)過度訓(xùn)練的問題。
統(tǒng)計(jì)模式識(shí)別方法就是用給定的有限數(shù)量樣本集,在已知研究對(duì)象統(tǒng)計(jì)模型或已知判別函數(shù)類條件下根據(jù)一定的準(zhǔn)則通過學(xué)習(xí)算法把d維特征空間劃分為c個(gè)區(qū)域,每一個(gè)區(qū)域與每一類別相對(duì)應(yīng)。模式識(shí)別系統(tǒng)在進(jìn)行工作時(shí)只要判斷被識(shí)別的對(duì)象落入哪一個(gè)區(qū)域,就能確定出它所屬的類別。由噪聲和傳感器所引起的變異性,可通過預(yù)處理而部分消除;而模式本身固有的變異性則可通過特征抽取和特征選擇得到控制,盡可能地使模式在該特征空間中的分布滿足上述理想條件。因此一個(gè)統(tǒng)計(jì)模式識(shí)別系統(tǒng)應(yīng)包含預(yù)處理、特征抽取、分類器等部分。
格式:pdf
大?。?span id="cq7so76" class="single-tag-height">195KB
頁數(shù): 2頁
評(píng)分: 3
模糊模式識(shí)別在建設(shè)選址決策中的應(yīng)用——根據(jù)模糊模式識(shí)別構(gòu)建了建設(shè)項(xiàng)目選址的一般數(shù)學(xué)模型,并根據(jù)最大隸屬原則提出了求解方法及其應(yīng)用示例,以提高決策的科學(xué)性和可靠性。
格式:pdf
大?。?span id="s1tn9kk" class="single-tag-height">195KB
頁數(shù): 4頁
評(píng)分: 4.4
借助建設(shè)主管部門的資料形成數(shù)據(jù)庫,應(yīng)用模糊模式識(shí)別的方法對(duì)未知的工程造價(jià)比較準(zhǔn)確地推測。實(shí)例說明這是一種具有實(shí)用性、科學(xué)性的推測系統(tǒng)。
成果登記號(hào) |
19860426[01786] |
項(xiàng)目名稱 |
油氣檢測的統(tǒng)計(jì)模式識(shí)別方法 |
第一完成單位 |
成都地質(zhì)學(xué)院應(yīng)用數(shù)學(xué)系 |
主要完成人 |
何寶侃、湯磊 |
主題詞 |
油氣藏;地層參數(shù);模式識(shí)別 |
1.用K-L變換的原理壓縮數(shù)據(jù),提取地層的特征參數(shù);在壓測網(wǎng)上而不是在測和地球物理的多種參數(shù)來建立檢測油氣藏的統(tǒng)計(jì)模式識(shí)別方法。 2的均值分布,主要是構(gòu)造形態(tài)和地層厚度分布采用加權(quán)最小二乘法擬合常。 3. 試驗(yàn)表明,主要珍斷參數(shù)是等厚殘差與構(gòu)造殘盞在提高層等特征參數(shù)時(shí),要選好層位或時(shí)窗,盡可能突出與油氣有關(guān)的特征。擇參數(shù)與珍斷時(shí),應(yīng)視具體地質(zhì)條件和可能而定,要重視反映油氣藏存在數(shù)。 2100433B
在國際上,各大權(quán)威研究機(jī)構(gòu),各大公司都紛紛開始將模式識(shí)別技術(shù)作為公司的戰(zhàn)略研發(fā)重點(diǎn)加以重視。
模式識(shí)別從20世紀(jì)20年代發(fā)展,人們的一種普遍看法是不存在對(duì)所有模式識(shí)別問題都適用的單一模型和解決識(shí)別問題的單一技術(shù),我們擁有的只是一個(gè)工具袋,所要做的是結(jié)合具體問題把統(tǒng)計(jì)的和句法的識(shí)別結(jié)合起來,把統(tǒng)計(jì)模式識(shí)別或句法模式識(shí)別與人工智能中的啟發(fā)式搜索結(jié)合起來,把統(tǒng)計(jì)模式識(shí)別或句法模式識(shí)別與支持向量機(jī)的機(jī)器學(xué)習(xí)結(jié)合起來,把人工神經(jīng)元網(wǎng)絡(luò)與各種已有技術(shù)以及人工智能中的專家系統(tǒng)、不確定推理方法結(jié)合起來,深入掌握各種工具的效能和應(yīng)有的可能性,互相取長補(bǔ)短,開創(chuàng)模式識(shí)別應(yīng)用的新局面 。