中文名 | 統(tǒng)計模式識別 | 外文名 | statistical approach of pattern recognition |
---|---|---|---|
類????屬 | 模式識別 | 學(xué)????科 | 計算機(jī)科學(xué)、交叉學(xué)科 |
過????程 | 特征提取、分類器分類 |
數(shù)據(jù)的采集是進(jìn)行統(tǒng)計模式識別驗證的前提條件。一個性能良好的識別系統(tǒng)一定需要首先捕獲到好的特征數(shù)據(jù)。利用這些數(shù)據(jù),我們就可以進(jìn)行后續(xù)的預(yù)處理、特征提取、特征選擇等工作。一般來說,這里的數(shù)據(jù)采集肯定需要借助相應(yīng)的硬件設(shè)備,諸如,聲音傳感器、圖像傳感器等等。如果傳感器的靈敏度不高,或者傳感器的精確度不高,那么勢必會對所采集到的數(shù)據(jù)產(chǎn)生一定的噪聲污染。這樣一來,盡管可以通過后續(xù)的預(yù)處理來減弱甚至消除一部分噪聲,但是,終究無法做到完全去除噪聲的干擾。所以,數(shù)據(jù)采集部分應(yīng)該盡量保證所得到的數(shù)據(jù)純正、干凈。通常我們可以采集相當(dāng)數(shù)量的數(shù)據(jù),并從中選擇最優(yōu)、最好、最具有代表性的數(shù)據(jù)來作為原始的輸入。這樣,就從源頭上保證了數(shù)據(jù)取樣對最終生物識別驗證系統(tǒng)的干擾最小。
另外,需要注意的是,針對不同的生物特征,數(shù)據(jù)采集的方法和原理是不同的。掌紋識別,是基于人的手掌脈絡(luò)的不同分叉、線條的粗細(xì)等特征為依據(jù)來進(jìn)行最終的識別。筆跡識別則是利用了不同的人在簽名時筆劃的長度、角度、偏移,握筆的力度、書寫時的速度,加速度等特征來進(jìn)行區(qū)分的。
在基于統(tǒng)計方法的模式識別技術(shù)領(lǐng)域,所謂的預(yù)處理一般是指去除噪聲的干擾,加強(qiáng)有效信息的過程。前面已經(jīng)提到,原始數(shù)據(jù)的采集不可避免的要引入一些噪聲的干擾,對于一個實際的生物識別系統(tǒng)而言,預(yù)處理是一個必要的環(huán)節(jié)。但是,需要注意的是,雖說預(yù)處理的作用都是減弱甚至消除噪聲的干擾,同時增強(qiáng)有用信息的強(qiáng)度,不過,針對不同的特征,預(yù)處理的方法也是千差萬別。
一般來說,從傳感器得到的數(shù)據(jù)屬于原始測量空間的數(shù)據(jù),而原始測量空間的數(shù)據(jù)是無法直接進(jìn)行判別分類的,或者說,直接利用原始測量空間得到的數(shù)據(jù)進(jìn)行判別分類往往達(dá)不到期望的效果。通常來說,我們需要將數(shù)據(jù)從原始的測量空間“變換”到二次空間,而這個二次空間,研究人員一般將它稱為特征空間。將數(shù)據(jù)從原始空間變換到特征空間后,我們就得到了表征某模式的二次特征,一般我們所指的特征就是這里所謂的二次特征。
就特征的屬性而言,大體上可分為三類:(1)物理特征,(2)結(jié)構(gòu)特征,(3)數(shù)學(xué)特征。就特征抽取方法而言,其研究的內(nèi)容可分為二類:(1)若對象的屬性是明確的則研究的核心問題是如何將它們與目標(biāo)物體的其它部分分離開來并轉(zhuǎn)化為能為計算機(jī)所接受的數(shù)據(jù),(2)若對象的屬性不很明確,則需研究特征抽取的一般原則。
在模式識別的文獻(xiàn)中,已提出多種準(zhǔn)則函數(shù)供特征抽取時參考和利用,基于Fisher判別準(zhǔn)則的變換是最為重要的一種特征抽取方法。此外,還有基于最小均方誤差的準(zhǔn)則(它對應(yīng)于K一L變換特征抽取),基于瑞利商的準(zhǔn)則,基于最小錯誤概率的準(zhǔn)則等。人們已注意到,特征壓縮的投影方向取決于選擇的準(zhǔn)則,而不同的投影方向?qū)τ谧R別的效果將產(chǎn)生很大影響。
屬于同一類別的各個模式之間的差異,部分是由環(huán)境噪聲和傳感器的性質(zhì)所引起的,部分是模式本身所具有的隨機(jī)性質(zhì)。前者如紙的質(zhì)量、墨水、污點對書寫字符的影響;后者表現(xiàn)為同一 個人書寫同一字符時,雖然形狀相似,但不可能完全一樣。
因此當(dāng)用特征向量來表示這些在形狀上稍有差異的字符時,同這些特征向量對應(yīng)的特征空間中的點便不同一,而是分布在特征空間的某個區(qū)域中。這個區(qū)域就可以用來表示該隨機(jī)向量實現(xiàn)的集合。假使在特征空間中規(guī)定某種距離度量,從直觀上看,兩點之間的距離越小,它們所對應(yīng)的模式就越相似。在理想的情況下,不同類的兩個模式之間的距離要大于同一類的兩個模式之間的距離,同一類的兩點間連接線上各點所對應(yīng)的模式應(yīng)屬于同一類。一個畸變不大的模式所對應(yīng)的點應(yīng)緊鄰沒有畸變時該模式所對應(yīng)的點。在這些條件下,可以準(zhǔn)確地把特征空間劃分為同各個類別相對應(yīng)的區(qū)域。在不滿足上述條件時,可以對每個特征向量估計其屬于某一類的概率,而把有最大概率值的那一類作為該點所屬的類別。
分類器有多種設(shè)計方法,如貝葉斯分類器、樹分類器、線性判別函數(shù)、近鄰法分類、最小距離分類、聚類分析等。
脫機(jī)手寫識別(offline handwriting recognition)是文字識別中最有挑戰(zhàn)性的一個問題。主要原因有二,一是手寫文字(樣本)變化很大,不同的人有不同的字體和風(fēng)格,一些比較潦草的字,常常連人都難以辨認(rèn)。二是脫機(jī)識別的對象是已經(jīng)寫好的字,因此難以像聯(lián)機(jī)識別(onfine recognition)那樣提取出對識別很有幫助的筆順信息。
Bayes分類器模型是統(tǒng)計模式識別的基本模型。該模型基于各候選類的先驗概率密度函數(shù)(PDF)計算輸入樣本屬于各類的概率。因此要利用Bayes分類器進(jìn)行文字識別,就要將各候選字的PDF事先估計出來,存儲在系統(tǒng)之中。由于各字的PDF難以用簡單的概率分布解析描述,因此須用數(shù)值描述。但由于漢字種類很多,存儲所有字
的PDF數(shù)值描述通常需要很大的空間。近年來有學(xué)者提出用分段線性近似的方法描述PDF,只用6個數(shù)據(jù)便能描述一個PDF。從而實現(xiàn)了一個低存儲開銷的基于Beyes分類器的手寫漢字識別系統(tǒng)。
語音識別的主要困難來自于語音的多變性,即人們講話的聲音受性別、年齡、口音、語速、情緒、身體狀況、文化程度、社會地位等眾多因素的影響??朔Z音多變性的手段同樣是特征抽取和分類器建模。但適用于語音識別的方法與文字識別的方法有所不同。在特征抽取方面,人們普遍采用線性預(yù)測倒譜系數(shù)(LPCC)、鎂爾頻率倒譜系數(shù)(MFCC)等方法;在分類器建模方面,早期主要采用動態(tài)時間彎曲(DTW)和矢量量化(VQ)的方法,而目前主要采用HMM。
HMM改變了以往利用觀測語音直接判斷含義(說話人要講的是什么)的方法,而是先計算發(fā)音系統(tǒng)經(jīng)歷了哪個運動(狀態(tài)轉(zhuǎn)移)過程產(chǎn)生的這個語音,然后再來判斷說話人要說什么。這種方法在語音和含義之間搭建了一個橋梁,即發(fā)音系統(tǒng)的運動過程。從而降低了直接由具有多變性的語音判斷含義的困難。
圖像識別是模式識別的一個重要領(lǐng)域,涵蓋目標(biāo)識別、指紋識別、掌紋識別、虹膜識別、人臉識別等多個方向。近年來,隨著生物信息識別技術(shù)在身份認(rèn)證、信息安全以及反恐等領(lǐng)域中重要作用的突顯,圖像識別技術(shù)受到了廣泛的重視。
指紋識別是最成熟的一項生物信息識別技術(shù)。目前,各種類型的指紋識別系統(tǒng)已在公安、海關(guān)、公司門禁、PC機(jī)設(shè)鎖等多種場合得到應(yīng)用,成為展現(xiàn)圖像識別技術(shù)實用價值的標(biāo)志。指紋識別系統(tǒng)既有應(yīng)用于公司、家庭或個人計算機(jī)的嵌入式系統(tǒng)一指紋鎖,也有用于刑偵、護(hù)照通關(guān)、網(wǎng)絡(luò)身份認(rèn)證等領(lǐng)域的大型系統(tǒng)。嵌入式系統(tǒng)存儲的指紋(特征)數(shù)較少(一般在100枚以內(nèi)),可用簡單的算法實現(xiàn)高精度識別,所要解決的主要問題是如何用簡單、小巧、廉價的設(shè)備實現(xiàn)指紋的正確采集和識別。大型系統(tǒng)往往需要儲存上百萬的指紋,因此如何提高指紋的比對速度便成為關(guān)鍵。為了能夠進(jìn)行快速處理,需要對指紋進(jìn)行很好的組織和采用高速算法。 2100433B
一個模式識別系統(tǒng)一般工作在兩個方面:訓(xùn)練和分類;統(tǒng)計模式識別的理論依據(jù)就是貝葉斯理論,當(dāng)然也可采用修正的bayes理論(風(fēng)險估計) ;當(dāng)然bayes理論要求類的分布情況,在已知分布情況下就可直接使用,但一般這種可能性較小,對于只是知道分布函數(shù),但不知道參數(shù)的情況,就是估計參數(shù)的過程,而在更一般情況下,對應(yīng)分布是一點信息沒有,這樣可采用Parzen窗核函數(shù)估計其分布或直接基于訓(xùn)練數(shù)據(jù)建立決策邊界。實際上多層感知器就是一個非參數(shù)的過程。
統(tǒng)計模式的一種分類方法分為指導(dǎo)性訓(xùn)練和非指導(dǎo)性訓(xùn)練;非指導(dǎo)性訓(xùn)練一般對于數(shù)據(jù)的已知信息很少,如遠(yuǎn)程的空間遙感應(yīng)用,這里一般采用聚類的方法。另一種分類方法是基于決策邊界是直接獲得還是間接獲得,前者一般是在幾何空間就可完成。無論采用那種方法,訓(xùn)練集非常關(guān)鍵,主要訓(xùn)練的數(shù)據(jù)量要足夠大而且要足夠典型,這樣才能保證算法的可靠性,訓(xùn)練集的應(yīng)用上注意以下幾點:訓(xùn)練樣本的個數(shù)應(yīng)該在10倍于特性數(shù)據(jù)維數(shù);相對于訓(xùn)練樣本,分類器的未知參數(shù)不能過多;分類器不能出現(xiàn)過度訓(xùn)練的問題。
統(tǒng)計模式識別方法就是用給定的有限數(shù)量樣本集,在已知研究對象統(tǒng)計模型或已知判別函數(shù)類條件下根據(jù)一定的準(zhǔn)則通過學(xué)習(xí)算法把d維特征空間劃分為c個區(qū)域,每一個區(qū)域與每一類別相對應(yīng)。模式識別系統(tǒng)在進(jìn)行工作時只要判斷被識別的對象落入哪一個區(qū)域,就能確定出它所屬的類別。由噪聲和傳感器所引起的變異性,可通過預(yù)處理而部分消除;而模式本身固有的變異性則可通過特征抽取和特征選擇得到控制,盡可能地使模式在該特征空間中的分布滿足上述理想條件。因此一個統(tǒng)計模式識別系統(tǒng)應(yīng)包含預(yù)處理、特征抽取、分類器等部分。
圖像處理 模式識別 智能信息處理 視頻信息處理 信號與系統(tǒng)分析 軟件開發(fā) 數(shù)據(jù)庫 VC++ matlab
純做法模式,需要手動套定額,工程量表模式,可以自動套定額,軟件列出工程量表,可以避免漏項,對初學(xué)者有提示作用,而且程序好。 純做法模式,靈活性好,宜于熟練者使用。
工程量表模式是做清單的,而純做法模式是做定額的,一般有經(jīng)驗的預(yù)算員用的是純做法模式做工程,而初學(xué)者還是用工程量模式比較好的,這樣不會漏項。
Fisher線性判別分析的基本思想:通過尋找一個投影方向(線性變換,線性組合)將高維問題降低到一維問題來解決,并且要求變換后的一維數(shù)據(jù)具有如下性質(zhì):同類樣本盡可能聚集在一起,不同類的樣本盡可能地遠(yuǎn)。
Fisher線性判別分析,就是通過給定的訓(xùn)練數(shù)據(jù),確定投影方向W和閾值y0,即確定線性判別函數(shù),然后根據(jù)這個線性判別函數(shù),對測試數(shù)據(jù)進(jìn)行測試,得到測試數(shù)據(jù)的類別。
將樣本換算到某個空間,最大化組間差異,最小化組內(nèi)差異,隨后將每個組求平均向量,求出組內(nèi)所有向量與其的距離和矩陣X每個組的平均向量之間再平均得到全局平均向量,每個組內(nèi)平均向量與全局平均向量的距離和矩陣Y。最后求這兩和的比例的Y/X最大值。
在向量空間里就是求矩陣的特征向量,投影到這個特征向量后聚合度就明顯了。(對比主向量,主向量是說投影到這個主向量后特征區(qū)分更明顯)
SVM是一種經(jīng)典分類器。支持向量機(jī) (SVM) 是一個類分類器,正式的定義是一個能夠?qū)⒉煌悩颖驹跇颖究臻g分隔的超平面。 換句話說,給定一些標(biāo)記(label)好的訓(xùn)練樣本 (監(jiān)督式學(xué)習(xí)),SVM算法輸出一個最優(yōu)化的分隔超平面。SVM算法的實質(zhì)是找出一個能夠?qū)⒛硞€值最大化的超平面,這個值就是超平面離所有訓(xùn)練樣本的最小距離。這個最小距離用SVM術(shù)語來說叫做間隔(margin)。 概括一下,SVM分類器就是最優(yōu)分割超平面最大化訓(xùn)練數(shù)據(jù)的間隔。
K-Means算法是以距離作為相似度的評價指標(biāo),用樣本點到類別中心的誤差平方和作為聚類好壞的評價指標(biāo),通過迭代的方法使總體分類的誤差平方和函數(shù)達(dá)到最小的聚類方法。
(1) 從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;
(2) 循環(huán)(3)到(4)直到每個聚類不再發(fā)生變化為止
(3) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分;
(4) 重新計算每個(有變化)聚類的均值(中心對象)
在實際的分類中通常使用將多個弱分類器組合成強(qiáng)分類器進(jìn)行分類的方法,統(tǒng)稱為集成分類方法(Ensemble Method)。比較簡單的如在Boosting之前出現(xiàn)Bagging的方法,首先從從整體樣本集合中抽樣采取不同的訓(xùn)練集訓(xùn)練弱分類器,然后使用多個弱分類器進(jìn)行voting,最終的結(jié)果是分類器投票的優(yōu)勝結(jié)果。這種簡單的voting策略通常難以有很好的效果。直到后來的Boosting方法問世,組合弱分類器的威力才被發(fā)揮出來。
Boosting意為加強(qiáng)、提升,也就是說將弱分類器提升為強(qiáng)分類器。而我們常聽到的AdaBoost是Boosting發(fā)展到后來最為代表性的一類。所謂AdaBoost,即Adaptive Boosting,是指弱分類器根據(jù)學(xué)習(xí)的結(jié)果反饋Adaptively調(diào)整假設(shè)的錯誤率,所以也不需要任何的先驗知識就可以自主訓(xùn)練。
所有樣本作為訓(xùn)練集,初始權(quán)重,訓(xùn)練弱分類器分錯的增加權(quán)重,再訓(xùn)練,最終得到的分類器是弱分類器的加權(quán)平均。
格式:pdf
大小:195KB
頁數(shù): 4頁
評分: 4.4
借助建設(shè)主管部門的資料形成數(shù)據(jù)庫,應(yīng)用模糊模式識別的方法對未知的工程造價比較準(zhǔn)確地推測。實例說明這是一種具有實用性、科學(xué)性的推測系統(tǒng)。
成果登記號 |
19860426[01786] |
項目名稱 |
油氣檢測的統(tǒng)計模式識別方法 |
第一完成單位 |
成都地質(zhì)學(xué)院應(yīng)用數(shù)學(xué)系 |
主要完成人 |
何寶侃、湯磊 |
主題詞 |
油氣藏;地層參數(shù);模式識別 |
1.用K-L變換的原理壓縮數(shù)據(jù),提取地層的特征參數(shù);在壓測網(wǎng)上而不是在測和地球物理的多種參數(shù)來建立檢測油氣藏的統(tǒng)計模式識別方法。 2的均值分布,主要是構(gòu)造形態(tài)和地層厚度分布采用加權(quán)最小二乘法擬合常。 3. 試驗表明,主要珍斷參數(shù)是等厚殘差與構(gòu)造殘盞在提高層等特征參數(shù)時,要選好層位或時窗,盡可能突出與油氣有關(guān)的特征。擇參數(shù)與珍斷時,應(yīng)視具體地質(zhì)條件和可能而定,要重視反映油氣藏存在數(shù)。 2100433B
在國際上,各大權(quán)威研究機(jī)構(gòu),各大公司都紛紛開始將模式識別技術(shù)作為公司的戰(zhàn)略研發(fā)重點加以重視。
模式識別從20世紀(jì)20年代發(fā)展,人們的一種普遍看法是不存在對所有模式識別問題都適用的單一模型和解決識別問題的單一技術(shù),我們擁有的只是一個工具袋,所要做的是結(jié)合具體問題把統(tǒng)計的和句法的識別結(jié)合起來,把統(tǒng)計模式識別或句法模式識別與人工智能中的啟發(fā)式搜索結(jié)合起來,把統(tǒng)計模式識別或句法模式識別與支持向量機(jī)的機(jī)器學(xué)習(xí)結(jié)合起來,把人工神經(jīng)元網(wǎng)絡(luò)與各種已有技術(shù)以及人工智能中的專家系統(tǒng)、不確定推理方法結(jié)合起來,深入掌握各種工具的效能和應(yīng)有的可能性,互相取長補(bǔ)短,開創(chuàng)模式識別應(yīng)用的新局面 。