中文名 | 統(tǒng)計模式識別 | 外文名 | statistical approach of pattern recognition |
---|---|---|---|
類????屬 | 模式識別 | 學????科 | 計算機科學、交叉學科 |
過????程 | 特征提取、分類器分類 |
數據的采集是進行統(tǒng)計模式識別驗證的前提條件。一個性能良好的識別系統(tǒng)一定需要首先捕獲到好的特征數據。利用這些數據,我們就可以進行后續(xù)的預處理、特征提取、特征選擇等工作。一般來說,這里的數據采集肯定需要借助相應的硬件設備,諸如,聲音傳感器、圖像傳感器等等。如果傳感器的靈敏度不高,或者傳感器的精確度不高,那么勢必會對所采集到的數據產生一定的噪聲污染。這樣一來,盡管可以通過后續(xù)的預處理來減弱甚至消除一部分噪聲,但是,終究無法做到完全去除噪聲的干擾。所以,數據采集部分應該盡量保證所得到的數據純正、干凈。通常我們可以采集相當數量的數據,并從中選擇最優(yōu)、最好、最具有代表性的數據來作為原始的輸入。這樣,就從源頭上保證了數據取樣對最終生物識別驗證系統(tǒng)的干擾最小。
另外,需要注意的是,針對不同的生物特征,數據采集的方法和原理是不同的。掌紋識別,是基于人的手掌脈絡的不同分叉、線條的粗細等特征為依據來進行最終的識別。筆跡識別則是利用了不同的人在簽名時筆劃的長度、角度、偏移,握筆的力度、書寫時的速度,加速度等特征來進行區(qū)分的。
在基于統(tǒng)計方法的模式識別技術領域,所謂的預處理一般是指去除噪聲的干擾,加強有效信息的過程。前面已經提到,原始數據的采集不可避免的要引入一些噪聲的干擾,對于一個實際的生物識別系統(tǒng)而言,預處理是一個必要的環(huán)節(jié)。但是,需要注意的是,雖說預處理的作用都是減弱甚至消除噪聲的干擾,同時增強有用信息的強度,不過,針對不同的特征,預處理的方法也是千差萬別。
一般來說,從傳感器得到的數據屬于原始測量空間的數據,而原始測量空間的數據是無法直接進行判別分類的,或者說,直接利用原始測量空間得到的數據進行判別分類往往達不到期望的效果。通常來說,我們需要將數據從原始的測量空間“變換”到二次空間,而這個二次空間,研究人員一般將它稱為特征空間。將數據從原始空間變換到特征空間后,我們就得到了表征某模式的二次特征,一般我們所指的特征就是這里所謂的二次特征。
就特征的屬性而言,大體上可分為三類:(1)物理特征,(2)結構特征,(3)數學特征。就特征抽取方法而言,其研究的內容可分為二類:(1)若對象的屬性是明確的則研究的核心問題是如何將它們與目標物體的其它部分分離開來并轉化為能為計算機所接受的數據,(2)若對象的屬性不很明確,則需研究特征抽取的一般原則。
在模式識別的文獻中,已提出多種準則函數供特征抽取時參考和利用,基于Fisher判別準則的變換是最為重要的一種特征抽取方法。此外,還有基于最小均方誤差的準則(它對應于K一L變換特征抽取),基于瑞利商的準則,基于最小錯誤概率的準則等。人們已注意到,特征壓縮的投影方向取決于選擇的準則,而不同的投影方向對于識別的效果將產生很大影響。
屬于同一類別的各個模式之間的差異,部分是由環(huán)境噪聲和傳感器的性質所引起的,部分是模式本身所具有的隨機性質。前者如紙的質量、墨水、污點對書寫字符的影響;后者表現為同一 個人書寫同一字符時,雖然形狀相似,但不可能完全一樣。
因此當用特征向量來表示這些在形狀上稍有差異的字符時,同這些特征向量對應的特征空間中的點便不同一,而是分布在特征空間的某個區(qū)域中。這個區(qū)域就可以用來表示該隨機向量實現的集合。假使在特征空間中規(guī)定某種距離度量,從直觀上看,兩點之間的距離越小,它們所對應的模式就越相似。在理想的情況下,不同類的兩個模式之間的距離要大于同一類的兩個模式之間的距離,同一類的兩點間連接線上各點所對應的模式應屬于同一類。一個畸變不大的模式所對應的點應緊鄰沒有畸變時該模式所對應的點。在這些條件下,可以準確地把特征空間劃分為同各個類別相對應的區(qū)域。在不滿足上述條件時,可以對每個特征向量估計其屬于某一類的概率,而把有最大概率值的那一類作為該點所屬的類別。
分類器有多種設計方法,如貝葉斯分類器、樹分類器、線性判別函數、近鄰法分類、最小距離分類、聚類分析等。
脫機手寫識別(offline handwriting recognition)是文字識別中最有挑戰(zhàn)性的一個問題。主要原因有二,一是手寫文字(樣本)變化很大,不同的人有不同的字體和風格,一些比較潦草的字,常常連人都難以辨認。二是脫機識別的對象是已經寫好的字,因此難以像聯機識別(onfine recognition)那樣提取出對識別很有幫助的筆順信息。
Bayes分類器模型是統(tǒng)計模式識別的基本模型。該模型基于各候選類的先驗概率密度函數(PDF)計算輸入樣本屬于各類的概率。因此要利用Bayes分類器進行文字識別,就要將各候選字的PDF事先估計出來,存儲在系統(tǒng)之中。由于各字的PDF難以用簡單的概率分布解析描述,因此須用數值描述。但由于漢字種類很多,存儲所有字
的PDF數值描述通常需要很大的空間。近年來有學者提出用分段線性近似的方法描述PDF,只用6個數據便能描述一個PDF。從而實現了一個低存儲開銷的基于Beyes分類器的手寫漢字識別系統(tǒng)。
語音識別的主要困難來自于語音的多變性,即人們講話的聲音受性別、年齡、口音、語速、情緒、身體狀況、文化程度、社會地位等眾多因素的影響??朔Z音多變性的手段同樣是特征抽取和分類器建模。但適用于語音識別的方法與文字識別的方法有所不同。在特征抽取方面,人們普遍采用線性預測倒譜系數(LPCC)、鎂爾頻率倒譜系數(MFCC)等方法;在分類器建模方面,早期主要采用動態(tài)時間彎曲(DTW)和矢量量化(VQ)的方法,而目前主要采用HMM。
HMM改變了以往利用觀測語音直接判斷含義(說話人要講的是什么)的方法,而是先計算發(fā)音系統(tǒng)經歷了哪個運動(狀態(tài)轉移)過程產生的這個語音,然后再來判斷說話人要說什么。這種方法在語音和含義之間搭建了一個橋梁,即發(fā)音系統(tǒng)的運動過程。從而降低了直接由具有多變性的語音判斷含義的困難。
圖像識別是模式識別的一個重要領域,涵蓋目標識別、指紋識別、掌紋識別、虹膜識別、人臉識別等多個方向。近年來,隨著生物信息識別技術在身份認證、信息安全以及反恐等領域中重要作用的突顯,圖像識別技術受到了廣泛的重視。
指紋識別是最成熟的一項生物信息識別技術。目前,各種類型的指紋識別系統(tǒng)已在公安、海關、公司門禁、PC機設鎖等多種場合得到應用,成為展現圖像識別技術實用價值的標志。指紋識別系統(tǒng)既有應用于公司、家庭或個人計算機的嵌入式系統(tǒng)一指紋鎖,也有用于刑偵、護照通關、網絡身份認證等領域的大型系統(tǒng)。嵌入式系統(tǒng)存儲的指紋(特征)數較少(一般在100枚以內),可用簡單的算法實現高精度識別,所要解決的主要問題是如何用簡單、小巧、廉價的設備實現指紋的正確采集和識別。大型系統(tǒng)往往需要儲存上百萬的指紋,因此如何提高指紋的比對速度便成為關鍵。為了能夠進行快速處理,需要對指紋進行很好的組織和采用高速算法。 2100433B
一個模式識別系統(tǒng)一般工作在兩個方面:訓練和分類;統(tǒng)計模式識別的理論依據就是貝葉斯理論,當然也可采用修正的bayes理論(風險估計) ;當然bayes理論要求類的分布情況,在已知分布情況下就可直接使用,但一般這種可能性較小,對于只是知道分布函數,但不知道參數的情況,就是估計參數的過程,而在更一般情況下,對應分布是一點信息沒有,這樣可采用Parzen窗核函數估計其分布或直接基于訓練數據建立決策邊界。實際上多層感知器就是一個非參數的過程。
統(tǒng)計模式的一種分類方法分為指導性訓練和非指導性訓練;非指導性訓練一般對于數據的已知信息很少,如遠程的空間遙感應用,這里一般采用聚類的方法。另一種分類方法是基于決策邊界是直接獲得還是間接獲得,前者一般是在幾何空間就可完成。無論采用那種方法,訓練集非常關鍵,主要訓練的數據量要足夠大而且要足夠典型,這樣才能保證算法的可靠性,訓練集的應用上注意以下幾點:訓練樣本的個數應該在10倍于特性數據維數;相對于訓練樣本,分類器的未知參數不能過多;分類器不能出現過度訓練的問題。
統(tǒng)計模式識別方法就是用給定的有限數量樣本集,在已知研究對象統(tǒng)計模型或已知判別函數類條件下根據一定的準則通過學習算法把d維特征空間劃分為c個區(qū)域,每一個區(qū)域與每一類別相對應。模式識別系統(tǒng)在進行工作時只要判斷被識別的對象落入哪一個區(qū)域,就能確定出它所屬的類別。由噪聲和傳感器所引起的變異性,可通過預處理而部分消除;而模式本身固有的變異性則可通過特征抽取和特征選擇得到控制,盡可能地使模式在該特征空間中的分布滿足上述理想條件。因此一個統(tǒng)計模式識別系統(tǒng)應包含預處理、特征抽取、分類器等部分。
圖像處理 模式識別 智能信息處理 視頻信息處理 信號與系統(tǒng)分析 軟件開發(fā) 數據庫 VC++ matlab
純做法模式,需要手動套定額,工程量表模式,可以自動套定額,軟件列出工程量表,可以避免漏項,對初學者有提示作用,而且程序好。 純做法模式,靈活性好,宜于熟練者使用。
工程量表模式是做清單的,而純做法模式是做定額的,一般有經驗的預算員用的是純做法模式做工程,而初學者還是用工程量模式比較好的,這樣不會漏項。
Fisher線性判別分析的基本思想:通過尋找一個投影方向(線性變換,線性組合)將高維問題降低到一維問題來解決,并且要求變換后的一維數據具有如下性質:同類樣本盡可能聚集在一起,不同類的樣本盡可能地遠。
Fisher線性判別分析,就是通過給定的訓練數據,確定投影方向W和閾值y0,即確定線性判別函數,然后根據這個線性判別函數,對測試數據進行測試,得到測試數據的類別。
將樣本換算到某個空間,最大化組間差異,最小化組內差異,隨后將每個組求平均向量,求出組內所有向量與其的距離和矩陣X每個組的平均向量之間再平均得到全局平均向量,每個組內平均向量與全局平均向量的距離和矩陣Y。最后求這兩和的比例的Y/X最大值。
在向量空間里就是求矩陣的特征向量,投影到這個特征向量后聚合度就明顯了。(對比主向量,主向量是說投影到這個主向量后特征區(qū)分更明顯)
SVM是一種經典分類器。支持向量機 (SVM) 是一個類分類器,正式的定義是一個能夠將不同類樣本在樣本空間分隔的超平面。 換句話說,給定一些標記(label)好的訓練樣本 (監(jiān)督式學習),SVM算法輸出一個最優(yōu)化的分隔超平面。SVM算法的實質是找出一個能夠將某個值最大化的超平面,這個值就是超平面離所有訓練樣本的最小距離。這個最小距離用SVM術語來說叫做間隔(margin)。 概括一下,SVM分類器就是最優(yōu)分割超平面最大化訓練數據的間隔。
K-Means算法是以距離作為相似度的評價指標,用樣本點到類別中心的誤差平方和作為聚類好壞的評價指標,通過迭代的方法使總體分類的誤差平方和函數達到最小的聚類方法。
(1) 從 n個數據對象任意選擇 k 個對象作為初始聚類中心;
(2) 循環(huán)(3)到(4)直到每個聚類不再發(fā)生變化為止
(3) 根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分;
(4) 重新計算每個(有變化)聚類的均值(中心對象)
在實際的分類中通常使用將多個弱分類器組合成強分類器進行分類的方法,統(tǒng)稱為集成分類方法(Ensemble Method)。比較簡單的如在Boosting之前出現Bagging的方法,首先從從整體樣本集合中抽樣采取不同的訓練集訓練弱分類器,然后使用多個弱分類器進行voting,最終的結果是分類器投票的優(yōu)勝結果。這種簡單的voting策略通常難以有很好的效果。直到后來的Boosting方法問世,組合弱分類器的威力才被發(fā)揮出來。
Boosting意為加強、提升,也就是說將弱分類器提升為強分類器。而我們常聽到的AdaBoost是Boosting發(fā)展到后來最為代表性的一類。所謂AdaBoost,即Adaptive Boosting,是指弱分類器根據學習的結果反饋Adaptively調整假設的錯誤率,所以也不需要任何的先驗知識就可以自主訓練。
所有樣本作為訓練集,初始權重,訓練弱分類器分錯的增加權重,再訓練,最終得到的分類器是弱分類器的加權平均。
格式:pdf
大?。?span id="my8cami" class="single-tag-height">195KB
頁數: 4頁
評分: 4.4
借助建設主管部門的資料形成數據庫,應用模糊模式識別的方法對未知的工程造價比較準確地推測。實例說明這是一種具有實用性、科學性的推測系統(tǒng)。
成果登記號 |
19860426[01786] |
項目名稱 |
油氣檢測的統(tǒng)計模式識別方法 |
第一完成單位 |
成都地質學院應用數學系 |
主要完成人 |
何寶侃、湯磊 |
主題詞 |
油氣藏;地層參數;模式識別 |
1.用K-L變換的原理壓縮數據,提取地層的特征參數;在壓測網上而不是在測和地球物理的多種參數來建立檢測油氣藏的統(tǒng)計模式識別方法。 2的均值分布,主要是構造形態(tài)和地層厚度分布采用加權最小二乘法擬合常。 3. 試驗表明,主要珍斷參數是等厚殘差與構造殘盞在提高層等特征參數時,要選好層位或時窗,盡可能突出與油氣有關的特征。擇參數與珍斷時,應視具體地質條件和可能而定,要重視反映油氣藏存在數。 2100433B
在國際上,各大權威研究機構,各大公司都紛紛開始將模式識別技術作為公司的戰(zhàn)略研發(fā)重點加以重視。
模式識別從20世紀20年代發(fā)展,人們的一種普遍看法是不存在對所有模式識別問題都適用的單一模型和解決識別問題的單一技術,我們擁有的只是一個工具袋,所要做的是結合具體問題把統(tǒng)計的和句法的識別結合起來,把統(tǒng)計模式識別或句法模式識別與人工智能中的啟發(fā)式搜索結合起來,把統(tǒng)計模式識別或句法模式識別與支持向量機的機器學習結合起來,把人工神經元網絡與各種已有技術以及人工智能中的專家系統(tǒng)、不確定推理方法結合起來,深入掌握各種工具的效能和應有的可能性,互相取長補短,開創(chuàng)模式識別應用的新局面 。