數(shù)據(jù)的采集是進行統(tǒng)計模式識別驗證的前提條件。一個性能良好的識別系統(tǒng)一定需要首先捕獲到好的特征數(shù)據(jù)。利用這些數(shù)據(jù),我們就可以進行后續(xù)的預處理、特征提取、特征選擇等工作。一般來說,這里的數(shù)據(jù)采集肯定需要借助相應的硬件設備,諸如,聲音傳感器、圖像傳感器等等。如果傳感器的靈敏度不高,或者傳感器的精確度不高,那么勢必會對所采集到的數(shù)據(jù)產(chǎn)生一定的噪聲污染。這樣一來,盡管可以通過后續(xù)的預處理來減弱甚至消除一部分噪聲,但是,終究無法做到完全去除噪聲的干擾。所以,數(shù)據(jù)采集部分應該盡量保證所得到的數(shù)據(jù)純正、干凈。通常我們可以采集相當數(shù)量的數(shù)據(jù),并從中選擇最優(yōu)、最好、最具有代表性的數(shù)據(jù)來作為原始的輸入。這樣,就從源頭上保證了數(shù)據(jù)取樣對最終生物識別驗證系統(tǒng)的干擾最小。
另外,需要注意的是,針對不同的生物特征,數(shù)據(jù)采集的方法和原理是不同的。掌紋識別,是基于人的手掌脈絡的不同分叉、線條的粗細等特征為依據(jù)來進行最終的識別。筆跡識別則是利用了不同的人在簽名時筆劃的長度、角度、偏移,握筆的力度、書寫時的速度,加速度等特征來進行區(qū)分的。
在基于統(tǒng)計方法的模式識別技術領域,所謂的預處理一般是指去除噪聲的干擾,加強有效信息的過程。前面已經(jīng)提到,原始數(shù)據(jù)的采集不可避免的要引入一些噪聲的干擾,對于一個實際的生物識別系統(tǒng)而言,預處理是一個必要的環(huán)節(jié)。但是,需要注意的是,雖說預處理的作用都是減弱甚至消除噪聲的干擾,同時增強有用信息的強度,不過,針對不同的特征,預處理的方法也是千差萬別。
一般來說,從傳感器得到的數(shù)據(jù)屬于原始測量空間的數(shù)據(jù),而原始測量空間的數(shù)據(jù)是無法直接進行判別分類的,或者說,直接利用原始測量空間得到的數(shù)據(jù)進行判別分類往往達不到期望的效果。通常來說,我們需要將數(shù)據(jù)從原始的測量空間“變換”到二次空間,而這個二次空間,研究人員一般將它稱為特征空間。將數(shù)據(jù)從原始空間變換到特征空間后,我們就得到了表征某模式的二次特征,一般我們所指的特征就是這里所謂的二次特征。
就特征的屬性而言,大體上可分為三類:(1)物理特征,(2)結構特征,(3)數(shù)學特征。就特征抽取方法而言,其研究的內(nèi)容可分為二類:(1)若對象的屬性是明確的則研究的核心問題是如何將它們與目標物體的其它部分分離開來并轉(zhuǎn)化為能為計算機所接受的數(shù)據(jù),(2)若對象的屬性不很明確,則需研究特征抽取的一般原則。
在模式識別的文獻中,已提出多種準則函數(shù)供特征抽取時參考和利用,基于Fisher判別準則的變換是最為重要的一種特征抽取方法。此外,還有基于最小均方誤差的準則(它對應于K一L變換特征抽取),基于瑞利商的準則,基于最小錯誤概率的準則等。人們已注意到,特征壓縮的投影方向取決于選擇的準則,而不同的投影方向?qū)τ谧R別的效果將產(chǎn)生很大影響。
屬于同一類別的各個模式之間的差異,部分是由環(huán)境噪聲和傳感器的性質(zhì)所引起的,部分是模式本身所具有的隨機性質(zhì)。前者如紙的質(zhì)量、墨水、污點對書寫字符的影響;后者表現(xiàn)為同一 個人書寫同一字符時,雖然形狀相似,但不可能完全一樣。
因此當用特征向量來表示這些在形狀上稍有差異的字符時,同這些特征向量對應的特征空間中的點便不同一,而是分布在特征空間的某個區(qū)域中。這個區(qū)域就可以用來表示該隨機向量實現(xiàn)的集合。假使在特征空間中規(guī)定某種距離度量,從直觀上看,兩點之間的距離越小,它們所對應的模式就越相似。在理想的情況下,不同類的兩個模式之間的距離要大于同一類的兩個模式之間的距離,同一類的兩點間連接線上各點所對應的模式應屬于同一類。一個畸變不大的模式所對應的點應緊鄰沒有畸變時該模式所對應的點。在這些條件下,可以準確地把特征空間劃分為同各個類別相對應的區(qū)域。在不滿足上述條件時,可以對每個特征向量估計其屬于某一類的概率,而把有最大概率值的那一類作為該點所屬的類別。
分類器有多種設計方法,如貝葉斯分類器、樹分類器、線性判別函數(shù)、近鄰法分類、最小距離分類、聚類分析等。
一個模式識別系統(tǒng)一般工作在兩個方面:訓練和分類;統(tǒng)計模式識別的理論依據(jù)就是貝葉斯理論,當然也可采用修正的bayes理論(風險估計) ;當然bayes理論要求類的分布情況,在已知分布情況下就可直接使用,但一般這種可能性較小,對于只是知道分布函數(shù),但不知道參數(shù)的情況,就是估計參數(shù)的過程,而在更一般情況下,對應分布是一點信息沒有,這樣可采用Parzen窗核函數(shù)估計其分布或直接基于訓練數(shù)據(jù)建立決策邊界。實際上多層感知器就是一個非參數(shù)的過程。
統(tǒng)計模式的一種分類方法分為指導性訓練和非指導性訓練;非指導性訓練一般對于數(shù)據(jù)的已知信息很少,如遠程的空間遙感應用,這里一般采用聚類的方法。另一種分類方法是基于決策邊界是直接獲得還是間接獲得,前者一般是在幾何空間就可完成。無論采用那種方法,訓練集非常關鍵,主要訓練的數(shù)據(jù)量要足夠大而且要足夠典型,這樣才能保證算法的可靠性,訓練集的應用上注意以下幾點:訓練樣本的個數(shù)應該在10倍于特性數(shù)據(jù)維數(shù);相對于訓練樣本,分類器的未知參數(shù)不能過多;分類器不能出現(xiàn)過度訓練的問題。
統(tǒng)計模式識別方法就是用給定的有限數(shù)量樣本集,在已知研究對象統(tǒng)計模型或已知判別函數(shù)類條件下根據(jù)一定的準則通過學習算法把d維特征空間劃分為c個區(qū)域,每一個區(qū)域與每一類別相對應。模式識別系統(tǒng)在進行工作時只要判斷被識別的對象落入哪一個區(qū)域,就能確定出它所屬的類別。由噪聲和傳感器所引起的變異性,可通過預處理而部分消除;而模式本身固有的變異性則可通過特征抽取和特征選擇得到控制,盡可能地使模式在該特征空間中的分布滿足上述理想條件。因此一個統(tǒng)計模式識別系統(tǒng)應包含預處理、特征抽取、分類器等部分。
Fisher線性判別分析的基本思想:通過尋找一個投影方向(線性變換,線性組合)將高維問題降低到一維問題來解決,并且要求變換后的一維數(shù)據(jù)具有如下性質(zhì):同類樣本盡可能聚集在一起,不同類的樣本盡可能地遠。
Fisher線性判別分析,就是通過給定的訓練數(shù)據(jù),確定投影方向W和閾值y0,即確定線性判別函數(shù),然后根據(jù)這個線性判別函數(shù),對測試數(shù)據(jù)進行測試,得到測試數(shù)據(jù)的類別。
將樣本換算到某個空間,最大化組間差異,最小化組內(nèi)差異,隨后將每個組求平均向量,求出組內(nèi)所有向量與其的距離和矩陣X每個組的平均向量之間再平均得到全局平均向量,每個組內(nèi)平均向量與全局平均向量的距離和矩陣Y。最后求這兩和的比例的Y/X最大值。
在向量空間里就是求矩陣的特征向量,投影到這個特征向量后聚合度就明顯了。(對比主向量,主向量是說投影到這個主向量后特征區(qū)分更明顯)
SVM是一種經(jīng)典分類器。支持向量機 (SVM) 是一個類分類器,正式的定義是一個能夠?qū)⒉煌悩颖驹跇颖究臻g分隔的超平面。 換句話說,給定一些標記(label)好的訓練樣本 (監(jiān)督式學習),SVM算法輸出一個最優(yōu)化的分隔超平面。SVM算法的實質(zhì)是找出一個能夠?qū)⒛硞€值最大化的超平面,這個值就是超平面離所有訓練樣本的最小距離。這個最小距離用SVM術語來說叫做間隔(margin)。 概括一下,SVM分類器就是最優(yōu)分割超平面最大化訓練數(shù)據(jù)的間隔。
K-Means算法是以距離作為相似度的評價指標,用樣本點到類別中心的誤差平方和作為聚類好壞的評價指標,通過迭代的方法使總體分類的誤差平方和函數(shù)達到最小的聚類方法。
(1) 從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;
(2) 循環(huán)(3)到(4)直到每個聚類不再發(fā)生變化為止
(3) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應對象進行劃分;
(4) 重新計算每個(有變化)聚類的均值(中心對象)
在實際的分類中通常使用將多個弱分類器組合成強分類器進行分類的方法,統(tǒng)稱為集成分類方法(Ensemble Method)。比較簡單的如在Boosting之前出現(xiàn)Bagging的方法,首先從從整體樣本集合中抽樣采取不同的訓練集訓練弱分類器,然后使用多個弱分類器進行voting,最終的結果是分類器投票的優(yōu)勝結果。這種簡單的voting策略通常難以有很好的效果。直到后來的Boosting方法問世,組合弱分類器的威力才被發(fā)揮出來。
Boosting意為加強、提升,也就是說將弱分類器提升為強分類器。而我們常聽到的AdaBoost是Boosting發(fā)展到后來最為代表性的一類。所謂AdaBoost,即Adaptive Boosting,是指弱分類器根據(jù)學習的結果反饋Adaptively調(diào)整假設的錯誤率,所以也不需要任何的先驗知識就可以自主訓練。
所有樣本作為訓練集,初始權重,訓練弱分類器分錯的增加權重,再訓練,最終得到的分類器是弱分類器的加權平均。
一般情況下,裝修工程的施工順序是:建筑結構改造→水電布線→防水工程→瓷磚鋪裝→木工制作→木質(zhì)油漆→墻面涂飾→地板鋪裝→水電安裝→設備安裝→污染治理→衛(wèi)生清潔→吉日入住。家居裝修中各工種進場施工順序是:...
全程介入,動態(tài)控制?! ≡陬A算、招標、合同、采購、施工、撥款、變更、核算、驗收、結算、決算等環(huán)節(jié)設點把關,及時出具審計意見,最終形成審計報告。
步驟:工程方案擬定;壩址及壩型的選擇;壩址的選擇 .;壩型的選擇;壩工設計;滲流計算 ;.土石壩壩坡穩(wěn)定分析計算 ;地基處及裂縫處理;護坡設計 。
脫機手寫識別(offline handwriting recognition)是文字識別中最有挑戰(zhàn)性的一個問題。主要原因有二,一是手寫文字(樣本)變化很大,不同的人有不同的字體和風格,一些比較潦草的字,常常連人都難以辨認。二是脫機識別的對象是已經(jīng)寫好的字,因此難以像聯(lián)機識別(onfine recognition)那樣提取出對識別很有幫助的筆順信息。
Bayes分類器模型是統(tǒng)計模式識別的基本模型。該模型基于各候選類的先驗概率密度函數(shù)(PDF)計算輸入樣本屬于各類的概率。因此要利用Bayes分類器進行文字識別,就要將各候選字的PDF事先估計出來,存儲在系統(tǒng)之中。由于各字的PDF難以用簡單的概率分布解析描述,因此須用數(shù)值描述。但由于漢字種類很多,存儲所有字
的PDF數(shù)值描述通常需要很大的空間。近年來有學者提出用分段線性近似的方法描述PDF,只用6個數(shù)據(jù)便能描述一個PDF。從而實現(xiàn)了一個低存儲開銷的基于Beyes分類器的手寫漢字識別系統(tǒng)。
語音識別的主要困難來自于語音的多變性,即人們講話的聲音受性別、年齡、口音、語速、情緒、身體狀況、文化程度、社會地位等眾多因素的影響。克服語音多變性的手段同樣是特征抽取和分類器建模。但適用于語音識別的方法與文字識別的方法有所不同。在特征抽取方面,人們普遍采用線性預測倒譜系數(shù)(LPCC)、鎂爾頻率倒譜系數(shù)(MFCC)等方法;在分類器建模方面,早期主要采用動態(tài)時間彎曲(DTW)和矢量量化(VQ)的方法,而目前主要采用HMM。
HMM改變了以往利用觀測語音直接判斷含義(說話人要講的是什么)的方法,而是先計算發(fā)音系統(tǒng)經(jīng)歷了哪個運動(狀態(tài)轉(zhuǎn)移)過程產(chǎn)生的這個語音,然后再來判斷說話人要說什么。這種方法在語音和含義之間搭建了一個橋梁,即發(fā)音系統(tǒng)的運動過程。從而降低了直接由具有多變性的語音判斷含義的困難。
圖像識別是模式識別的一個重要領域,涵蓋目標識別、指紋識別、掌紋識別、虹膜識別、人臉識別等多個方向。近年來,隨著生物信息識別技術在身份認證、信息安全以及反恐等領域中重要作用的突顯,圖像識別技術受到了廣泛的重視。
指紋識別是最成熟的一項生物信息識別技術。目前,各種類型的指紋識別系統(tǒng)已在公安、海關、公司門禁、PC機設鎖等多種場合得到應用,成為展現(xiàn)圖像識別技術實用價值的標志。指紋識別系統(tǒng)既有應用于公司、家庭或個人計算機的嵌入式系統(tǒng)一指紋鎖,也有用于刑偵、護照通關、網(wǎng)絡身份認證等領域的大型系統(tǒng)。嵌入式系統(tǒng)存儲的指紋(特征)數(shù)較少(一般在100枚以內(nèi)),可用簡單的算法實現(xiàn)高精度識別,所要解決的主要問題是如何用簡單、小巧、廉價的設備實現(xiàn)指紋的正確采集和識別。大型系統(tǒng)往往需要儲存上百萬的指紋,因此如何提高指紋的比對速度便成為關鍵。為了能夠進行快速處理,需要對指紋進行很好的組織和采用高速算法。 2100433B
格式:pdf
大?。?span id="u2zgeyj" class="single-tag-height">195KB
頁數(shù): 4頁
評分: 4.4
借助建設主管部門的資料形成數(shù)據(jù)庫,應用模糊模式識別的方法對未知的工程造價比較準確地推測。實例說明這是一種具有實用性、科學性的推測系統(tǒng)。
成果登記號 |
19860426[01786] |
項目名稱 |
油氣檢測的統(tǒng)計模式識別方法 |
第一完成單位 |
成都地質(zhì)學院應用數(shù)學系 |
主要完成人 |
何寶侃、湯磊 |
主題詞 |
油氣藏;地層參數(shù);模式識別 |
1.用K-L變換的原理壓縮數(shù)據(jù),提取地層的特征參數(shù);在壓測網(wǎng)上而不是在測和地球物理的多種參數(shù)來建立檢測油氣藏的統(tǒng)計模式識別方法。 2的均值分布,主要是構造形態(tài)和地層厚度分布采用加權最小二乘法擬合常。 3. 試驗表明,主要珍斷參數(shù)是等厚殘差與構造殘盞在提高層等特征參數(shù)時,要選好層位或時窗,盡可能突出與油氣有關的特征。擇參數(shù)與珍斷時,應視具體地質(zhì)條件和可能而定,要重視反映油氣藏存在數(shù)。 2100433B
在國際上,各大權威研究機構,各大公司都紛紛開始將模式識別技術作為公司的戰(zhàn)略研發(fā)重點加以重視。
模式識別從20世紀20年代發(fā)展,人們的一種普遍看法是不存在對所有模式識別問題都適用的單一模型和解決識別問題的單一技術,我們擁有的只是一個工具袋,所要做的是結合具體問題把統(tǒng)計的和句法的識別結合起來,把統(tǒng)計模式識別或句法模式識別與人工智能中的啟發(fā)式搜索結合起來,把統(tǒng)計模式識別或句法模式識別與支持向量機的機器學習結合起來,把人工神經(jīng)元網(wǎng)絡與各種已有技術以及人工智能中的專家系統(tǒng)、不確定推理方法結合起來,深入掌握各種工具的效能和應有的可能性,互相取長補短,開創(chuàng)模式識別應用的新局面 。