中文名 | 過程挖掘算法評估框架研究 | 依托單位 | 清華大學(xué) |
---|---|---|---|
項目負責人 | 聞立杰 | 項目類別 | 青年科學(xué)基金項目 |
本項目以過程挖掘算法評估框架的研制為核心,圍繞過程數(shù)據(jù)管理系統(tǒng)BeehiveZ,經(jīng)過了三年的研發(fā)工作,圓滿完成預(yù)期任務(wù)。共發(fā)表和錄用論文31篇(其中SCI索引6篇、EI索引29篇),待出版過程挖掘譯著一部,舉辦相關(guān)國際會議2次、國內(nèi)會議3次,累計參與470余人,項目組成員累計出國參加相關(guān)國際學(xué)術(shù)會議15次,并做分組報告13次,累計參加國內(nèi)相關(guān)學(xué)術(shù)會議3次,并做分組報告10次,BeehiveZ從2.0升級到了3.5。項目組具體取得的研究成果如下:(1) 提出了基于結(jié)構(gòu)相似性和行為相似性的過程挖掘算法評估框架,以及基于過程模型特征和主分量分析的重要參考過程模型選擇方法,能夠基于訓(xùn)練得到的回歸模型加速挖掘算法的選取過程,為企業(yè)選擇適合的過程挖掘算法提供了依據(jù);(2) 綜合考慮過程模型的業(yè)務(wù)語義、拓撲結(jié)構(gòu)和行為語義,提出了過程模型過濾——驗證兩階段檢索框架,給出了基于路徑、結(jié)構(gòu)、次序關(guān)系、時序邏輯的過程模型索引方法以及相應(yīng)的精確匹配和相似檢索算法,大大提高了過程模型的檢索效率和精度;(3) 為了高性能的實現(xiàn)海量分布式從原始記錄格式到標準日志格式的轉(zhuǎn)換,提出了事件日志在云平臺上基于MapReduce架構(gòu)的分布式轉(zhuǎn)化算法;提出了一種基于完全有限前綴的完備日志生成算法;提出了一種從包含噪聲的事件日志中檢測錯誤軌跡的方法;提出了一種評估無噪聲事件日志完備性的方法;(4) 申請人正從事將經(jīng)典算法α 與α#相結(jié)合的工作,即從缺失部分事件的日志中挖掘出非自由選擇結(jié)構(gòu),已經(jīng)取得重大的技術(shù)突破,該新挖掘算法將成為第一個可被證明正確性的、高效的、同時支持不可見任務(wù)和非自由選擇結(jié)構(gòu)的挖掘算法;(5) 應(yīng)用圖編輯算法中的貪心算法,設(shè)計相似性算法度量模型之間的結(jié)構(gòu)相似性,提出了五種過程模型存儲方案,并設(shè)計實驗對各方案進行了比較。結(jié)果顯示,結(jié)合用戶需求應(yīng)用不同的存儲方案,可以在響應(yīng)時間和存儲空間上取得較好的平衡;(6) 提出了基于任務(wù)最短跟隨距離矩陣的流程模型行為相似性算法,與現(xiàn)有算法的對比表明,該算法更符合流程模型行為相似性算法應(yīng)該具有的各項性質(zhì);提出了基于任務(wù)間緊鄰關(guān)系的TAR算法的改進算法,克服了TAR在過程開始/結(jié)束位置、不可見任務(wù)、非自由選擇結(jié)構(gòu)和循環(huán)結(jié)構(gòu)處理上的不足;(7) 提出過程感知工作流網(wǎng)的概念,并給出了帶變遷條件的工作流網(wǎng)的合理性驗證方法及過程模型中不可行路徑的檢測算法。 2100433B
過程挖掘旨在從業(yè)務(wù)過程執(zhí)行產(chǎn)生的事件日志中挖掘有價值的客觀信息,這些信息對部署新的業(yè)務(wù)系統(tǒng)(過程建模),或者分析、審計、改進已實施的業(yè)務(wù)系統(tǒng)(變化分析)具有重要的參考價值與現(xiàn)實意義。近年來各種過程挖掘算法發(fā)展非常迅速,但缺乏通用的方法來評估由這些算法發(fā)現(xiàn)的過程模型的質(zhì)量,進而很難對算法的優(yōu)劣進行客觀評價。本項目嘗試建立一個包含三部分內(nèi)容的過程挖掘算法評估框架:(1)提供具有各類典型特征的多組事件日志以及對應(yīng)參考模型作為公共測試集(含過程模型及日志自動生成工具);(2)提供一組常見過程建模語言到Petri網(wǎng)的轉(zhuǎn)換工具;(3)提供一整套針對Petri網(wǎng)的綜合度量工具。本項目的研究將有助于形成過程挖掘算法的基準測試平臺,從而推動過程挖掘技術(shù)的成熟和完善;同時將有助于推廣過程挖掘技術(shù)在企業(yè)中的實際應(yīng)用,降低業(yè)務(wù)過程建模、審計和優(yōu)化的難度,提高業(yè)務(wù)過程管理的效率和效益,進而提高企業(yè)的核心競爭力。
因為你第一跨和第三跨不能的邊的柱子截面的寬度比直錨的長度小,所以就要那樣算了。這是正確的~~~
Ceil(534/100)+1是指柱上端1/6范圍加密,軟件默認取整+1應(yīng)該時7根 Ceil(484/100)+1是指柱下端1/6范圍減去起始50,軟件默認取整+1,應(yīng)該時6根 Ceil(700/10...
箍筋個數(shù)為:(3200/6*2+700)/100+(3200-3200/6*2)/150+1=33個 如果考慮第一個箍筋離地高度為50mm (3200/6-50+3200/6+700)100+(3...
格式:pdf
大?。?span id="dvixz0z" class="single-tag-height">497KB
頁數(shù): 5頁
評分: 4.4
在鋼結(jié)構(gòu)設(shè)計中,框架柱計算長度系數(shù)的求解十分重要。《鋼結(jié)構(gòu)設(shè)計規(guī)范》(GB 50017—2003)附錄D中給出了框架柱計算長度系數(shù)求解公式和表格,然而其公式無法得到解析解,且難以直接使用牛頓迭代法;查表法適合手算,但對于結(jié)構(gòu)設(shè)計軟件來說,步驟繁瑣且在特殊情況下不是十分精確。本文提出基于零值定理的鋼框架柱計算長度系數(shù)求解方法,簡單方便,易于實現(xiàn),十分適合結(jié)構(gòu)設(shè)計軟件使用。數(shù)值試驗表明,該方法適應(yīng)性強、精度較高、步驟簡單。為了進一步證明該方法的可靠性,已將其集成到北京市建筑設(shè)計研究院自主研發(fā)的結(jié)構(gòu)設(shè)計軟件Paco中,并分別采用PKPM和Paco對一個工程實例進行框架柱計算長度系數(shù)的求解,結(jié)果表明,兩個軟件求解結(jié)果十分接近,證明了本文提出的方法對于實際工程的適用性。
格式:pdf
大?。?span id="pn9jwd4" class="single-tag-height">497KB
頁數(shù): 4頁
評分: 4.3
大型公共建筑是開放復(fù)雜系統(tǒng),其風險由可靠性風險、安全性風險和可持續(xù)發(fā)展性風險構(gòu)成。大型公共建筑的風險評估、需要從系統(tǒng)的角度,針對3類風險的不同特性,采用定性與定量結(jié)合的方法,進行系統(tǒng)的風險評估。針對可靠性風險側(cè)重系統(tǒng)的可靠程度評估,安全性風險側(cè)重風險源和系統(tǒng)脆弱性評估,可持續(xù)發(fā)展性風險側(cè)重關(guān)聯(lián)風險事件評估。大型公共建筑風險狀況由3類風險的評估結(jié)果共同確定。
規(guī)則挖掘是數(shù)據(jù)挖掘的一項重要內(nèi)容,傳統(tǒng)的基于粗糙集理論的規(guī)則挖掘方法是先求決策信息系粒計算的核心思想是對待求解的問題進行?;?在多個粒度空間對問題進行分析和求解,進而合成原始問題的解,符合人類從多角度分析問題、求解問題的認知規(guī)律,并受到了研究者的關(guān)注.
本文將屬性約簡和屬性值約簡過程合二為一,以知識粒為單位挖掘規(guī)則.先對決策信息系統(tǒng)分層?;?在不同粒度的知識空間下計算粒關(guān)系矩陣,并從中獲取啟發(fā)式信息根據(jù)啟發(fā)式信息確定信息粒的屬性值約簡順序,在此基礎(chǔ)上去除冗余屬性,并設(shè)定終止條件,實現(xiàn)決策規(guī)則的快速挖掘.理論分析和UCI數(shù)據(jù)集的測試結(jié)果表明,該算法能獲得所有最簡規(guī)則.
對決策信息系統(tǒng)挖掘規(guī)則的傳統(tǒng)方法是先求屬性約簡,再逐行提取規(guī)則,中間包含了很多冗余計算,最后的結(jié)果也取決于屬性約簡結(jié)果的好壞,并且隨著樣本集的增大,算法復(fù)雜性將大大增加.對屬性約簡進行了粒度原理分析并指出,對決策信息系統(tǒng)進行屬性約簡得到的知識劃分空間是極大近似劃分空間,但該知識空間的知識粒并不一定是整個知識空間中最“粗”的粒.本文考慮在不同粒度層次的知識空間中挖掘規(guī)則.為便于算法說明,先給出符號定義.
3.1符號定義
為了不失一般性,假設(shè)決策信息系統(tǒng)有個條件屬性,1個決策屬性.為條件屬性′所含條件屬性的個數(shù),表征系統(tǒng)的粒度,1;為粒度下的所有條件屬性′,這樣的條件屬性有個;為中某一條件屬性對應(yīng)的條件粒矩陣;為決策屬性對應(yīng)的決策粒矩陣;×為粒關(guān)系矩陣.
3.2算法描述
基于粒計算的最簡決策規(guī)則挖掘算法.輸入:決策信息系統(tǒng);輸出:所有最簡決策規(guī)則.
1)生成決策粒矩陣并取粒度=1.
2)對中每一個條件屬性求條件粒矩陣和粒關(guān)系矩陣,計算1、2,保存相應(yīng)數(shù)據(jù)并做以下處理:
①尋找是否存在2=1.若存在,則由性質(zhì)3可知,對應(yīng)信息??梢酝耆珔^(qū)分某一決策類,約簡過程中優(yōu)先考慮,這樣可以保證在區(qū)分能力不變的情況下得到的規(guī)則最少,約簡相應(yīng)的信息粒得到?jīng)Q策規(guī)則,否則轉(zhuǎn)②;
②若不存在2=1,則對1值的大小進行比較,1值越大,對應(yīng)信息粒的區(qū)分能力越大,同樣可以保證在區(qū)分能力不變的情況下得到的規(guī)則最少.根據(jù)1值的大小確定信息粒的約簡順序,通過約簡信息粒得到?jīng)Q策規(guī)則,轉(zhuǎn)③;
算法主要考慮如何提高現(xiàn)有算法的計算效率,包括如何減少冗余計算,如何提高搜索效率,如何減少存儲空間.按照啟發(fā)式信息1、2對信息粒進行約簡,同時去掉冗余屬性,減少了傳統(tǒng)先約簡屬性再約簡屬性值時的冗余計算.在同一粒度空間下進行搜索時使用啟發(fā)式算子對不同知識空間進行選擇和排序,提高了搜索效率.在最壞的情況下需要搜索2次,而在實際情況中,當數(shù)據(jù)本身的冗余性很大時,搜索空間要遠遠小于2,因為在該算法中加入啟發(fā)式信息,同時設(shè)置終止條件,算法收斂更快.本文使用的矩陣是布爾稀疏矩陣。 2100433B
C4.5就是一個決策樹算法,它是決策樹(決策樹也就是做決策的節(jié)點間像一棵樹一樣的組織方式,其實是一個倒樹)核心算法ID3的改進算法,所以基本上了解了一半決策樹構(gòu)造方法就能構(gòu)造它。決策樹構(gòu)造方法其實就是每次選擇一個好的特征以及分裂點作為當前節(jié)點的分類條件。C4.5比ID3改進的地方時:
ID3選擇屬性用的是子樹的信息增益(這里可以用很多方法來定義信息,ID3使用的是熵(entropy)(熵是一種不純度度量準則)),也就是熵的變化值,而C4.5用的是信息增益率。也就是多了個率嘛。一般來說率就是用來取平衡用的,就像方差起的作用差不多,比如有兩個跑步的人,一個起點是100m/s的人、其1s后為110m/s;另一個人起速是1m/s、其1s后為11m/s。如果僅算加速度(單位時間速度增加量)那么兩個就是一樣的了;但如果使用速度增加率(速度增加比例)來衡量,2個人差距就很大了。在這里,其克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。在樹構(gòu)造過程中進行剪枝,我在構(gòu)造決策樹的時候好討厭那些掛著幾個元素的節(jié)點。對于這種節(jié)點,干脆不考慮最好,不然很容易導(dǎo)致overfitting。對非離散數(shù)據(jù)都能處理,這個其實就是一個個式,看對于連續(xù)型的值在哪里分裂好。也就是把連續(xù)性的數(shù)據(jù)轉(zhuǎn)化為離散的值進行處理。能夠?qū)Σ煌暾麛?shù)據(jù)進行處理,這個重要也重要,其實也沒那么重要,缺失數(shù)據(jù)采用一些方法補上去就是了。
CART也是一種決策樹算法!相對于上著有條件實現(xiàn)一個節(jié)點下面有多個子樹的多元分類,CART只是分類兩個子樹,這樣實現(xiàn)起來稍稍簡便些。所以說CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。
這個很簡單,就是看你周圍的K個人(樣本)中哪個類別的人占的多,哪個多,那我就是多的那個。實現(xiàn)起來就是對每個訓(xùn)練樣本都計算與其相似度,是Top-K個訓(xùn)練樣本出來,看這K個樣本中哪個類別的多些,誰多跟誰。
(樸素貝葉斯NB)
NB認為各個特征是獨立的,誰也不關(guān)誰的事。所以一個樣本(特征值的集合,比如"數(shù)據(jù)結(jié)構(gòu)"出現(xiàn)2次,"文件"出現(xiàn)1次),可以通過對其所有出現(xiàn)特征在給定類別的概率相乘。比如"數(shù)據(jù)結(jié)構(gòu)"出現(xiàn)在類1的概率為0.5,"文件"出現(xiàn)在類1的概率為0.3,則可認為其屬于類1的概率為0.5*0.5*0.3。
(支持向量機SVM)
SVM就是想找一個分類得最"好"的分類線/分類面(最近的一些兩類樣本到這個"線"的距離最遠)。這個沒具體實現(xiàn)過,上次聽課,那位老師自稱自己實現(xiàn)了SVM,敬佩其鉆研精神。常用的工具包是LibSVM、SVMLight、MySVM。
這個我認為就是假設(shè)數(shù)據(jù)時由幾個高斯分布組成的,所以最后就是要求幾個高斯分布的參數(shù)。通過先假設(shè)幾個值,然后通過反復(fù)迭代,以期望得到最好的擬合。
這個是做關(guān)聯(lián)規(guī)則用的。不知道為什么,一提高關(guān)聯(lián)規(guī)則我就想到購物籃數(shù)據(jù)。這個沒實現(xiàn)過,不過也還要理解,它就是通過支持度和置信度兩個量來工作,不過對于Apriori,它通過頻繁項集的一些規(guī)律(頻繁項集的子集必定是頻繁項集等等啦)來減少計算復(fù)雜度。
(Mining frequent patterns without candidate generation)
這個也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來存儲查找頻繁項集所需要的全部信息。采用算法:將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵FP-tree來保留項集關(guān)聯(lián)信息,然后將壓縮后的數(shù)據(jù)庫分成一組條件數(shù)據(jù)庫(一種特殊類型的投影數(shù)據(jù)庫),每個條件數(shù)據(jù)庫關(guān)聯(lián)一個頻繁項集。
大名鼎鼎的PageRank大家應(yīng)該都知道(Google靠此專利發(fā)家,其實也不能說發(fā)家啦!)。對于這個算法我的理解就是:如果我指向你(網(wǎng)頁間的連接)則表示我承認你,則在計算你的重要性的時候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承認多少個人)。通過反復(fù)這樣來,可以求的一個穩(wěn)定的衡量各個人(網(wǎng)頁)重要性的值。不過這里必須要做些限制(一個人的開始默認重要性都是1),不然那些值會越來越大越來越大。
HITS也是一個連接分析算法,它是由IBM首先提出的。在HITS,每個節(jié)點(網(wǎng)頁)都有一個重要度和權(quán)威度(Hubs and authorities,我也忘了具體的翻譯是什么了)。通過反復(fù)通過權(quán)威度來求重要度,通過重要度來求權(quán)威度得到最后的權(quán)威度和重要度。
K-Means是一種最經(jīng)典也是使用最廣泛的聚類方法,時至今日扔然有很多基于其的改進模型提出。K-Means的思想很簡單,對于一個聚類任務(wù)(你需要指明聚成幾個類,當然按照自然想法來說不應(yīng)該需要指明類數(shù),這個問題也是當前聚類任務(wù)的一個值得研究的課題),首先隨機選擇K個簇中心,然后反復(fù)計算下面的過程直到所有簇中心不改變(簇集合不改變)為止:步驟1:對于每個對象,計算其與每個簇中心的相似度,把其歸入與其最相似的那個簇中。
步驟2:更新簇中心,新的簇中心通過計算所有屬于該簇的對象的平均值得到。
k-means 算法的工作過程說明如下:首先從n個數(shù)據(jù)對象任意選擇k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù). k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
BIRCH也是一種聚類算法,其全稱是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理論沒具體實現(xiàn)過。是一個綜合的層次聚類特征(Clustering Feature, CF)和聚類特征樹(CF Tree)兩個概念,用于概括聚類描述。聚類特征樹概括了聚類的有用信息,并且占用空間較元數(shù)據(jù)集合小得多,可以存放在內(nèi)存中,從而可以提高算法在大型數(shù)據(jù)集合上的聚類速度及可伸縮性。
BIRCH算法包括以下兩個階段:
1)掃描數(shù)據(jù)庫,建立動態(tài)的一棵存放在內(nèi)存的CF Tree。如果內(nèi)存不夠,則增大閾值,在原樹基礎(chǔ)上構(gòu)造一棵較小的樹。
2)對葉節(jié)點進一步利用一個全局性的聚類算法,改進聚類質(zhì)量。
由于CF Tree的葉節(jié)點代表的聚類可能不是自然的聚類結(jié)果,原因是給定的閾值限制了簇的大小,并且數(shù)據(jù)的輸入順序也會影響到聚類結(jié)果。因此需要對葉節(jié)點進一步利用一個全局性的聚類算法,改進聚類質(zhì)量。
AdaBoost做分類的一般知道,它是一種boosting方法。這個不能說是一種算法,應(yīng)該是一種方法,因為它可以建立在任何一種分類算法上,可以是決策樹,NB,SVM等。
Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù),并將關(guān)鍵放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。
GSP,全稱為Generalized Sequential Pattern(廣義序貫?zāi)J?,是一種序列挖掘算法。對于序列挖掘沒有仔細看過,應(yīng)該是基于關(guān)聯(lián)規(guī)則的吧!網(wǎng)上是這樣說的:
GSP類似于Apriori算法,采用冗余候選模式的剪除策略和特殊的數(shù)據(jù)結(jié)構(gòu)-----哈希樹來實現(xiàn)候選模式的快速訪存。
GSP算法描述:
1)掃描序列數(shù)據(jù)庫,得到長度為1的序列模式L1,作為初始的種子集。
2)根據(jù)長度為i 的種子集Li ,通過連接操作和修剪操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數(shù)據(jù)庫,計算每個候選序列模式的支持度,產(chǎn)生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。
3)重復(fù)第二步,直到?jīng)]有新的序列模式或新的候選序列模式產(chǎn)生為止。
產(chǎn)生候選序列模式主要分兩步:
連接階段:如果去掉序列模式s1的第一個項目與去掉序列模式s2的最后一個項目所得到的序列相同,則可以將s1與s2進行連接,即將s2的最后一個項目添加到s1中。
修切階段:若某候選序列模式的某個子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。
候選序列模式的支持度計算:對于給定的候選序列模式集合C,掃描序列數(shù)據(jù)庫,對于其中的每一條序列s,找出集合C中被s所包含的所有候選序列模式,并增加其支持度計數(shù)。
又是一個類似Apriori的序列挖掘。
其中經(jīng)典十大算法為:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。
數(shù)據(jù)挖掘算法概念描述
算法使用此分析的結(jié)果來定義用于創(chuàng)建挖掘模型的最佳參數(shù)。然后,這些參數(shù)應(yīng)用于整個數(shù)據(jù)集,以便提取可行模式和詳細統(tǒng)計信息。
算法根據(jù)您的數(shù)據(jù)創(chuàng)建的挖掘模型可以采用多種形式,這包括:
說明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。
預(yù)測結(jié)果并描述不同條件是如何影響該結(jié)果的決策樹。
預(yù)測銷量的數(shù)學(xué)模型。
說明在事務(wù)中如何將產(chǎn)品分組到一起的一組規(guī)則,以及一起購買產(chǎn)品的概率。