前言:本站為你精心整理了連接算法應(yīng)用煤礦安全論文范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1.1連接算法在大數(shù)據(jù)分析應(yīng)用中,連接是必不可少的一項操作。連接算法通常用于合并2個或多個數(shù)據(jù)集信息,而連接條件是基于這些數(shù)據(jù)集共同的一些屬性信息。以2個表連接為例,設(shè)現(xiàn)有數(shù)據(jù)表為R(a,b),S(b,c),表R與表S的關(guān)聯(lián)屬性為b,對表R和表S做連接操作,根據(jù)條件R.b=S.b,即可找出2個表中滿足條件的元組,達(dá)到合并2個表的目的。
1.2Bloom過濾器Bloom過濾器是一種空間效率很高的隨機(jī)數(shù)據(jù)結(jié)構(gòu),它主要應(yīng)用于判斷一個元素是否屬于某個集合。Bloom過濾器是一個包含m位的bitArray,其初始值均為0,它利用k個相互獨(dú)立的哈希函數(shù)將集合元素映射到{1,2,…,m}范圍內(nèi)的k個位置上,其對應(yīng)位置被置為1。在判斷某個元素是否屬于集合時,將該元素進(jìn)行同樣的k次哈希運(yùn)算,若其對應(yīng)值不全為1,則該元素不是集合中元素;若其對應(yīng)值全部為1,則認(rèn)為該元素為集合中元素。但Bloom過濾器存在一定的誤判率,如圖1所示,X1顯然不是集合中元素,而X2可能是結(jié)合中元素,也可能恰好為一個誤判元素。
1.3基于Bloom過濾器的星型連接算法星型連接是一種典型的多路連接,它是將一個事實表同多個維度表進(jìn)行連接的操作。基本的星型連接是將事實表與每個維度表分別進(jìn)行連接操作,再把所有產(chǎn)生的中間結(jié)果進(jìn)行合并得到最終結(jié)果。大量中間結(jié)果造成巨大的磁盤I/O開銷,降低了執(zhí)行效率。基于Bloom過濾器的星型連接算法是在Map階段建立n個BF(Ri.Xi)Bloom過濾器以及n個BF(R0.Xi)Bloom過濾器,其中i=1,2,…,n。在執(zhí)行星型連接操作時,利用過濾器BF(Ri.Xi)對事實表R0進(jìn)行過濾操作,利用過濾器BF(R0.Xi)分別對維度表R1,R2,…,Rn進(jìn)行過濾操作。這樣可在Map階段消除事實表中無連接操作的元組以及大量中間結(jié)果。在Reduce階段,只需執(zhí)行一次Reduce任務(wù)便可完成連接操作。
2連接算法在煤礦安全生產(chǎn)中的應(yīng)用
在煤礦安全生產(chǎn)過程中,瓦斯?jié)舛取⒓淄闈舛取⒁谎趸紳舛取⒉蓞^(qū)溫度、粉塵濃度、通風(fēng)量之間都有著很高的關(guān)聯(lián)性。煤礦安全生產(chǎn)監(jiān)測系統(tǒng)將采集到的數(shù)據(jù)存儲到數(shù)據(jù)庫中。在對各因素進(jìn)行相關(guān)性分析時,需對各個數(shù)據(jù)表進(jìn)行連接操作,根據(jù)連接操作結(jié)果可分析出影響煤礦安全生產(chǎn)各因素之間的關(guān)系。例如,對頂板壓力、溫度以及甲烷濃度3個數(shù)據(jù)表進(jìn)行連接操作,由連接結(jié)果可知,當(dāng)頂板壓力不穩(wěn)定、溫度過高、甲烷體積分?jǐn)?shù)大于0.1時,采區(qū)處于不安全狀態(tài),此時監(jiān)測系統(tǒng)應(yīng)發(fā)出高危險等級的報警。而通過對粉塵濃度與通風(fēng)量的數(shù)據(jù)表連接結(jié)果可知,在粉塵濃度急劇增大時需要減少系統(tǒng)的通風(fēng)量才能保證煤礦生產(chǎn)的安全性。在MapReduce中利用基于Bloom過濾器的星型連接算法對煤礦安全生產(chǎn)數(shù)據(jù)表進(jìn)行連接操作,事實表R。
3試驗結(jié)果分析
試驗環(huán)境是擁有30個配置完全相同的計算節(jié)點(diǎn)的分布式計算平臺。在各個節(jié)點(diǎn)中均安裝Hadoop包作為MapReduce計算環(huán)境。試驗數(shù)據(jù)為煤礦安全生產(chǎn)過程中產(chǎn)生的6組真實數(shù)據(jù)集,表1描述了該6組數(shù)據(jù)的詳細(xì)信息。在MapReduce框架中,分別用星型算法(StarJoin)和基于Bloom過濾器的星型連接算法(BFStarJoin)對煤礦安全生產(chǎn)數(shù)據(jù)集進(jìn)行測試分析,比較其在連接過程中占用空間的大小和運(yùn)行時間的長短,分別得出算法的空間性能和執(zhí)行效率,基于Bloom過濾器的星型連接算法在進(jìn)行連接操作時占用空間遠(yuǎn)遠(yuǎn)低于星型算法,其空間性能大幅度提升。由圖5可知,基于Bloom過濾器的星型連接算法在對煤礦安全生產(chǎn)數(shù)據(jù)集進(jìn)行分析時有著更好的執(zhí)行效率。
4結(jié)語
利用大數(shù)據(jù)技術(shù)對煤礦安全生產(chǎn)數(shù)據(jù)進(jìn)行分析,基于Bloom過濾器的星型連接算法可以將所需分析的煤礦生產(chǎn)過程中各因素所對應(yīng)的數(shù)據(jù)表進(jìn)行有效連接。與傳統(tǒng)連接算法相比,該算法在空間性能和執(zhí)行效率上均有大幅度提升,提高了MapReduce對煤礦生產(chǎn)數(shù)據(jù)進(jìn)行連接操作時的處理能力,提升了煤礦安全生產(chǎn)水平。
作者:黃偉力劉影單位:河北工程大學(xué)