關於Frame頁面網路日誌資料探勘預處理方法的論文

　　摘要

　　本文結合網路日誌資料探勘技術，透過對Frame頁面和SubFrame頁面進行分析，提出基於改進的Frame頁面資料探勘預處理方法。該方法從SubFrame頁面資訊著手，從而提高預處理過程中的資訊識別能力。實驗表明，該方法在網路日誌的資料探勘預處理過程中，有效提高了資訊的精準度。

　　【關鍵詞】資料探勘 Frame頁面 SubFrame頁面

　　1 引言

　　隨著網際網路技術的迅猛發展，簡單的資訊搜尋技術已經不能滿足現階段網路資訊獲取的需求。網路日誌資料探勘技術是結合網路日誌使用者的訪問行為規律、興趣需求等資訊，加以分析，最佳化網路內容與網路文字文件的組織結構，以此提高網路站點的競爭力。我們發現網路日誌記錄往往十分龐大，傳統的預處理方法，並不能很好解決日誌頁面對站點組織結構的影響。因此，進行網路日誌預處理方法的研究，具有一定的現實意義。

　　對於傳統的網路日誌的資料探勘，預處理階段的Frame頁面和SubFrame頁面在使用者會話檔案出現的機率很高，這就降低了會話識別的興趣度。因此，必須消除Frame頁面對網路日誌資料探勘的影響。我們將Frame頁面以及其SubFrame頁面被看為一個整體，用Frame頁面代替透過會話檔案尋找Frame頁面和Subframe頁面，並剔除多餘的頁面，以提高日誌資料探勘的興趣性。

　　2 改進的'Frame頁面資料探勘預處理方法

　　透過對Frame頁面過濾方法，結合實際情況分析，我們利用ID3決策樹演算法，提出基於改進的Frame頁面過濾方法，以提高網路日誌資料挖據的效率。該方法如下：

　　輸入：FS表（pidframne ， pidsubframe）所對應的集合；集合屬性包括 {index.html，top.html，left.html，main.html，…}

　　輸出：判定策略

　　For each users session

　　{

　　currentframe=null

　　make_node（web）

　　if（（cerrenframe， pid， ∈FS） make_tree（currentframe，web_left）

　　Else if pid， ∈dom（FS）

　　{curremtframe pidi make_decition_tree（currentframe，web_left}

　　else make_decition-tree（currentframe，web_rleft

　　if attribute_list=null{make_decition_tree（currentframe，web_right）；}

　　else if（one ofattribute_list）>allgain

　　currentframe=test-attribute；

　　make_decition（ai，web_left）

　　Else generate_decision_tree（ai，web_right）

　　}

　　上述策略認為，訪問站點的頁面為根節點，具有資訊增益最高的特徵，currentframe變數記錄web當前頁面pidi。若當前頁面pidi不屬於frame頁面，則歸類左子樹，反之當前頁面pidi歸入右子樹。即pid，∈DOM（FS）。而frame頁面的subframe頁面歸類左子樹。這樣一來，frame頁面為決策樹右樹，subframe頁面為決策樹左樹，subframe頁面在會話識別階段得到保留，以便後續路徑補充。該方法優化了站點的組織結構，較好提升了網路日誌資料預處理效率。

　　3 實驗分析

　　我們透過Frame頁面過濾預處理方法實驗，驗證本文提出的改進方法。實驗提取700個日誌所記錄的訪問頁面，共20萬條日誌檔案，結合本文提出的改進Frame頁面網路日誌資料探勘預處理方法，與傳統頁面預處理方法進行對比測試。結果如表1所示。

　　在表1中，絕對支援度表示使用者頻繁訪問頁面的最小會話數，FSi表示使用者頻繁訪問頁面集合數，*為使用者不感興趣的頁面集，△表示頁面集是使用者感興趣的，△△表示頁面集使用者感興趣程度加強。實驗表明，改進Frame頁面過濾方法相比傳統方法，預處理結果得到提高，因此，網路日誌的資料探勘效率得到加強。

　　4 小結

　　本文透過對網路日誌資料探勘預處理技術進行分析，結合預處理過程中的實際情況，著重考慮SubFrame頁面剔除對站點組織結構的影響，提出了改進的Frame頁面網路日誌資料探勘預處理方法，實驗表明，該方法較好的提高了網路日誌資料探勘的預處理精度和效率。

　　參考文獻

　　[1]方元康等.一種改進的Web日誌會話識別方法[J].計算機技術與發展，2008，18（11）：214-216.

　　[2]朱明.資料探勘[M].合肥：中國科技大學出版社，2008：13-56.

　　[3]朱志國等.持久偏愛的Web使用者訪問路徑資訊挖掘方法[J].情報學報，2010，29（2）.

　　[4]凌海峰等.基於混合蟻群演算法的web使用者會話聚類[J].計算機工程與應用，2013（22）.

　　[5]韓法旺.Web日誌挖掘資料預處理過程研究[J].南京工業職業技術學院學報，2012（2）.

　　[6]凌海峰等.基於聚類的web使用者會話識別最佳化方法[J].計算機應用研究，2012（8）.