基于SVM的重復(fù)網(wǎng)頁(yè)檢測(cè)算法分析論文
引言

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的文本信息越來(lái)越容易復(fù)制,由此產(chǎn)生了大量的重復(fù)網(wǎng)頁(yè)和鏡像文檔,這一方面增加了網(wǎng)絡(luò)爬蟲(chóng)的負(fù)擔(dān),另一方面降低了用戶體驗(yàn)。因此,越來(lái)越多的學(xué)者關(guān)注重復(fù)網(wǎng)頁(yè)檢測(cè)這一領(lǐng)域。
對(duì)于重復(fù)網(wǎng)頁(yè)可以定義為內(nèi)容完全重復(fù)和近似重復(fù),對(duì)于完全重復(fù)的網(wǎng)頁(yè)可以計(jì)算其MD5值,通過(guò)比較網(wǎng)頁(yè)問(wèn)MD5值是否相等即可作出判斷。因此,本文只討論近似重復(fù)網(wǎng)頁(yè)的檢測(cè)。大量重復(fù)網(wǎng)頁(yè)的產(chǎn)生基本上是通過(guò)用戶轉(zhuǎn)載,如一些新聞文章、熱門(mén)事件及經(jīng)典文章等,也就是說(shuō)一般重復(fù)網(wǎng)頁(yè)改動(dòng)比較小,如加入引文信息、插入廣告導(dǎo)航等。
本文把相似網(wǎng)頁(yè)的比較轉(zhuǎn)換成二元分類問(wèn)題,即兩張網(wǎng)頁(yè)相似標(biāo)記為+1(相似),否則標(biāo)記為-1(小相似)。SVM(Support Vector Machine)算法在文本分類中取得了較好的效果。因此,本文采用SVM算法對(duì)每對(duì)網(wǎng)頁(yè)分類,通過(guò)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)得到分類判別函數(shù),由判別函數(shù)對(duì)新的數(shù)據(jù)進(jìn)行計(jì)算。
1相關(guān)研究
目前,對(duì)重復(fù)網(wǎng)頁(yè)檢測(cè)問(wèn)題已經(jīng)提出了很多解決方案:有基于字符串比較的方法,即按小同粒度提取指紋,有基于詞頻統(tǒng)計(jì)的方法,還有基于聚類的方法等。
Border提出將文本中連續(xù)的n個(gè)term序列作為文本的一個(gè)特征,稱之為二shingleo M-Theobald等人提出的SpotSig算法,以停用詞作為先行詞,提取其后的k個(gè)詞形成一個(gè)個(gè)特征,使用Jaccard計(jì)算相似度。
哈工大張剛等人把句號(hào)作為一個(gè)提取位置,分別在句號(hào)兩邊L/2長(zhǎng)的詞串構(gòu)成網(wǎng)頁(yè)的一個(gè)特征。清華大學(xué)吳平博等人提取每個(gè)句子中首尾字符作為特征串。彭淵等人提出將兩篇文檔的最長(zhǎng)公共子序列(LCS)作為特征碼。
2算法實(shí)現(xiàn)過(guò)程
2. 1特征碼提取
網(wǎng)頁(yè)通常由以下幾部分組成:標(biāo)題、正文內(nèi)容、鏈接和廣告等。正文是原始網(wǎng)頁(yè)中真正描述主題的部分。本文采用通用網(wǎng)頁(yè)正文抽取算法州提取網(wǎng)頁(yè)的正文內(nèi)容,網(wǎng)頁(yè)中其余部分當(dāng)作噪音過(guò)濾掉。
從長(zhǎng)段落中提取特征碼,可以減少一些次要特征,使計(jì)算更簡(jiǎn)潔。長(zhǎng)段落定義:段落的長(zhǎng)度要大于設(shè)定的閾值或以句號(hào)、問(wèn)號(hào)、感嘆號(hào)分割得到的句子數(shù)大于設(shè)定的閾值。
提取出長(zhǎng)段落后,以逗號(hào)、句號(hào)、感嘆號(hào)和問(wèn)號(hào)分割得到每個(gè)句子,提取每個(gè)句子首尾各L/2個(gè)字作為特征碼;把各個(gè)特征碼按序組成特征串,該特征串代表了該篇文檔。
2. 2相似度計(jì)算
在比較特征串差異性的基礎(chǔ)上得到網(wǎng)頁(yè)的相似度。目前,比較文本之問(wèn)差異算法主要有兩大類:一類是基于最短編輯距離算法;一類是基于最長(zhǎng)公共子串算法。最短編輯距離算法是以字符串八變成另一個(gè)字符串B的過(guò)程中,通過(guò)插入字符、刪除字符、替換字符等操作的次數(shù)表示兩個(gè)字符串的差異,數(shù)值越小字符串的差異越小算法表示字符串八和字符串B的最長(zhǎng)公共子串長(zhǎng)度,數(shù)值越大字符串的差異越小。
通用的做法是根據(jù)以上計(jì)算出的相似度數(shù)值,作一些規(guī)范化處理后與閾值比較。但是在現(xiàn)實(shí)中閾值的設(shè)定往往是依靠經(jīng)驗(yàn)來(lái)設(shè)置的,因此很難設(shè)定準(zhǔn)確,這樣就有誤差。本文采用了監(jiān)督學(xué)習(xí)算法,通過(guò)學(xué)習(xí)得到的判別函數(shù)來(lái)判斷文檔是否相似,避免了人為設(shè)定閾值帶來(lái)的風(fēng)險(xiǎn)。
2. 3支持向量機(jī)(SVM )
2. 3. 1 SVM簡(jiǎn)介
支持向量機(jī)是一種二元分類模型,它的基本模型是定義在特征空間上的問(wèn)隔最大的線性分類器。在重復(fù)網(wǎng)頁(yè)檢測(cè)應(yīng)用中,我們把每對(duì)網(wǎng)頁(yè)中計(jì)算出的特征定義如過(guò)程中,通過(guò)插入字符、刪除字符、替換字符等操作的次數(shù)表示兩個(gè)字符串的差異,數(shù)值越小字符串的差異越小算法表示字符串八和字符串B的最長(zhǎng)公共子串長(zhǎng)度,數(shù)值越大字符串的差異越小。
通用的做法是根據(jù)以上計(jì)算出的相似度數(shù)值,作一些規(guī)范化處理后與閾值比較。但是在現(xiàn)實(shí)中閾值的設(shè)定往往是依靠經(jīng)驗(yàn)來(lái)設(shè)置的,因此很難設(shè)定準(zhǔn)確,這樣就有誤差。本文采用了監(jiān)督學(xué)習(xí)算法,通過(guò)學(xué)習(xí)得到的判別函數(shù)來(lái)判斷文檔是否相似,避免了人為設(shè)定閾值帶來(lái)的風(fēng)險(xiǎn)。
2. 3. 2操作流程
SVM在重復(fù)網(wǎng)頁(yè)檢測(cè)應(yīng)用中的大致流程,主要分為訓(xùn)練階段和測(cè)試階段。訓(xùn)練階段主要從預(yù)先給定的數(shù)據(jù)集中學(xué)習(xí)并建立分類器,得到判別函數(shù)。因此,訓(xùn)練數(shù)據(jù)的好壞對(duì)于分類器的性能至關(guān)重要。測(cè)試階段用來(lái)分類未知結(jié)果的數(shù)據(jù)集,可以判斷出文檔集中與輸入文檔重復(fù)的文檔,即把文檔集中每個(gè)文檔與輸入的文檔使用判別函數(shù)計(jì)算
2. 4算法描述
本文算法大致分為3大步:提取特征串、衡量指標(biāo)和構(gòu)造分類器。
3結(jié)語(yǔ)
本文提出一種使用機(jī)器學(xué)習(xí)的方法檢測(cè)網(wǎng)頁(yè)是否重復(fù),通過(guò)訓(xùn)練數(shù)據(jù)構(gòu)造SVM分類器。提取網(wǎng)頁(yè)特征串,計(jì)算兩個(gè)特征串的相似度,使用SVM判別函數(shù)計(jì)算。實(shí)驗(yàn)表明:加入兩個(gè)網(wǎng)頁(yè)間的長(zhǎng)度差異值能提高算法的準(zhǔn)確率和查全率。
【基于SVM的重復(fù)網(wǎng)頁(yè)檢測(cè)算法分析論文】相關(guān)文章:
案例分析論文11-27
案例分析論文07-15
對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)安全的入侵檢測(cè)技術(shù)分析論文11-01
小學(xué)期中檢測(cè)分析報(bào)告范文07-10
案例分析論文[優(yōu)選]07-17
【實(shí)用】案例分析論文07-17
小學(xué)期中檢測(cè)分析報(bào)告(精選12篇)12-06
小學(xué)期中檢測(cè)分析報(bào)告(通用10篇)10-17
- 相關(guān)推薦