杭州SEO专用徐少(shǎo)辉(huī)要说的是:网页查重算(suàn)法,也就是搜索引擎(qíng)是怎么检查两个(gè)网页的相似性的?这应该是大家应该比较关心的问(wèn)题吧,因为这有助(zhù)于让你的“伪原创”更(gèng)像一个“原创(chuàng)”
首(shǒu)先我跟大(dà)家讲(jiǎng)有名(míng)的I—MATCH算法。
我(wǒ)们在(zài)比较两件事物的相似(sì)性时(shí),往(wǎng)往都会拿能均(jun1)衡的反应这事物本质(zhì)的东西来(lái)比较,就像比赛(sài)时,要去除(chú)一个最(zuì)高分和最低分,然后再变算总分一样~~
I—MATCH算法基于的依据是,在(zài)文(wén)挡中,特(tè)别(bié)高(gāo)频的词和(hé)特别低频(pín)的词无(wú)法反(fǎn)应这一(yī)个(gè)文挡的真实内容,所以在比(bǐ)较之前,先将(jiāng)文挡中(zhōng)高频词(cí)和低频词去(qù)掉(注意:这(zhè)里的(de)高频和(hé)低频指的是文(wén)档(dàng)频率(lǜ),并非关键词在你网页中的(de)密(mì)度!)
我们来看一个例子:
这(zhè)里(lǐ)有(yǒu)两(liǎng)段网(wǎng)页文字:
1.中国足球队(duì)在米卢的(de)率领下首次获得世界(jiè)杯决赛阶(jiē)段(duàn)的比赛资格,新浪体育播(bō)报(bào) 。
2.米卢率领(lǐng)中国足球队员首次杀入世(shì)界杯决(jué)赛(sài)阶段,搜狐体育播(bō)报。(嘿嘿(hēi),看(kàn)到这两(liǎng)句很(hěn)熟吧?)
文档(一)中去(qù)掉高频:中国,在,的,获得,比赛,资格,新浪,体育,播报
去掉低(dī)频:米卢
则剩(shèng)下中频词有:足球队,率领,首(shǒu)次(cì),世界杯(bēi),决赛(sài),阶(jiē)段
文档(二)中(zhōng)去掉高频:中国,搜狐,体育,播(bō)报
去掉低(dī)频:米卢(lú),杀入
则剩下中频词(cí)有:率(lǜ)领,足球队,首次(cì),世界杯,决赛 ,阶(jiē)段
看到了吧(ba)?剩下的,两(liǎng)者(zhě)是(shì)一模一样 这就是相似性的存在
呵呵(hē),其(qí)实这(zhè)个(gè)例子(zǐ)很早就有过的。。
综上所述:搜索引擎(qíng)要检测(cè)相似性,主(zhǔ)要就是要分词和词(cí)频的比较!!
|