|
网站SEO优(yōu)化之Google分(fèn)词法 |
|
Google分词(cí)算法值得我们好(hǎo)好(hǎo)研究(jiū)一下(xià)。Google的搜索结(jié)果页(yè)(SERP)与搜索关键字的相关(guān)性,明显大于百度,这是(shì)因为Google把搜索关键字都拆分(fèn)成(chéng)最基本的词组和单字后,在根据相关性去(qù)匹(pǐ)配数据库的(de)中(zhōng)内容,而(ér)且(qiě)Google拆分(fèn)后的最基本词组,完全是根据词典(diǎn)里的词组匹(pǐ)配的,也是说它(tā)符合国家语言文字工作(zuò)委员会的(de)规范和(hé)标(biāo)准的,这只限于普(pǔ)通词组(公(gōng)众人(rén)名、著名品牌名)。
实例1:测(cè)试Google是(shì)否有(yǒu)专业(yè)名词库
在Google搜索“搜索引擎关键字”,Google会把这(zhè)个关键字短(duǎn)语拆分为“搜索—引擎—关键(jiàn)—字”,这是因为“搜索引擎”和“关(guān)键字”都是网络专业词组,可能Google没有专业(yè)词组库,所以就被拆(chāi)分成了(le)“搜索—引擎—关键—字”。
实例2:测试Google拆分(fèn)长关键字
在Google搜(sōu)索“他(tā)舅WAP流量统(tǒng)计分析”,Google把这个(gè)关键字短(duǎn)语拆分为“他—舅—wap—流量—统计—分析”六(liù)部分,“WAP”是(shì)一个英文(wén)词(cí)组,包括Google和其(qí)他搜索(suǒ)引(yǐn)擎一般是不拆(chāi)分英文词(cí)组的(就算它不是英文单词),“流(liú)量”、“统计”、“分析”都是符合国家语言规范(fàn)的(de)标准词组,“他(tā)舅”只是中(zhōng)国老百姓一个口(kǒu)头(tóu)称谓(wèi)用语,不(bú)符合国家语言规范,在词典中根(gēn)本就查(chá)不(bú)到这,所以Google就把“他舅”拆分成了两个(gè)单字(zì)。
实(shí)例3:测(cè)试(shì)品牌名是否(fǒu)被Google收录为词组(zǔ)
在Google搜索“海尔(ěr)冰箱”、“惠普电脑”、“华为通讯”、“美的电器”,“五粮(liáng)液(yè)酒(jiǔ)”,“夏利汽车”、“北京同仁堂”这七个都是著名的品牌,结果是“海尔”、“惠(huì)普”、“华为”、“五粮液”、“同仁堂”都是单(dān)独的词组(zǔ),没有被拆分为单字(zì),“夏(xià)利(lì)”、“美(měi)的”这(zhè)两个品牌却被(bèi)拆(chāi)分(fèn)成(chéng)了单字。不是所有品牌都能(néng)被Google作为一个词(cí)组收录进品牌词库,Google有自己的收录标准(zhǔn)的(de)。
实例4:测试(shì)Google是否会拆(chāi)分成语
下(xià)面我们搜(sōu)索一下韩乔生的经(jīng)典名句“迅雷不及掩耳之势”和“山清水秀丽”,结果(guǒ)“迅(xùn)雷(léi)不及(jí)掩耳之(zhī)势”这个短句(jù)被拆分成了“迅雷—不及(jí)—掩耳(ěr)盗铃—之—势”,“迅雷”是一个符合汉语言(yán)规范的标准(zhǔn)词组,不是(shì)指下载工具那个“迅雷(léi)”,“不及”也是一个词(cí)组,“掩(yǎn)耳盗铃”也(yě)是符合国家语言规范(fàn)的成语,“之(zhī)势(shì)”不是标准词组,所以就被拆分为(wéi)两个(gè)单字。“山清水秀(xiù)丽(lì)”被拆(chāi)分(fèn)为了(le)“山清(qīng)水秀—丽”,“山清水秀(xiù)”是一个成语没有拆分。Google把成语作(zuò)为几(jǐ)个基本词组,不会进一步拆分。
实例5:测试普通之间是否(fǒu)有权(quán)重(chóng)高(gāo)低之分(fèn)
搜索“山(shān)河水灾”这个关键字(zì)短语(yǔ),结果Google拆分(fèn)为“山河”和“水灾”两(liǎng)个(gè)词组;然后搜素“山河水灾情”这个(gè)关键字(zì)短语(yǔ),结(jié)果Google拆分为“山河(hé)”、“水”、“灾情”三(sān)部分,“水(shuǐ)”字没有(yǒu)和“灾(zāi)”组成词组,反而“灾”和“情”组成了词组,这说“灾情”这个词(cí)的(de)权重(chóng)高于(yú)“水灾(zāi)”的权重。这说(shuō)明词组(zǔ)之(zhī)间也是有(yǒu)权重之分的。
根据实(shí)例测试推断(duàn):Google会把搜索的关键(jiàn)字(短语)拆分为最(zuì)基本的词组(zǔ),这些普通词组(zǔ)都是符合汉语言规范的标(biāo)准词组,不(bú)像百度(dù)那(nà)样收录(lù)“人造名词(cí)”。Google的词组(zǔ)大致可分为(wéi)普通名词、地(dì)名、人(rén)名等几类,关键字(短语(yǔ))都是(shì)从左向右,按权重高低拆分。这些词组权重(chóng)从低到高(gāo)依次如(rú)下(xià):人名<普通(tōng)词(cí)组<地名<成语(yǔ)<领导人名字(zì)。进(jìn)一步(bù)测试品牌名和人名的权重是一样(yàng),都是最低的,这(zhè)只是一(yī)个(gè)大致顺序,因为同一类词组还会根据日常使用的(de)频率进一步(bù)的分级,每(měi)一级的分配不同的权重,所以同一(yī)类词组(zǔ)之间也(yě)有权重高低(dī)之分。
|
|