标点符(钱魏 Way)

百度分词的研究

一.什么叫分词技术,为什么要分词?

分词也叫切词,可以说是中文特有的一种技术,对于一句英文“Google is better than Baidu,but Baidu is more popular than Google in China.”来所,每一个空格分开两个单词,而在中文句子中单词与单词之间却不存在这样的,比如“Googele比百度好,但在中国用百度的比用Google的多”这样的句子就要使用特殊的分词算法将其词与词分开。

二.百度的分词技术到底运用在哪里?

这是很多人都有疑惑的,很多人认为分词技术是运用在百度文档索引入库阶段,其实不是这样的,对文档索引入库阶段百度只是按单个字进行拆分,而百度分词的重心却是对用户键入关键词的拆分。

三. 百度分词中的细节(整理+测试)

1.百度对用户键入小于等于3个中文字的关键词不进行分词。可用一些无意义的3字单词做测试,对于小于等于3个中文字符的关键词,百度只是对关键词进行匹配,匹配字之间要不带内容,这个验证了百度索引入库主要是按单字入库的。

2.对于4中文字符匹配问题以“ABCD”为例,首先百度先去匹配是否有与“ABCD”完全匹配的页面;若没有则将“ABCD”分开为“AB/CD”,尝试匹配”CDAB”;若没有则去匹配“AB”,”AB没有再去匹配”CD”,再没有的话去匹配”BC”,要求对”BC”完全匹配,然后搜寻”BCD”后搜寻”ABC”,“A”和“D”离“BC”越近排名越靠前若再没有返回到第一步。百度的分词是从前往后还是从后往前(正向分词还是逆向分词)?百度首先是查看是否含有所有内容匹配。其次再是分词。对于分词的方向这个问题,尝试搜索“陈冠希望”这个关键词你便可知道,百度搜索切词是从后往前切的,搜索结果主要搜索“陈冠”和“希望”两字,而不是“陈冠希”+“望”也不是“陈冠希望”。如“桃李宇春”搜索结果主要为“李宇春”。

3.百度对大于4中文字符的划分。百度以最长的短语作为主要内容,如“百度日如年龄”搜索结果主要为“度日如年”。

4.搜索词中带有英文字母办?百度把搜索词中的英文看成一个字符串,对英文字段进行字符串匹配。

附:1.百度分词技术广告:我知道你不知道我知道你不知道我知道你不知道

2.百度分词词库(旧的)

3.免费开源PHP分词程序:http://www.ftphp.com/scws/

码字很辛苦,转载请注明来自标点符《百度分词的研究》

评论