百度分词的研究

8 sec read

一.什么叫分词技术,为什么要分词?

分词也叫切词,可以说是中文特有的一种技术,对于一句英文“Google is better than Baidu,but Baidu is more popular than Google in China.”来所,每一个空格分开两个单词,而在中文句子中单词与单词之间却不存在这样的,比如“Googele比百度好,但在中国用百度的比用Google的多”这样的句子就要使用特殊的分词算法将其词与词分开。

二.百度的分词技术到底运用在哪里?

这是很多人都有疑惑的,很多人认为分词技术是运用在百度文档索引入库阶段,其实不是这样的,对文档索引入库阶段百度只是按单个字进行拆分,而百度分词的重心却是对用户键入关键词的拆分。

三. 百度分词中的细节(整理+测试)

1.百度对用户键入小于等于3个中文字的关键词不进行分词。可用一些无意义的3字单词做测试,对于小于等于3个中文字符的关键词,百度只是对关键词进行匹配,匹配字之间要不带内容,这个验证了百度索引入库主要是按单字入库的。

2.对于4中文字符匹配问题以“ABCD”为例,首先百度先去匹配是否有与“ABCD”完全匹配的页面;若没有则将“ABCD”分开为“AB/CD”,尝试匹配”CDAB”;若没有则去匹配“AB”,”AB没有再去匹配”CD”,再没有的话去匹配”BC”,要求对”BC”完全匹配,然后搜寻”BCD”后搜寻”ABC”,“A”和“D”离“BC”越近排名越靠前若再没有返回到第一步。百度的分词是从前往后还是从后往前(正向分词还是逆向分词)?百度首先是查看是否含有所有内容匹配。其次再是分词。对于分词的方向这个问题,尝试搜索“陈冠希望”这个关键词你便可知道,百度搜索切词是从后往前切的,搜索结果主要搜索“陈冠”和“希望”两字,而不是“陈冠希”+“望”也不是“陈冠希望”。如“桃李宇春”搜索结果主要为“李宇春”。

3.百度对大于4中文字符的划分。百度以最长的短语作为主要内容,如“百度日如年龄”搜索结果主要为“度日如年”。

4.搜索词中带有英文字母办?百度把搜索词中的英文看成一个字符串,对英文字段进行字符串匹配。

附:1.百度分词技术广告:我知道你不知道我知道你不知道我知道你不知道

2.百度分词词库(旧的)

3.免费开源PHP分词程序:http://www.ftphp.com/scws/

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

美团酒旅实时数据规则引擎的学习

美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T+1
19 sec read

什么是 Real-Time Marketing?

什么是实时营销? 实时营销就是让营销在当下发生的。这个“时刻”可以多种形式。“时刻”指的是关于目标受众的需求和
1 sec read

App Store Top 1000 关键词分析

做这个分析的主要目的是分析用户的搜索习惯及用户的需求方向,寻找可能的机会。以下分析是7月初进行的,数据比较老,
42 sec read

发表评论

电子邮件地址不会被公开。 必填项已用*标注