北大开源分词工具pkuseg

17 sec read

pkuseg简介

pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg具有如下几个特点:

  • 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。各领域分词样例可参考txt。
  • 更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
  • 支持用户自训练模型。支持用户使用全新的标注数据进行训练。
  • 支持词性标注。

相关测试结果:

MSRA Precision Recall F-score
jieba 87.01 89.88 88.42
THULAC 95.60 95.91 95.71
pkuseg 96.94 96.81 96.88

 

WEIBO Precision Recall F-score
jieba 87.79 87.54 87.66
THULAC 93.40 92.40 92.87
pkuseg 93.78 94.65 94.21

 

Default MSRA CTB8 PKU WEIBO All Average
jieba 81.45 79.58 81.83 83.56 81.61
THULAC 85.55 87.84 92.29 86.65 88.08
pkuseg 87.29 91.77 92.68 93.43 91.29

pkuseg的使用

1、使用默认配置进行配置

2、使用细分领域分词(如果用户明确分词领域,推荐使用细领域模型分词)

3、分词同时进行词性标注,各词性标签的详细含义可参考 tags.txt

4、对文件分词

5、额外使用用户自定义词典

模型配置:

对文件进行分词:

模型训练:

pkuseg实战

使用pkuseg 分词+使用wordcloud显示词云:

参考链接:https://github.com/lancopku/pkuseg-python

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

WordPress又被黑了,解决方案记录

过了一个周末,今天整个网站打开无样式,后台无法打开,直接跳转到其他网站,才意识到网站可能被黑了。查看源代码:
标点符
20 sec read

Python短文本分类:LibShortText和TextG…

LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等
标点符
1 min read

条件随机场(CRF)及CRF++安装使用

CRF简介 CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测
标点符
10 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注