清华大学的分词工具THULAC

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

  • 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
  • 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
  • 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到3MB/s。

THULAC的安装与使用

安装非常的简单,仅需执行 pip install thulac 即可。安装时会默认下载模型文件。官方说可以到thulac.thunlp.org下载更好的模型放入THULAC的根目录或用参数model_path指定模型的位置。

但经过测试发现从thulac.thunlp.org的模型与自动下载的模型(D:\CodeHub\NLP\venv\Lib\site-packages\thulac\models)完全一致。

THULAC的使用

命令行运行

Python接口使用

接口参数:

thulac(user_dict = None, model_path = None, T2S = False, seg_only = False, filt = False, max_length = 50000, deli=’_’, rm_space=False)

  • user_dict:设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码
  • model_path:设置模型文件所在文件夹,默认为models/
  • T2S:默认False, 是否将句子从繁体转化为简体
  • seg_only:默认False, 时候只进行分词,不进行词性标注
  • filt:默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。
  • max_length:最大长度
  • deli:默认为‘_’, 设置词与词性之间的分隔符
  • rm_space:默认为False, 是否去掉原文本中的空格后再进行分词

cut(文本, text=False)

  • text:默认为False, 是否返回文本,不返回文本则返回一个二维数组([[word, tag]..]),seg_only模式下tag为空字符。

cut_f(输入文件, 输出文件)

  • 对文件进行分词

词性解释

参考链接:https://github.com/thunlp/THULAC-Python

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

分层时间记忆HTM学习笔记

分层时间记忆算法(Hierarchical Temporal Memory),全称HTM Cortical L

Expedia异常检测项目Adaptive Alerting

Adaptive Alerting(AA)是Expedia开源的异常检测项目,整个项目也是完整一套监控体系,包

格兰杰因果关系检验学习笔记

格兰杰因果关系检验简介 格兰杰因果关系检验(英语:Granger causality test)是一种假设检定

发表评论

电子邮件地址不会被公开。 必填项已用*标注