自然语言处理之spaCy

41 sec read

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

主要特性:

  • 分词
  • 命名实体识别
  • 多语言支持(号称支持53种语言)
  • 针对11种语言的23种统计模型
  • 预训练词向量
  • 高性能
  • 轻松的整合深度学习
  • 词性标注
  • 依存句法分析
  • 句法驱动的句子切分
  • 用于语法和命名实体识别的内置可视化工具
  • 方便的字符串到哈希映射
  • 导出到numpy数据数组
  • 高效的二进制序列化
  • 易于模型打包和部署
  • 稳健,精确评估

SpaCy的安装

先执行包的安装: pip install spacy ,再执行数据集和模型的下载。

模型地址:

比如想安装英文的,执行如下命令即可: python -m spacy download en_core_web_sm

使用时加载相应的模型:

由于官网没有中文的模型,针对中文模型安装稍微要麻烦些。

非官方中文模型地址:https://github.com/howl-anderson/Chinese_models_for_SpaCy

下载后执行: pip install ./zh_core_web_sm-2.0.5.tar.gz

安装后执行:

报如下错误:

初步判定是版本问题,重新安装spaCy: pip install spacy==2.0.5

重装完成后模型能正常加载,但是代码不能执行,报如下错误:

预估还是版本问题,重新一个个版本测试,终于将版本重装为2.0.16可顺利执行:

SpaCy的使用

使用示例:

Spacy里面实体的标签及其表示的含义:

PERSON People, including fictional. 人物
NORP Nationalities or religious or political groups. 国家、宗教、政治团体
FAC Buildings, airports, highways, bridges, etc. 建筑、机场、高速公路、桥梁等
ORG Companies, agencies, institutions, etc. 组织公司、机构等
GPE Countries, cities, states. 国家、城市、州
LOC Non-GPE locations, mountain ranges, bodies of water. 山脉、水体等
PRODUCT Objects, vehicles, foods, etc. (Not services.) 车辆、食物等非服务性的产品
EVENT Named hurricanes, battles, wars, sports events, etc. 飓风、战争、体育赛事等
WORK_OF_ART Titles of books, songs, etc. 书名、歌名等
LAW Named documents made into laws. 法律文书
LANGUAGE Any named language. 语言
DATE Absolute or relative dates or periods. 日期
TIME Times smaller than a day. 小于1天的时间
PERCENT Percentage, including “%”. 百分比
MONEY Monetary values, including unit. 货币价值
QUANTITY Measurements, as of weight or distance. 度量单位
ORDINAL “first”, “second”, etc. 序数词
CARDINAL Numerals that do not fall under another type. 数量词

参考链接:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

如何选择scikit-learn中的算法

scikit-learn中自带了很多机器学习的算法,在日常使用过程中可能产生疑问,以下2张图获取可以帮助你解决
标点符
0 sec read

斯坦福大学的词向量工具:GloVe

GloVe简介 GloVe的全称叫Global Vectors for Word Representation
标点符
2 min read

深入理解fbprophet

Prophet简介 在先前的文章中简单介绍了Facebook的prophet,最近在使用prophet的时候遇
标点符
5 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注