自然语言处理之spaCy

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

主要特性:

  • 分词
  • 命名实体识别
  • 多语言支持(号称支持53种语言)
  • 针对11种语言的23种统计模型
  • 预训练词向量
  • 高性能
  • 轻松的整合深度学习
  • 词性标注
  • 依存句法分析
  • 句法驱动的句子切分
  • 用于语法和命名实体识别的内置可视化工具
  • 方便的字符串到哈希映射
  • 导出到numpy数据数组
  • 高效的二进制序列化
  • 易于模型打包和部署
  • 稳健,精确评估

SpaCy的安装

先执行包的安装: pip install spacy ,再执行数据集和模型的下载。

模型地址:

比如想安装英文的,执行如下命令即可: python -m spacy download en_core_web_sm

使用时加载相应的模型:

由于官网没有中文的模型,针对中文模型安装稍微要麻烦些。

非官方中文模型地址:https://github.com/howl-anderson/Chinese_models_for_SpaCy

下载后执行: pip install ./zh_core_web_sm-2.0.5.tar.gz

安装后执行:

报如下错误:

初步判定是版本问题,重新安装spaCy: pip install spacy==2.0.5

重装完成后模型能正常加载,但是代码不能执行,报如下错误:

预估还是版本问题,重新一个个版本测试,终于将版本重装为2.0.16可顺利执行:

SpaCy的使用

使用示例:

Spacy里面实体的标签及其表示的含义:

PERSON People, including fictional. 人物
NORP Nationalities or religious or political groups. 国家、宗教、政治团体
FAC Buildings, airports, highways, bridges, etc. 建筑、机场、高速公路、桥梁等
ORG Companies, agencies, institutions, etc. 组织公司、机构等
GPE Countries, cities, states. 国家、城市、州
LOC Non-GPE locations, mountain ranges, bodies of water. 山脉、水体等
PRODUCT Objects, vehicles, foods, etc. (Not services.) 车辆、食物等非服务性的产品
EVENT Named hurricanes, battles, wars, sports events, etc. 飓风、战争、体育赛事等
WORK_OF_ART Titles of books, songs, etc. 书名、歌名等
LAW Named documents made into laws. 法律文书
LANGUAGE Any named language. 语言
DATE Absolute or relative dates or periods. 日期
TIME Times smaller than a day. 小于1天的时间
PERCENT Percentage, including “%”. 百分比
MONEY Monetary values, including unit. 货币价值
QUANTITY Measurements, as of weight or distance. 度量单位
ORDINAL “first”, “second”, etc. 序数词
CARDINAL Numerals that do not fall under another type. 数量词

参考链接:

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Python绘制柱形竞赛图

我们经常看到的Bar Chart Race(柱形竞赛图),可以看到数据的呈现非常的直观。今天就一起来学习下如何

时间序列趋势判断

判断时间序列数据是上升还是下降是我们常见的问题。比如某个股票在过去一年整体趋势是上升还是下降。我们可以通过画图

聚类算法之Affinity Propagation(AP)

Affinity Propagation算法简介 AP(Affinity Propagation)通常被翻译为

发表评论

电子邮件地址不会被公开。 必填项已用*标注