自然语言处理之spaCy

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

主要特性:

  • 分词
  • 命名实体识别
  • 多语言支持(号称支持53种语言)
  • 针对11种语言的23种统计模型
  • 预训练词向量
  • 高性能
  • 轻松的整合深度学习
  • 词性标注
  • 依存句法分析
  • 句法驱动的句子切分
  • 用于语法和命名实体识别的内置可视化工具
  • 方便的字符串到哈希映射
  • 导出到numpy数据数组
  • 高效的二进制序列化
  • 易于模型打包和部署
  • 稳健,精确评估

SpaCy的安装

先执行包的安装: pip install spacy ,再执行数据集和模型的下载。

模型地址:

比如想安装英文的,执行如下命令即可: python -m spacy download en_core_web_sm

使用时加载相应的模型:

由于官网没有中文的模型,针对中文模型安装稍微要麻烦些。

非官方中文模型地址:https://github.com/howl-anderson/Chinese_models_for_SpaCy

下载后执行: pip install ./zh_core_web_sm-2.0.5.tar.gz

安装后执行:

报如下错误:

初步判定是版本问题,重新安装spaCy: pip install spacy==2.0.5

重装完成后模型能正常加载,但是代码不能执行,报如下错误:

预估还是版本问题,重新一个个版本测试,终于将版本重装为2.0.16可顺利执行:

SpaCy的使用

使用示例:

Spacy里面实体的标签及其表示的含义:

PERSON People, including fictional. 人物
NORP Nationalities or religious or political groups. 国家、宗教、政治团体
FAC Buildings, airports, highways, bridges, etc. 建筑、机场、高速公路、桥梁等
ORG Companies, agencies, institutions, etc. 组织公司、机构等
GPE Countries, cities, states. 国家、城市、州
LOC Non-GPE locations, mountain ranges, bodies of water. 山脉、水体等
PRODUCT Objects, vehicles, foods, etc. (Not services.) 车辆、食物等非服务性的产品
EVENT Named hurricanes, battles, wars, sports events, etc. 飓风、战争、体育赛事等
WORK_OF_ART Titles of books, songs, etc. 书名、歌名等
LAW Named documents made into laws. 法律文书
LANGUAGE Any named language. 语言
DATE Absolute or relative dates or periods. 日期
TIME Times smaller than a day. 小于1天的时间
PERCENT Percentage, including “%”. 百分比
MONEY Monetary values, including unit. 货币价值
QUANTITY Measurements, as of weight or distance. 度量单位
ORDINAL “first”, “second”, etc. 序数词
CARDINAL Numerals that do not fall under another type. 数量词

参考链接:

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

Python检验数据是否正态分布

判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起

数据探索Pandas-Profiling与Dataprep.…

在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profi

开源指标可视化工具Graphite

Graphite 是处理可视化和指标数据的优秀开源工具。它有强大的查询 API 和相当丰富的插件功能设置。事实

发表评论

电子邮件地址不会被公开。 必填项已用*标注