自然语言处理之spaCy

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

主要特性:

  • 分词
  • 命名实体识别
  • 多语言支持(号称支持53种语言)
  • 针对11种语言的23种统计模型
  • 预训练词向量
  • 高性能
  • 轻松的整合深度学习
  • 词性标注
  • 依存句法分析
  • 句法驱动的句子切分
  • 用于语法和命名实体识别的内置可视化工具
  • 方便的字符串到哈希映射
  • 导出到numpy数据数组
  • 高效的二进制序列化
  • 易于模型打包和部署
  • 稳健,精确评估

SpaCy的安装

先执行包的安装: pip install spacy ,再执行数据集和模型的下载。

模型地址:

比如想安装英文的,执行如下命令即可: python -m spacy download en_core_web_sm

使用时加载相应的模型:

由于官网没有中文的模型,针对中文模型安装稍微要麻烦些。

非官方中文模型地址:https://github.com/howl-anderson/Chinese_models_for_SpaCy

下载后执行: pip install ./zh_core_web_sm-2.0.5.tar.gz

安装后执行:

报如下错误:

初步判定是版本问题,重新安装spaCy: pip install spacy==2.0.5

重装完成后模型能正常加载,但是代码不能执行,报如下错误:

预估还是版本问题,重新一个个版本测试,终于将版本重装为2.0.16可顺利执行:

SpaCy的使用

使用示例:

Spacy里面实体的标签及其表示的含义:

PERSONPeople, including fictional.人物
NORPNationalities or religious or political groups.国家、宗教、政治团体
FACBuildings, airports, highways, bridges, etc.建筑、机场、高速公路、桥梁等
ORGCompanies, agencies, institutions, etc.组织公司、机构等
GPECountries, cities, states.国家、城市、州
LOCNon-GPE locations, mountain ranges, bodies of water.山脉、水体等
PRODUCTObjects, vehicles, foods, etc. (Not services.)车辆、食物等非服务性的产品
EVENTNamed hurricanes, battles, wars, sports events, etc.飓风、战争、体育赛事等
WORK_OF_ARTTitles of books, songs, etc.书名、歌名等
LAWNamed documents made into laws.法律文书
LANGUAGEAny named language.语言
DATEAbsolute or relative dates or periods.日期
TIMETimes smaller than a day.小于1天的时间
PERCENTPercentage, including “%”.百分比
MONEYMonetary values, including unit.货币价值
QUANTITYMeasurements, as of weight or distance.度量单位
ORDINAL“first”, “second”, etc.序数词
CARDINALNumerals that do not fall under another type.数量词

参考链接:

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

Python检验数据是否正态分布

判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起

数据探索Pandas-Profiling与Dataprep.…

在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profi

开源指标可视化工具Graphite

Graphite 是处理可视化和指标数据的优秀开源工具。它有强大的查询 API 和相当丰富的插件功能设置。事实

发表评论

电子邮件地址不会被公开。 必填项已用*标注