在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用Pandas预览一部分数据。今天要介绍的Pandas-Profiling工具可以使得以上的流程…
TexSmart简介 TexSmart是由腾讯人工智能实验室的自然语言处理团队开发的一套自然语言理解工具与服务,用以对中文和英文两种语言的文本进行词法、句法和语义分析。 除了支持分词、词性标注、命名实体识别(NER)、…
项目背景 项目需要把两个独立的系统通过公司名称的匹配来实现数据打通,其中一个系统的公司数有40万+,另一个系统中需要匹配的公司数3600+,如果直接通过SQL LIKE形式的方式来关联两个系统,发现只有1100多家公司…
目前大部分O2O性质的服务(如外卖)都是以城市商圈未中心进行拓展的。在社区运营层面往往也需要商圈的信息,比如咸鱼的“鱼塘”也是基于商圈进行的运营。更加完善的商圈数据,无疑会更好的协助城市运营。由于商圈/ 商…
re 模块是 Python 标准库中的一个模块,用于执行正则表达式操作。正则表达式是一种强大的工具,用于字符串匹配、查找、替换和解析。re 模块提供了丰富的功能,支持复杂的模式匹配和字符串处理。 正则表达式简…
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。这个特性lxml差不多。 Beautiful Soup的安装 Beautif…
Requests 库是用来在Python中发出标准的HTTP请求。它将请求背后的复杂性抽象成一个漂亮,简单的API,以便你可以专注于与服务交互和在应用程序中使用数据。 Requests POST/GET 参数 常用参数见下表: Req…
数据抓取时,经常遇到由于网络问题导致的程序异常,一开始的做法只是记录了错误内容,并对错误内容再进行后期处理。这里整理了一些更好的异常重试方法或机制。 初始版本: def crawl_page(url): pass …
在数据抓取过程中,经常遇到需要解析HTML中的内容,常用的是用正则表达式,今天主要介绍lxml工具及xpath的语法。 lxml简介 lxml 是一款高性能Python XML 库,它天生支持 XPath 1.0、XSLT 1.0、定制元素类,甚至 P…
条件随机场(conditional random field, CRF)是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X, Y)…