GeoPandas简介 GeoPandas是一个开源项目,旨在让使用Python进行地理空间数据分析变得更容易。它是在Pandas数据分析库的基础上构建的,用于处理地理空间数据。GeoPandas扩展了Pandas,使得可以直接使用空间数据(地…
pyecharts简介 Echarts是百度开源的一个数据可视化JS库。可以流畅的运行在PC和移动设备上,底层依赖轻量级的矢量图形库ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。ECharts提供了常规的折线图…
Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解…
在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用 Pandas 预览一部分数据。今天要介绍的 Pandas-Profiling 工具可以使得以上的…
TexSmart 简介 TexSmart是由腾讯人工智能实验室的自然语言处理团队开发的一套自然语言理解工具与服务,用以对中文和英文两种语言的文本进行词法、句法和语义分析。除了支持分词、词性标注、命名实体识别(NER)、句…
re模块是Python标准库中的一个模块,用于执行正则表达式操作。正则表达式是一种强大的工具,用于字符串匹配、查找、替换和解析。re模块提供了丰富的功能,支持复杂的模式匹配和字符串处理。 正则表达式简介 正则…
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。这个特性lxml 差不多。 BeautifulSoup的安装 BeautifulSoup…
在数据抓取过程中,经常遇到需要解析HTML中的内容,常用的是用正则表达式,今天主要介绍lxml工具及xpath的语法。 lxml简介 lxml是一款高性能Python XML库,它天生支持XPath 1.0、XSLT 1.0、定制元素类,甚至Python…
条件随机场(conditional random field, CRF)是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X,Y)来…
Linux下文件的压缩与解压缩与Windows环境下有较大的区别,在Windows下只需要安装类似Winrar工具就能解压缩大部分文件,而在Linux命令行下每一种文件都有不同的压缩和解压缩方法。 常用Linux压缩解压缩命令 使用ta…