GeoPandas简介 GeoPandas是一个开源项目,旨在让使用Python进行地理空间数据分析变得更容易。它是在Pandas数据分析库的基础上构建的,用于处理地理空间数据。GeoPandas扩展了Pandas,使得可以直接使用空间数据(地…
pyecharts简介 Echarts是百度开源的一个数据可视化JS库。可以流畅的运行在PC和移动设备上,底层依赖轻量级的矢量图形库ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。ECharts提供了常规的折线图…
Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解…
在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用 Pandas 预览一部分数据。今天要介绍的 Pandas-Profiling 工具可以使得以上的…
TexSmart 简介 TexSmart是由腾讯人工智能实验室的自然语言处理团队开发的一套自然语言理解工具与服务,用以对中文和英文两种语言的文本进行词法、句法和语义分析。除了支持分词、词性标注、命名实体识别(NER)、句…
条件随机场(conditional random field, CRF)是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X,Y)来…
Linux下文件的压缩与解压缩与Windows环境下有较大的区别,在Windows下只需要安装类似Winrar工具就能解压缩大部分文件,而在Linux命令行下每一种文件都有不同的压缩和解压缩方法。 常用Linux压缩解压缩命令 使用ta…
NLTK简介 NLTK (Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用 python 语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-…
宿主服务器使用的是 Ubuntu 18.04,需要注意的是 Docker 目前不支持 Ubuntu 19.10。如要在 19.10 中使用 Docker 需要在 Docker 源配置时设置 Ubuntu 18.04 的版本标识:bionic。 deb [arch=amd64] https://download…
Elasticsearch 是一个基于Apache Lucene (TM) 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene 只是一个库。想要使用它,你必须使用…