所有文章

中国行政区划边界GeoJSON数据

行政区划相关信息在GIS中算是不可或缺的基础数据,然而由于行政区划经常会进行调整,所以许多网上搜集的已经存在了不同程度的过时。国外的数据,又会有领土的问题。DataV是阿里云出品的拖拽式可视化工具,专精于业…

数据, 术→技巧 ·

Python地理数据可视化工具pyecharts

pyecharts简介 Echarts是百度开源的一个数据可视化JS库。可以流畅的运行在PC和移动设备上,底层依赖轻量级的矢量图形库ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。ECharts提供了常规的折线图…

器→工具, 工具软件 ·

数据探索工具Dataprep.eda

Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解…

器→工具, 工具软件 ·

数据探索工具Pandas-Profiling

在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用 Pandas 预览一部分数据。今天要介绍的 Pandas-Profiling 工具可以使得以上的…

器→工具, 工具软件 ·

腾讯自然语言工具TexSmart

TexSmart 简介 TexSmart是由腾讯人工智能实验室的自然语言处理团队开发的一套自然语言理解工具与服务,用以对中文和英文两种语言的文本进行词法、句法和语义分析。除了支持分词、词性标注、命名实体识别(NER)、句…

器→工具, 工具软件 ·

腾讯短文本匹配实践:公司名称匹配

项目背景 项目需要把两个独立的系统通过公司名称的匹配来实现数据打通,其中一个系统的公司数有40万+,另一个系统中需要匹配的公司数3600+,如果直接通过SQL LIKE形式的方式来关联两个系统,发现只有1100多家公司名…

数据, 术→技巧 ·

城市运营之商圈商业区数据完善

目前大部分O2O性质的服务(如外卖)都是以城市商圈未中心进行拓展的。在社区运营层面往往也需要商圈的信息,比如咸鱼的“鱼塘”也是基于商圈进行的运营。更加完善的商圈数据,无疑会更好的协助城市运营。由于商圈/商…

术→技巧, 研发, 运营 ·

正则表达式与Python Re模块

re模块是Python标准库中的一个模块,用于执行正则表达式操作。正则表达式是一种强大的工具,用于字符串匹配、查找、替换和解析。re模块提供了丰富的功能,支持复杂的模式匹配和字符串处理。 正则表达式简介 正则…

HTML解析抽取工具Beautiful Soup

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。这个特性lxml 差不多。 BeautifulSoup的安装 BeautifulSoup…

器→工具, 开源项目 ·

Python网络请求库Requests使用技巧

Requests 库是用来在 Python 中发出标准的 HTTP 请求。它将请求背后的复杂性抽象成一个漂亮,简单的 API,以便你可以专注于与服务交互和在应用程序中使用数据。 Requests POST/GET 参数 常用参数见下表: Reque…

术→技巧, 研发 ·