分类: 数据

用户体系搭建之ID-Mapping

ID-Mapping简介 在推进用户画像和风险控制时,遇到的最大的问题是用户身份信息的混乱: 相同设备,不同账号间切换 相同用户,不同渠道下账号不相同,如微信小程序和APP 同个用户,在不同的设备商登录 …

数据, 术→技巧 ·

使用SQL统计箱形图数据

箱形图常用于数据的可视化,先前的文章中介绍过使用Python生成箱形图。箱形图中通常包含的数据有: 最小值(不包含异常值)Lower Whisker = Q1-1.5(Q3-Q1) 最大值(不包含异常值)Upper Whisker = Q3+1.5(Q…

数据, 术→技巧 ·

Python自动化之定时任务

在日常工作中,我们常常会用到需要周期性执行的任务,一种方式是采用Linux系统自带的crond结合命令行实现。另外一种方式是直接使用Python。接下里整理的是常见的Python定时任务的实现方式。 利用while True: +…

数据分析该知道的IP地址知识

第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址。即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析。最近在推进风控项…

数据, 术→技巧 ·

纯真IP数据库的解析与读取

纯真IP库是民间自发收集、提交、聚合而来的数据库,囊括了国内外的大量IP数据。它的官网提供了记录提交和纠错的功能,管理员在统一整合后每5天更新一次。纯真IP库是完全免费的,它的官网上有在线查询功能,同时也可…

数据, 术→技巧 ·

Pandas数据处理简明教程

在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Panda…

Pandas+SQLAlchemy与数据库交互

在使用Pandas分析数据时,除了读取文本类数据,如Excel、CSV文件外,还会涉及到数据库的读取。通常的方案是Pandas+ SQLAlchemy。 以下内容是记录的一些操作记录,算是备忘。 使用sqlalchemy连接数据库 Eng…

Pandas中DataFrame的合并与连接

在使用Pandas处理数据时,有时需要多数据进行合并和连接操作,最常用的包括将多个分割的文件进行合并: import pandas as pd import glob file_list = glob.glob('data/*') df_list = [] for file in file_l…

决策树可视化方法与技巧

决策树相对其他算法有一个优点是可以对决策树模型进行可视化。决策树又分为分类树和回归树,前者用于预测分类后者用于预测数值。决策树的可视化可以帮助我们非常直观的了解算法细节。但在具体使用过程中可能会遇到…

数据, 术→技巧 ·

Jpuyter中使用PySpark连接Hive

公司的Jupyter环境支持PySpark。这样就可以非常方便的使用PySpark连接到Hive查询和使用。由于先前完全没有接触过Spark,所以整理了一些参考资料。 Spark Context PySpark里最核心的模块是SparkContext(简称sc),…