ID-Mapping简介 在推进用户画像和风险控制时,遇到的最大的问题是用户身份信息的混乱: 相同设备,不同账号间切换 相同用户,不同渠道下账号不相同,如微信小程序和APP 同个用户,在不同的设备商登录 … ID-Ma…
箱形图常用于数据的可视化,先前的文章中介绍过使用Python生成箱形图。箱形图中通常包含的数据有: 最小值(不包含异常值)Lower Whisker = Q1 - 1.5(Q3 - Q1) 最大值(不包含异常值)Upper Whisker = Q3 + 1.5(…
在日常工作中,我们常常会用到需要周期性执行的任务,一种方式是采用Linux系统自带的crond 结合命令行实现。另外一种方式是直接使用Python。接下里整理的是常见的Python定时任务的实现方式。 利用while True: + s…
第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址。即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析。最近在推进风控项…
纯真IP库是民间自发收集、提交、聚合而来的数据库,囊括了国内外的大量IP数据。它的官网提供了记录提交和纠错的功能,管理员在统一整合后每5天更新一次。纯真IP库是完全免费的,它的官网上有在线查询功能,同时也可…
在使用 Python 处理分析数据的时候,用的最多的算是 Pandas 时,由于 Pandas 是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas 简介 …
在使用Pandas分析数据时,除了读取文本类数据,如Excel、CSV文件外,还会涉及到数据库的读取。通常的方案是Pandas+SQLAlchemy。 以下内容是记录的一些操作记录,算是备忘。 使用sqlalchemy连接数据库 Engine翻译…
在使用Pandas处理数据时,有时需要多数据进行合并和连接操作,最常用的包括将多个分割的文件进行合并: import pandas as pd import glob file_list = glob.glob('data/*') df_list = [] for file in file_list: …
决策树相对其他算法有一个优点是可以对决策树模型进行可视化。决策树又分为分类树和回归树,前者用于预测分类后者用于预测数值。决策树的可视化可以帮助我们非常直观的了解算法细节。但在具体使用过程中可能会遇到…
公司的 Jupyter 环境支持 PySpark。这样就可以非常方便的使用 PySpark 连接到 Hive 查询和使用。由于先前完全没有接触过 Spark,所以整理了一些参考资料。 SparkContext PySpark 里最核心的模块是 SparkContext(…