分类: 数据

纯真IP数据库的解析与读取

纯真IP库是民间自发收集、提交、聚合而来的数据库,囊括了国内外的大量IP数据。它的官网提供了记录提交和纠错的功能,管理员在统一整合后每5天更新一次。纯真IP库是完全免费的,它的官网上有在线查询功能,同时也可…

数据, 术→技巧 ·

Pandas数据处理简明教程

在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Panda…

Pandas+SQLAlchemy与数据库交互

在使用Pandas分析数据时,除了读取文本类数据,如Excel、CSV文件外,还会涉及到数据库的读取。通常的方案是Pandas+ SQLAlchemy。 以下内容是记录的一些操作记录,算是备忘。 使用sqlalchemy连接数据库 Eng…

Pandas中DataFrame的合并与连接

在使用Pandas处理数据时,有时需要多数据进行合并和连接操作,最常用的包括将多个分割的文件进行合并: import pandas as pd import glob file_list = glob.glob('data/*') df_list = [] for file in file_l…

决策树可视化方法与技巧

决策树相对其他算法有一个优点是可以对决策树模型进行可视化。决策树又分为分类树和回归树,前者用于预测分类后者用于预测数值。决策树的可视化可以帮助我们非常直观的了解算法细节。但在具体使用过程中可能会遇到…

数据, 术→技巧 ·

Jpuyter中使用PySpark连接Hive

公司的Jupyter环境支持PySpark。这样就可以非常方便的使用PySpark连接到Hive查询和使用。由于先前完全没有接触过Spark,所以整理了一些参考资料。 Spark Context PySpark里最核心的模块是SparkContext(简称sc),…

线性回归实战:波士顿房价预测

了解线性回归的原理后,为了更好的掌握相关的技能,需要进入实战,针对线性回归常见的方法有:Scikit和Statsmodels。 数据集的准备 美国波士顿房价的数据集是sklearn里面默认的数据集,sklearn内置的数据集都位于…

数据, 术→技巧 ·

游戏排名算法:Elo、Glicko、TrueSkill

Elo等级分制度 Elo等级分制度(英语:Elo rating system)是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估公认的权威标准,且被广泛用于国际象棋、围棋、足球…

数据, 术→技巧 ·

基于决策树的特征重要性评估

在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_…

数据, 术→技巧 ·

自然语言分析之汉字拆解

汉字是记录汉语的文字。汉字对发展中华民族的优秀文化起了重大的作用。汉字是世界上最古老的文字之一。汉字以象形字为基础,形、音、义、结合于一体,成为独特的方块形的表意体系的文字。 汉字的特点: …