所有文章

iOS中的设备唯一标识码

iOS中的设备唯一标识 在iOS7之前,曾经有过很多获取设备唯一标识的方法。但是它们都先后被苹果禁止掉了。这些被禁止掉的包括UDID、Mac地址、OpenUDID。在iOS7之后,我们可以选择的唯一标识有IDFA、IDFV、DeviceToke…

数据, 术→技巧, 研发 ·

Android 设备安全检测

为了应付黑产,需要对 Android 设备进行安全性检测来确定风险的大小。 Android 安全机制 Android 采用分层的系统架构,由下往上分别是 linux 内核层、硬件抽象层、系统运行时库层、应用程序框架层和应用程序层。A…

数据, 术→技巧, 研发 ·

Excel数据表格设计指南

虽然没有哪一种单一的可视化方式在展现量化信息时最有效,但当你需要说明特定意义的数据时,“表格”无疑是你的理想选择。将数据信息放置在格子框架中,经过精心的易用性设计,将为用户提供一种高效查阅和比较的手段…

数据, 术→技巧 ·

机器学习之特征选择方法

特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相…

数据, 术→技巧 ·

算法模型自动超参数优化方法

什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter)。还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyperparameter)。超…

Python pip源与Anaconda conda源修改

由于某些不可抗因素,Python官方的包在国内有时无法访问或出现网络不稳定现象。conda源也会出现网络链接失败的问题。为了解决这个问题,这里梳理了一些配置方法。 Pip与Conda的比较 依赖项检查 pip:不一定会展…

器→工具, 工具软件 ·

数据缩放:标准化和归一化

数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同…

数据, 术→技巧 ·

JupyterLab HIVE数据同步流程

公司的数据存放在 HDFS 上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从 Hive 同步到 JupyterLa…

数据, 术→技巧 ·

特征工程数据预处理之抽样

在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效要求,通过…

数据, 术→技巧 ·

Python文件的读写操作

使用 Python 编程时,经常会遇到读写文件的操作。对于读写文件的各种模式(如阅读、写入、追加等)有时真的会迷惑人,以及搞不清 open、read、readline、readlines、write、writelines 等方法的使用也会把你绕的云…