分类: 术→技巧

数据缩放:标准化和归一化

数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同…

数据, 术→技巧 ·

JupyterLab HIVE数据同步流程

公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab …

数据, 术→技巧 ·

特征工程数据预处理之抽样

在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效…

数据, 术→技巧 ·

Python文件的读写操作

使用Python编程时,经常会遇到读写文件的操作。对于读写文件的各种模式(如阅读、写入、追加等)有时真的会迷惑人,以及搞不清open、read、readline、readlines、write、writelines等方法的使用也会把你绕的云里雾…

Python对象持久化存储工具pickle

Pickle Python 中有个序列化过程称为pickle,它能够实现任意对象与文本之间的相互转化,也可以实现任意对象与二进制之间的相互转化。也就是说,pickle 可以实现 Python 对象的存储及恢复。 序列化(picking)…

Python XML文件格式的解析

XML 指可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。XML 被设计用来传输和存储数据。 Python 有三种常见的 XML 解析方式:SAX(simple API for XML)、DOM(Docum…

术→技巧, 研发 ·

Python JSON/JSONP数据解析

JSON简介 JSON 即 JavaScript Object Natation,它是一种轻量级的数据交换格式,非常适合于服务器与 JavaScript 的交互。 在普通的 Web 应用中,开发者经常为 XML 的解析伤透了脑筋,无论是服务器端生成或…

术→技巧, 研发 ·

基于AIML的Python聊天机器人搭建

AIML简介 AIML全名为Artificial Intelligence Markup Language(人工智能标记语言),是一种创建自然语言软件代理的XML语言,是由RichardS. Wallace 博士和Alicebot开源软件组织于1995-2000年间发明创造的。AIML是…

使用Scikit-Learn提取文本特征

文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题Scikit-Learn提供了将文本转化为数值型特征的方法,今天就一起来…

数据, 术→技巧 ·

Python处理文本中的控制字符

先前在使用Python进行抓取的时候,遇到读取数据的错误。经过分析发现原来返回的HTML中包含控制字符(原来防爬虫还可以这么干,控制字符在抓取程序中容易引起报错,但是在浏览器中呈现给用户的时候确没有什么影响)…