数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同…
公司的数据存放在 HDFS 上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从 Hive 同步到 JupyterLa…
在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效要求,通过…
使用 Python 编程时,经常会遇到读写文件的操作。对于读写文件的各种模式(如阅读、写入、追加等)有时真的会迷惑人,以及搞不清 open、read、readline、readlines、write、writelines 等方法的使用也会把你绕的云…
Pickle Python中有个序列化过程称为pickle,它能够实现任意对象与文本之间的相互转化,也可以实现任意对象与二进制之间的相互转化。也就是说,pickle可以实现Python对象的存储及恢复。 序列化(picking):把变量从…
单机时代,采用单块磁盘进行数据存储和读写的方式,由于寻址和读写的时间消耗,导致I/O性能非常低,且存储容量还会受到限制。另外,单块磁盘极其容易出现物理故障,经常导致数据的丢失。因此大家就在想,有没有一种…
XML指可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。XML被设计用来传输和存储数据。 Python有三种常见的XML解析方式:SAX(simple API for XML)、DOM(Document Obj…
JSON简介 JSON即JavaScript Object Notation,它是一种轻量级的数据交换格式,非常适合于服务器与JavaScript的交互。 在普通的Web应用中,开发者经常为XML的解析伤透了脑筋,无论是服务器端生成或处理XML,还是…
AIML简介 AIML全名为 Artificial Intelligence Markup Language(人工智能标记语言),是一种创建自然语言软件代理的 XML 语言,是由 Richard S. Wallace 博士和 Alicebot 开源软件组织于 1995-2000 年间发明创造的…
在使用Python处理数据的时候,经常会需要处理Excel中的数据。现在基本上都使用Pandas读取Excel中的数据,但是除了Pandas以外,还有一些Python包可以满足对Excel数据的读取。 在开始之前,先学习下Excel中涉及到…