公司的 Jupyter 环境支持 PySpark。这样就可以非常方便的使用 PySpark 连接到 Hive 查询和使用。由于先前完全没有接触过 Spark,所以整理了一些参考资料。 SparkContext PySpark 里最核心的模块是 SparkContext(…
在日常工作中,除了会涉及到使用Python处理文本文件,有时候还会涉及对压缩文件的处理。 通常会涉及到的压缩文件格式有: rar:Windows环境下用的比较多的压缩,比较著名的GUI工具是winrar tar:Linux系统下的…
Jupyter与IPython的关系 IPython 是个比默认的 Python Shell 好用得多的 Python 交互命令行界面,支持变量自动补全、自动缩进、Bash Shell 命令,还内置了许多很有用的功能和函数。大大提高交互式计算和软件开发的…
Matplotlib简介 MATLAB MATLAB是Matrix&Laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国Mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。 它将数值分析、…
硬件篇 家里原先的希捷 GoAgent Home 突然不能使用了(后面确认下来机器没有坏,是电源适配器坏了,话说希捷配的电源适配器真的很容易坏掉。),为了保障数据的安全,于是打算购买一台 NAS,对于 NAS 的要求:支持 …
针对高维数据的降维,先前使用的是t-SNE。无意中接触到UMAP,发现还是蛮有啥意思的。整理了一些资料供以后深入研究。 UMAP简介 UMAP,全称 uniform manifold approximation and projection,统一流形逼近与投影,是…
以下内容是自己十年前整理的,期间翻看了 Google Analytics 的所有帮助文档,查看了商业版本的 Urchin 及代码。最终对 Google Analytics 有了大致了解,并基于实际需求,搭建了一套更加完善的数据跟踪体系,相关资…
什么是Readability? 如果你在网上看到一篇不错的文章想收藏起来稍后再读,却又不想同时保存那一大堆花花绿绿的广告或无关紧要的一些网页元素,那么你可以试试Readability了! Readability是一个颇有特色的“稍后阅…
PHP已经没有像当年个人网站蓬勃发展是那么火热,但期间留下来的很多开源的程序还是有非常高的学习和使用价值,比如这个博客正在使用的WordPress。在研究PHP代码的过程中需要部署PHP的运行环境,比较简单的方法是使…
计算机的文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易,文件系统使用文件和树形目录的抽象逻辑概念代替了硬盘和光盘等物理设备使用数据块的概念,用户使用文件系统来保存数据不必关心…