All Stories

Pandas学习笔记:Excel、CSV文件的读取与导出

在使用Pandas处理数据时,常见的读取数据的方式时从Excel或CSV文件中获取,另外有时也会需要将处理完的数据输出为Excel或CSV文件。今天就一起来学习下Pandas常见的文件读取与导出的方法。
1 min read

Chrome扩展程序代码路径

Chrome中安装了一个翻译的扩展程序,但该扩展程序对“复制”进行了监听,每次复制翻译的内容都弹出一个框要求注册或登陆。而登陆以后的会对的翻译次数做限制。
6 sec read

Chrome占用大量内存的解决方法

在日常使用Chrome的过程中会发现其非常的占用内存。原因是Chrome对每个插件和浏览器标签页都新开一个单独进程,这样的好处在于其中一个进程崩溃了,比如Flash崩溃,不会影响整个网页,至少不会同时影响所有标签页。这样做的结果是每个标签页都要重复开启 ...
6 sec read

Pandas学习笔记之数据类型

Pandas是建立在Numpy上,并与其他第三方库在科学运算环境中有较好兼容性的包。其最大的特色在于提供灵活直观的数据结构来处理关联和有标签的数据。如果从底层视角观察Pandas,可以把它看成增强版的NumPy结构化数据,行列都不再只是简单的整数索引,还可以 ...
13 sec read

PySpider框架简介及安装

PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
35 sec read

Windows安装Docker记录

Docker是一种容器技术,可以将应用和环境等进行打包,形成一个独立的、类似于iOS的APP形式的应用。这个应用可以直接分发到任意一个支持Docker的环境中,通过简单的命令即可启动运行。Docker是一种最流行的容器化实现方案,和虚拟化技术类似,它极大的方便 ...
22 sec read

Windows下安装Tesserocr

在爬虫过程中,经常会遇到各种验证码,大多数验证码是图形验证码,先前的文章中有介绍到破解图形验证码的原理。最简单的破击验证码的方式是使用OCR。
16 sec read

Selenium在Windows 上的安装

Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。Selenium是一款使用Apache License 2.0协议发布的开源框架。
34 sec read

Google云平台的用户账户密码设计最佳实践

账户管理、授权和密码管理可能对于许多开发者来说是一个没有得到足够关注的黑暗角落。以下内容是Google与平台总结的12条最佳实践。
13 sec read

SQL技巧分享 2018-08-09

以下SQL技巧为最近一周最新掌握的,记录下来以便后期使用。 1、随机抽样数据 HIVE SQL实现: MSSQL T-SQL实现: 注意,T-SQL虽然也有rand()函数,生成的也是随机数,但在此 ...
17 sec read

用户模型之三层身份模型

先前介绍过三户模型,这天要介绍的是三层身份模型,从使用层面,三户模型更加适合交易类网站,三层身份模型可能更加适合社交性质的网站。三层身份模型将用户分层三个层次,分别为:账户标识符,登录标识符和公开标识符。翻译成大白话可以是:账户ID、登陆 ...
3 sec read

全局唯一ID生成方案

在实现大型分布式程序时,通常会有全局唯一ID生成的需求,用来对每一个对象标识一个代号。另外,业务层对于全局唯一ID生成也有要求:
1 min read