Python

使用Python更换外网IP

在进行数据抓取时,经常会遇到IP被限制的情况,常见的解决方案是搭建代理IP池,或购买IP代理的服务。除此之外,还有一个另外的方法就是使用家里的宽带网络进行抓取。由于家里的宽带每次断开重新连接时都会分配一个新的IP,所以在我们抓取数据的时候,判断 ...
2 sec read

Python多线程与多进程

在学习Python的过程中,有接触到多线程编程相关的知识点,先前一直都没有彻底的搞明白。今天准备花一些时间,把里面的细节尽可能的梳理清楚。
4 min read

聚类算法之K-Means及其变种

根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本中值包含样本的特征,不包含样本的标签信息。在聚类算法中。利用样本的特征,将具有相似属性的样本划分到统一类别中, ...
48 sec read

Python Requests 抓取失败时的重试设置

最近在抓取数据的时候,经常遇到连接超时的问题,分析原因居然是DNS污染导致的,为了让程序更加稳健,需要对requests请求实现失败重试的逻辑。
6 sec read

Python连接和使用MongoDB学习笔记

MongoDB相对于传统的关系型数据库,可以存储JSON数据,非常适合存储数据抓取返回的JSON数据。先前介绍过MongoDB在Windows的安装,今天主要学习的是使用Python连接MongoDB,并进行增删改查的操作。
24 sec read

Python数据分析学习笔记:Numpy(三)

统计函数 NumPy 有很多有用的统计函数,用于从数组中给定的元素中查找最小,最大,百分标准差和方差等。 函数说明如下: numpy.amin()和numpy.amax()这些函数从给定数组中的元素沿指定轴返回最小值和最大值。 示例: [crayon-5b27b3bf9b60e426690 ...
1 min read

Python数据分析学习笔记:Numpy(二)

切片和索引 ndarray对象的内容可以通过索引或切片来访问和修改,就像 Python 的内置容器对象一样。如前所述,ndarray对象中的元素遵循基于零的索引。有三种可用的索引方法类型:字段访问,基本切片和高级索引。 基本切片 基本切片是 Python 中基本 ...
2 min read

Python数据分析学习笔记:Numpy(一)

NumPy 是一个Python包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。Numeric,即NumPy的前身,是由Jim Hugunin开发的。2005年,Travis Oliphant 通过将Numarray的功能集成到Numeric包中来创建NumPy包。NumPy 通 ...
1 min read

Python下的图表类库pyecharts

今天在学习别人的数据处理的时候接触到了pyecharts,使用起来非常方便,记录下。 Echarts是百度开源的一个数据可视化 JS 库。pyecharts 是一个用于生成 Echarts 图表的类库。Pyecharts使用起来非常简单。除了支持在Jupyter Notebook内使用外,还支持在 ...
9 sec read

Django学习笔记:模型

ORM简介 ORM,即Object-Relational Mapping(对象关系映射),它的作用是在关系型数据库和业务实体对象之间作一个映射,ORM 为关系型数据库提供了高级的抽象,它使得开发人员不必写 SQL,只需写代码就能在数据库中创建、读取、更新和删除数据。开发人员 ...
2 min read

Windows 10 安装 MySQL-Python记录(Python3.6)

MySQL-python是一个Python的MySQL连接库,安装后可以让Python方便的连接和查询MySQL,以下是我再Windows系统中安装MySQL-python遇到的问题及解决方案。
13 sec read

Python Requests编码问题解决方案

在使用python requests时,有时会出现编码错误的问题,导致的主要原因是编码识别出错了。当获取到的内容出现乱码时,最常出现的错误是将编码识别成了ISO-8859-1。
52 sec read