文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题 Scikit-Learn 提供了将文本转化为数值型特征的方法,今天就一起…
先前在使用Python进行抓取的时候,遇到读取数据的错误。经过分析发现原来返回的HTML中包含控制字符(原来防爬虫还可以这么干,控制字符在抓取程序中容易引起报错,但是在浏览器中呈现给用户的时候确没有什么影响)…
程序开发中最容易遇到,最烦,最恶心的问题是什么?字符编码问题!本文期望通过最详尽的梳理来解决这个问题。 什么是编码? 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二…
在早期的 InnoDB 版本中,由于文件格式只有一种,因此不需要为此文件格式命名。随着 InnoDB 引擎的发展,开发出了不兼容早期版本的新文件格式,用于支持新的功能。为了在升级和降级情况下帮助管理系统的兼容性,以…
在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下…
Python有很多Web框架:Django、Flask、Tornodo、web.py。我们可以基于这些框架来开发我们的网站。这些框架其实是给我们封装了很多底层的实现。比如WSGI、模板、映射等功能。为了在使用这些框架时对其有更深入的了解…
WSGI (Python Web Server Gateway Interface) 为 Web Server 和 Python Web Application 之间提供了标准的数据通道。是 Python 界的一个广泛的可用的 WEB API 规范,使 web server 提供更加规范的 API,给 web Appl…
PEP 全称是 Python Enhancement Proposal,翻译成中文是 Python 改进提案。为什么会有 C 语言的风格指南?原因是 Python 本身是由 C 语言实现的。这里整理的是PEP 7 -- Style Guide for C Code 的翻译。 介绍 这…
Python编码规范PEP8文章中提到了PEP257,Docstring书写规范。什么是Docstring?简单的说Docstring是一种文档字符串,用于解释构造的作用。我们在函数、类或方法中将它放在首位来描述其作用。我们用三个单引号或双引…
对于Web系统来说,客户端一般就是浏览器,客户端与服务器之间使用HTTP协议通讯。在Python的Web开发中,服务器与Python Web应用之间交互的协议就是WSGI。它由PEP 333提出,并在PEP 3333中做了补充。如果你也想阅读WS…