分类: 术→技巧

使用Scikit-Learn提取文本特征

文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题 Scikit-Learn 提供了将文本转化为数值型特征的方法,今天就一起…

数据, 术→技巧 ·

Python处理文本中的控制字符

先前在使用Python进行抓取的时候,遇到读取数据的错误。经过分析发现原来返回的HTML中包含控制字符(原来防爬虫还可以这么干,控制字符在抓取程序中容易引起报错,但是在浏览器中呈现给用户的时候确没有什么影响)…

字符编码问题及Python解决方案

程序开发中最容易遇到,最烦,最恶心的问题是什么?字符编码问题!本文期望通过最详尽的梳理来解决这个问题。 什么是编码? 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二…

MySQL InnoDB行记录格式

在早期的 InnoDB 版本中,由于文件格式只有一种,因此不需要为此文件格式命名。随着 InnoDB 引擎的发展,开发出了不兼容早期版本的新文件格式,用于支持新的功能。为了在升级和降级情况下帮助管理系统的兼容性,以…

SQL 日期/时间处理函数

在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下…

InnoDB共享表空间和独立表空间

MySQL数据库索引结构 在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,MySQL存储引擎MyISAM、InnoDB文章中,我们讲到了两者在存储结构上的差异。下面主要讨论MyISAM和InnoDB两个存…

私人Git服务器搭建:Gogs/Gitea

Git 是由 Linux Torvalds 开发的一个版本控制系统,现如今正在被全世界大量开发者使用。许多公司喜欢使用基于 Git 版本控制的 GitHub 代码托管。GitHub 是现如今全世界最大的代码托管网站。许多大型公司现如今也将…

术→技巧, 研发, 运维 ·

Ubuntu Server 20.04 WordPress环境安装与配置

博客先前部署在阿里云上马上就要过期,正好双11腾讯云做活动,所以将服务器迁移到腾讯云。迁移的同时打算换个操作系统部署,将原有的CentOS7.4更换为Ubuntu20.04LTS。 其他环境基本不变,还是和以前一样使用Nginx+…

术→技巧, 研发, 运维 ·

Session,Cookie,LocalStorage 与 SessionStorage

什么是Session? 在计算机科学领域来说,尤其是在网络领域,session是一种持久网络协议,在用户(或用户代理)端和服务器端之间创建关联,从而起到交换数据包的作用机制,session在网络协议(例如telnet或FTP)中是…

术→技巧, 研发 ·

使用渐进式JPEG来提升用户体验

今天学习到原来JPEG文件有两种保存方式他们分别是Baseline JPEG(标准型)和Progressive JPEG(渐进式)。两种格式有相同尺寸以及图像数据,他们的扩展名也是相同的,唯一的区别是二者显示的方式不同。 Baseline JP…

术→技巧, 研发 ·