标点符(钱魏 Way)

Django的学习:了解Django

Django是什么? Django是一个基于Python的Web应用框架。它与Python的另外一个Web 框架 Flask最大的区别是,它奉行 “包含一切” 的哲学。该理念即为:创建 Web 应用所需的通用功能都应该包含到框架中,而不应存在于独立的软件包中。例如,身份验证、 URL 路由、 模板系统、 对象关系映射 (ORM) 和 数据库迁移等功能都已包含在Django 框架中。虽然看上去失去了 […]

知乎话题结构的数据库设计

先前一直在研究好的树形结构的数据存储方案,也在博客中详细的分析了关系数据库中各种树形结构数据的设计。但是仔细分析下来离自己想要实现的树形结构的数据还是有一些差距。前端时间看了下知乎的树形的话题机构,发现目前知乎的实现方案还是非常的不错。以下为整理的一些信息,目前不清楚知乎后端是如何实现的。 知乎话题的价值 知乎上,大的话题一般有很多的关注者,但可能仅仅是对这个话题有宽泛的兴趣;细分话题的关注者可能 […]

词向量工具word2vec的学习

什么是word2vec? word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。 word2vec通过训练,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,word2 […]

基于leveldb的Nosql数据库SSDB

SSDB 是一个 C/C++ 语言开发的高性能 NoSQL 数据库,支持 zset(sorted set), map(hash), kv, list 等数据结构,用来替代或者与 Redis 配合存储十亿级别的列表数据。 SSDB 的主要特点: 支持 zset, map/hash, list, kv 数据结构, 可替代 Redis 特别适合存储大量集合数据, 支持丰富的数据结构: key-value […]

Cygwin、MinG、MSys区别与联系

什么是Cygwin? Cygwin,原Cygnus出品(已被红帽收购),目前是RedHat名下的项目。项目的目的是提供运行于 Windows 平台的类 Unix 环境(以 GNU 工具为代表)。为了达到这个目的,Cygwin 提供了一套抽象层 dll,用于将部分 Posix 调用转换成 Windows 的 API 调用,实现相关功能。这里面最典型的,最基本的模拟层就是那个cygwin1.dll。除 […]

CentOS 7.2 安装 Portia 记录

Portia 是 scrapyhub 开源的一款可视化爬虫规则编写工具。Portia 提供了可视化的 Web 页面,只需通过简单点击,标注页面上需提取的相应数据,无需任何编程知识即可完成爬取规则的开发。这些规则还可在 Scrapy 中使用,用于抓取页面。 官方说明文档推荐使用Vagrant安装,或者使用Docker,另外给出的方法只支持Debian系的系统(如Debian或Ubuntu)进行安装, […]

Python学习笔记:continue、pass、break的区别

pass 不做任何事情,只起到占位的作用,也就是说它是一个空操作 continue 当continue语句在循环结构中执行时,并不会退出循环结构,而是立即结束本次循环,重新开始下一轮循环,也就是说,跳过循环体中在continue语句之后的所有语句,继续下一轮循环。 break 当break语句在循环结构中执行时,它会导致立即跳出循环结构,转而执行该结构后面的语句。 exit() 结束整个程序

使用Python操作SQLite

创建数据库及表 首先,创建数据库,以及数据库中的表。在使用connect()连接数据库后,就可以通过定位指针cursor,来执行SQL命令:

插入数据

SQL语句中的参数,使用”?”作为替代符号,并在后面的参数中给出具体值。这里不建议用Pyth […]

字符串hash函数

什么是Hash? Hash,一般翻译做“散列”,也有直接音译为”哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。 数学表述为:h = H(M) ,其中H( )&#8 […]

文本文件中控制字符的处理(Python)

先前在使用Python的时候遇到过遇到文档中出现控制字符报错的问题。 控制字符(Control Character),或者说非打印字符,出现于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等。 具体控制字符一共有下面两个集合: 七位ASCII定 […]