标点符(钱魏 Way)

网站技术信息查询工具BuiltWith

当需要对某些网站所使用的技术进行深入了解时,除了人工的查看一些细节,还可以使用一些工具来快速的获取的站点的一些技术信息。今天要推荐的网站叫BuiltWith。通过BultWith,你可以查询出某网站背后是由哪些技术来支持的,比如:操作系统的类型、所采用的访问量统计服务、采用的发布平台、广告平台、语言框架、聚合功能、页面文档信息、网站编码及操作系统信息等等,同时对于查询出来的每项技术,也提供了当前业 […]

文本内容相似度计算方法:simhash

如何比较两篇文章的相似度在互联网搜索引擎层面使用的非常广泛,试想,如果不进行类似的比较,在当前互联网信息抄来抄去的情况下,搜索引擎结果页排在前面的结果可能都是相似的内容。Google为了避免出现上述的问题,在WWW07的论文Detecting Near-Duplicates for Web Crawling 基础上整出了simhash。 simhash的背景 常见的余弦夹角算法、欧式距离、Jacc […]

中文进行繁简转换

中文的简繁转换看起来是一个简单的工作,但是细想下还是有一些问题的,因为字符间并不是简单的一一对应,不仅存在一简对多繁,也存在多简对一繁。比如:

要正确完成这样的转换,就要在单字对应关系之外加上词组对应。可以常用的工具有:Office Word、Google翻译及ConvertZ,除了字形以外,不同地区有些名称对应的叫法也不一样,如中 […]

Python装饰器的学习笔记

装饰器(decorator)是一种高级Python语法。可以对一个函数、方法或者类进行加工。在Python中,我们有多种方法对函数和类进行加工,相对于其它方式,装饰器语法简单,代码可读性高。因此,装饰器在Python项目中有广泛的应用。修饰器经常被用于有切面需求的场景,较为经典的有插入日志、性能测试、事务处理, Web权限校验, Cache等。很有名的例子,就是咖啡,加糖的咖啡,加牛奶的咖啡。本质 […]

Python 日期时间处理模块学习笔记

Python的时间处理模块在日常的使用中用的不是非常的多,但是使用的时候基本上都是要查资料,还是有些麻烦的,梳理下,便于以后方便的使用。关于时间需要先了解的几个概念: 秒 在1967年的第13届国际度量衡会议上决定以原子时定义的秒作为时间的国际标准单位:铯133原子基态的两个超精细能阶间跃迁对应辐射的9,192,631,770个周期的持续时间, 起始历元定在1958年1月1日0时。 原子钟是一种时 […]

Python random模块学习笔记

random 模块是Python自带的模块,除了生成最简单的随机数以外,还有很多功能。 random.random() 用来生成一个0~1之间的随机浮点数,范围[0,10

random.uniform(a,b) 返回a,b之间的随机浮点数,范围[a,b]或[a,b),取决于四舍五入,a不一定要比b小。 [crayon-588023f […]

python中 if __name__ == ‘__main__’: 的作用

在很多Python代码中,在代码的最下方会看到  if __name__ == '__main__': 对于这段代码,以前只知道是这么用的,也没有深究具体的作用。 在理解这个语句的作用前,需要知道的是,一般的Python文件后缀为.py,其可以拿来执行,也可以用来作为模块使用import导入。当Python解析器读取一个源文件时它会执行所有的代码。在执行代码前会定义一些特殊的变量。如 […]

Linux学习笔记:文件的颜色

在使用ls 命令时,可以发现不同类型的文件,颜色不同,具体每种颜色代表哪类文件?今天就一起来学习下。 默认情况下,在命令行中输入 dircolors 即可了解到具体的配置信息:

配置信息中(rs、di、ln等)对应的是不同的不同类型的文件,常见的内容为: di Directory fi […]

Linux学习笔记:文件的权限

Linux 是一个多用户、多任务的系统,常常有多人同时使用一台机工作,为了保护每个人的隐私权,“文件所有者”的角色就显得相当重要了。当Linux用户登录系统之后,就会携带一个用户身份(User ID,UID)和一个用户组身份(Group ID,GID),相当于自己的名片。当需要访问文件或程序时,刷一下名片就能知道是否能读、写、执行了。。 在根目录下输入[crayon-588023f74c92831 […]

Linux学习笔记:用户及用户组

Linux用户只有两个等级:root及非root。Linux中还有一部分用户,如:apache、mysql、nobody、ftp等,这些也都是非root用户,即普通用户。Linux的权限实际是上不同用户所能访问的文件的不同产生的假象。而这些假象的造成,还要涉及到另外一个概念:用户组 一个用户至少要属于一个用户组 一个用户可以属于多个用户组 用户组存在的原因主要还是方便分配权限。而用户本身和权限的差 […]