分类: 器→工具

自然语言分析之汉字转拼音

在自然语言的处理中语义分析中,除了需要拆解字形外,字音有时也能表示含义。另外,在搭建搜索引擎时在搜索词query分析是也会的用到汉字转拼音或拼音转汉字的场景。 Python已经有很多包支持类似的功能,整理…

器→工具, 开源项目 ·

Jupyter学习笔记:IPython魔法命令

Jupyter与IPython的关系 IPython是个比默认的Python Shell好用得多的Python交互命令行界面,支持变量自动补全、自动缩进、Bash Shell命令,还内置了许多很有用的功能和函数。大大提高交互式计算和软件开发的生产率…

器→工具, 工具软件 ·

自然语言分析之汉字拆解

汉字是记录汉语的文字。汉字对发展中华民族的优秀文化起了重大的作用。汉字是世界上最古老的文字之一。汉字以象形字为基础,形、音、义、结合于一体,成为独特的方块形的表意体系的文字。 汉字的特点: …

Matplotlib初级入门教程

Matplotlib简介 MATLAB MATLAB是Matrix & Laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国 Mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。 它将数…

家庭存储:Gen 8 折腾记

硬件篇 家里原先的希捷GoAgent Home突然不能使用了(后面确认下来机器没有坏,是电源适配器坏了,话说希捷配的电源适配器真的很容易坏掉。),为了保障数据的安全,于是打算购买一台NAS,对于NAS的要求:支持Raid1…

器→工具, 工具软件 ·

Python模块、包、库、框架

在使用Python的过程中,经常会被模块、库、包、框架这几个概念搞混。今天抽时间对这几个概念做下梳理。 模块(Module) 模块是一种以.py为后缀的文件,在.py文件中定义了一些常量和函数。模块的名称是该.py文件的…

比t-SNE更好的降维算法UMAP

针对高维数据的降维,先前使用的是t-SNE。无意中接触到umap,发现还是蛮有啥意思的。整理了一些资料供以后深入研究。 UMAP简介 UMAP ,全称uniform manifold approximation and projection,统一流形逼近与投影,…

深入分析Google Analytics原理与实现

以下内容是自己十年前整理的,期间翻看了Google Analytics的所有帮助文档,查看了商业版本的Urchin及代码。最终对Google Analytics有了大致了解,并基于实际需求,搭建了一套更加完善的数据跟踪体系,相关资料分享…

网页正文提取工具Readability

什么是Readability? 如果你在网上看到一篇不错的文章想收藏起来稍后再读,却又不想同时保存那一大堆花花绿绿的广告或无关紧要的一些网页元素,那么你可以试试 Readability 了! Readability 是一个颇有特色的“…

分布式全局唯一ID生成方案

在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。对数据分库分表后需要有一个唯一ID来标识一条数据或消息,数据库的自增ID显然不能满足需求此时一个能够生成全局唯一ID的系统是非常必要的。概括下来…