针对高维数据的降维,先前使用的是t-SNE。无意中接触到UMAP,发现还是蛮有啥意思的。整理了一些资料供以后深入研究。 UMAP简介 UMAP,全称 uniform manifold approximation and projection,统一流形逼近与投影,是…
以下内容是自己十年前整理的,期间翻看了 Google Analytics 的所有帮助文档,查看了商业版本的 Urchin 及代码。最终对 Google Analytics 有了大致了解,并基于实际需求,搭建了一套更加完善的数据跟踪体系,相关资…
什么是Readability? 如果你在网上看到一篇不错的文章想收藏起来稍后再读,却又不想同时保存那一大堆花花绿绿的广告或无关紧要的一些网页元素,那么你可以试试Readability了! Readability是一个颇有特色的“稍后阅…
在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。对数据分库分表后需要有一个唯一ID来标识一条数据或消息,数据库的自增ID显然不能满足需求此时一个能够生成全局唯一ID的系统是非常必要的。概括下来…
PHP已经没有像当年个人网站蓬勃发展是那么火热,但期间留下来的很多开源的程序还是有非常高的学习和使用价值,比如这个博客正在使用的WordPress。在研究PHP代码的过程中需要部署PHP的运行环境,比较简单的方法是使…
计算机的文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易,文件系统使用文件和树形目录的抽象逻辑概念代替了硬盘和光盘等物理设备使用数据块的概念,用户使用文件系统来保存数据不必关心…
什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头 FICO 公司于 20 世纪 60 年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多…
什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter)。还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyperparameter)。超…
由于某些不可抗因素,Python官方的包在国内有时无法访问或出现网络不稳定现象。conda源也会出现网络链接失败的问题。为了解决这个问题,这里梳理了一些配置方法。 Pip与Conda的比较 依赖项检查 pip:不一定会展…
使用 Python 编程时,经常会遇到读写文件的操作。对于读写文件的各种模式(如阅读、写入、追加等)有时真的会迷惑人,以及搞不清 open、read、readline、readlines、write、writelines 等方法的使用也会把你绕的云…