分类: 术→技巧

数据分析之离散度指标

在观察数据的时候离散度是一个重要的指标。通常认为离散度越低数据会越好,但是现实场景并不如此。举个例子,比如某个电商网站有上万的商品,但是其每个商品的点评分离散度较低,那么将用户点评呈现给用户的价值就…

数据, 术→技巧 ·

马斯洛需求层次理论与产品设计

马斯洛需求层次理论的内容 马斯洛的需求层次理论是马斯洛于1943年《心理学评论》的论文〈人类动机的理论〉中所提出的理论。马斯洛理论把需求分成生理需求(Physiological needs)、安全需求(Safety needs)、爱和…

产品, 术→技巧 ·

数据可视化之核密度估计

所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。核密度估计更多详细内容,可以参考先前的Mean Shift聚类中的相关说明。一维数据的聚类这边文章中,讲到了…

数据, 术→技巧 ·

文本内容相似度计算方法:minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素,统计这两个集合中相同元素的个数,来表示集合的相似度;这一步也可以看成特征向量间相似度的计算(欧氏距离,余弦…

数据, 术→技巧 ·

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2…

数据, 术→技巧 ·

用户调研之标准化可用性问卷

最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。可用性测试的问卷有很多中,如下图: 什么是标准化的问卷 …

产品, 术→技巧 ·

Netflix的企业文化:自由与责任

以下内容梳理自广为流传的Netflix Culture: Freedom & Responsibility,仅是摘录一些个人觉得比较有用的观点,如需了解全部,建议看原版。 价值观 真正的价值观是被员工所重视的行为和技能,是具体通过哪…

术→技巧, 管理 ·

数据可视化之词云wordcloud

Wordcloud是一个生成词云的Python包,可以以词语为基本单位更加直观和艺术的展示文本,呈现效果类似标签云。这里主要讲解下如何使用。 wordcloud使用文档 所有函数均封装在WordCloud类里: WordCloud([...]) …

深入理解Lucene默认打分算法

当谈论到查询的相关性,很重要的一件事就是对于给定的查询语句,如何计算文档得分。文档得分是一个用来描述查询语句和文档之间匹配程度的变量。如果你希望通过干预Lucene查询来改变查询结果的排序,你就需要对Lucen…

术→技巧, 研发 ·

动态规划之背包问题

背包问题(Knapsack problem)是动态规划的经典问题。动态规划的基础是递归,和分治一样,都是假设子问题已经解决,由子问题的解组合计算得到父问题的解,类似裴波那契数列中的递推式如f(n) = f(n-1) + f(n-2)。但…