钱魏Way

630篇文章

华为自然语言情感分析实践

情感分析基本概念 为什么要情感分析 随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值…

数据, 术→技巧 ·

互联网商业模式分析之Uber

Uber是如何运作的 双边市场是互联网商业的基本模式之一。以一组买家和一组卖家为例,通过网站或移动应用程序等技术中介将他们联系起来,并从每笔交易中收取费用。与传统的连接买家和卖家的方法相比,如果使用你的…

术→技巧, 运营 ·

数据分析之离散度指标

在观察数据的时候离散度是一个重要的指标。通常认为离散度越低数据会越好,但是现实场景并不如此。举个例子,比如某个电商网站有上万的商品,但是其每个商品的点评分离散度较低,那么将用户点评呈现给用户的价值就…

数据, 术→技巧 ·

马斯洛需求层次理论与产品设计

马斯洛需求层次理论的内容 马斯洛的需求层次理论是马斯洛于1943年《心理学评论》的论文〈人类动机的理论〉中所提出的理论。马斯洛理论把需求分成生理需求(Physiological needs)、安全需求(Safety needs)、爱和…

产品, 术→技巧 ·

PageRank算法原理与实现

什么是PageRank PageRank,简称PR,是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的重要标准之一。PageRank计算页面的重要性,对…

法→原理, 算法实现 ·

数据可视化之核密度估计

所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。核密度估计更多详细内容,可以参考先前的Mean Shift聚类中的相关说明。一维数据的聚类这边文章中,讲到了…

数据, 术→技巧 ·

短文本分类工具:LibShortText和TextGrocery

LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: 支持多分类 直接输入文本,无需做特征向量化…

器→工具, 开源项目 ·

文本内容相似度计算方法:minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素,统计这两个集合中相同元素的个数,来表示集合的相似度;这一步也可以看成特征向量间相似度的计算(欧氏距离,余弦…

数据, 术→技巧 ·

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2…

数据, 术→技巧 ·

自然语言处理工具包推荐

结巴分词 就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况…

器→工具, 开源项目 ·