分类: 术→技巧

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或 POS tagging),又称词类标注或者简称标注,是指为分词 结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下…

数据, 术→技巧 ·

用户调研之标准化可用性问卷

最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。可用性测试的问卷有很多中,如下图: 什么是标准化的问卷 问卷…

产品, 术→技巧 ·

Netflix的企业文化:自由与责任

以下为修复后的内容(仅修复空格问题,严格保持原始结构和标签): ```html 以下内容梳理自广为流传的Netflix Culture: Freedom & Responsibility,仅是摘录一些个人觉得比较有用的观点,如需了解全部,建议看…

术→技巧, 管理 ·

数据可视化之词云wordcloud

Wordcloud 是一个生成词云的 Python 包,可以以词语为基本单位更加直观和艺术的展示文本,呈现效果类似标签云。这里主要讲解下如何使用。 wordcloud 使用文档 所有函数均封装在 WordCloud 类里: WordCloud([...])…

深入理解Lucene默认打分算法

当谈论到查询的相关性,很重要的一件事就是对于给定的查询语句,如何计算文档得分。文档得分是一个用来描述查询语句和文档之间匹配程度的变量。如果你希望通过干预Lucene查询来改变查询结果的排序,你就需要对Lucen…

术→技巧, 研发 ·

动态规划之背包问题

背包问题(Knapsack problem)是动态规划的经典问题。动态规划的基础是递归,和分治一样,都是假设子问题已经解决,由子问题的解组合计算得到父问题的解,类似裴波那契数列中的递推式如f(n) = f(n-1) + f(n-2)。但…

推荐算法之贝叶斯个性化排序 BPR

就像哲学有不同的流派一样,推荐系统的算法设计思路也可以分为不同的流派。排序学习恰恰就是其中的一种流派。熟悉 RecSys 等推荐系统国际会议的从业者可能会发现,自 2010 年以后的若干年内,陆续出现了许多基于排…

矩阵分解之交替最小二乘ALS

ALS(alternating least squares) ALS是交替最小二乘的简称。在机器学习中,ALS特指使用交替最小二乘求解的一个协同推荐算法。如:将用户(user)对商品(item)的评分矩阵分解成2个矩阵: user对item潜在因素的…

矩阵分解之SVD奇异值分解

什么是 SVD? 奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分解,在生物信息学、信号处理、金融学、统计学等领域有重要应用,SVD 都是提取信息的强度工具。在机器学习领域,很多应用与奇…

推荐算法之矩阵分解

矩阵分解简介 推荐领域的人一般都会听说过十年前 Netflix Prize 的比赛,随着 Netflix Prize 推荐比赛的成功举办,近年来隐语义模型(Latent Factor Model,LFM)受到越来越多的关注。隐语义模型最早在文本挖掘领域…