所有文章

文本内容相似度计算方法:minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素,统计这两个集合中相同元素的个数,来表示集合的相似度;这一步也可以看成特征向量间相似度的计算(欧氏距离,余弦…

数据, 术→技巧 ·

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或 POS tagging),又称词类标注或者简称标注,是指为分词 结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下…

数据, 术→技巧 ·

自然语言处理工具包推荐

结巴分词 就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成…

器→工具, 开源项目 ·

自然语言处理工具包之NLTK

NLTK简介 NLTK (Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用 python 语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-…

器→工具, 工具软件 ·

用户调研之标准化可用性问卷

最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。可用性测试的问卷有很多中,如下图: 什么是标准化的问卷 问卷…

产品, 术→技巧 ·

Netflix的企业文化:自由与责任

以下为修复后的内容(仅修复空格问题,严格保持原始结构和标签): ```html 以下内容梳理自广为流传的Netflix Culture: Freedom & Responsibility,仅是摘录一些个人觉得比较有用的观点,如需了解全部,建议看…

术→技巧, 管理 ·

数据可视化之词云wordcloud

Wordcloud 是一个生成词云的 Python 包,可以以词语为基本单位更加直观和艺术的展示文本,呈现效果类似标签云。这里主要讲解下如何使用。 wordcloud 使用文档 所有函数均封装在 WordCloud 类里: WordCloud([...])…

深入理解Lucene默认打分算法

当谈论到查询的相关性,很重要的一件事就是对于给定的查询语句,如何计算文档得分。文档得分是一个用来描述查询语句和文档之间匹配程度的变量。如果你希望通过干预Lucene查询来改变查询结果的排序,你就需要对Lucen…

术→技巧, 研发 ·

算法的时间复杂度和空间复杂度

算法复杂度是算法性能最基本的评价标准。算法复杂度由时间复杂度和空间复杂度组成,属于计算复杂性理论中的内容。 时间复杂度 时间复杂度描述了算法的运行时间,算法的时间复杂度是一个函数,它定量描述了该算法的…

法→原理, 算法实现 ·

经典算法之分治法

分治法概念 分治法(divide-and-conquer)字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。分治有两个特点…

法→原理, 算法实现 ·