标点符(钱魏 Way)

词向量工具word2vec的学习

什么是word2vec? word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。 word2vec通过训练,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,word2 […]

中文拼音正词法基本规则

今天在听《字谈字畅》节目的时候了解到了一个新的概念:中文拼音正词法。《中文拼音正词法基本规则》是中华人民共和国国家标准GB/T 16159—1996,1996-01-22国家技术监督局发布,1996-07-01实施。以下为摘录内容: 主题内容与适用范围本标准规定了用《中文拼音方案》拼写现代汉语的规则。内容包括分词连写法、成语拼写法、外来词拼写法、人名地名拼写法、标调法、移行规则等。爲了适应特殊的需 […]

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类: 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词 虚词:副词、介词、连词、助词、拟声词、叹词。 这篇文章梳理的不是如何进行词性标注,而是介绍一些常用的 […]

Quora在自然语言处理上的所做的工作

问答网站最核心的内容是提供给优质的内容,如何让内容更加优质,处理分析大量的文本数据也是必不可少的工作。Quora有大量的文本数据,分布在Quora的数百万个问题、答案和评论中。不仅如此,还有大量的元数据来补充我问答,包括”赞”和”踩”,用户对话题的兴趣或擅长与否,问题和话题的关系,话题去重合并,用户的社交和关系和影响力幅射,以及用户在Quora的每一 […]