自然语言处理

词向量工具word2vec的学习

什么是word2vec? word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。 word2vec通过训练,可以把对文本内容的处理简化为K维向量空 ...
54 sec read

中文拼音正词法基本规则

今天在听《字谈字畅》节目的时候了解到了一个新的概念:中文拼音正词法。《中文拼音正词法基本规则》是中华人民共和国国家标准GB/T 16159—1996,1996-01-22国家技术监督局发布,1996-07-01实施。以下为摘录内容:
4 min read

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:
6 min read

Quora在自然语言处理上的所做的工作

问答网站最核心的内容是提供给优质的内容,如何让内容更加优质,处理分析大量的文本数据也是必不可少的工作。Quora有大量的文本数据,分布在Quora的数百万个问题、答案和评论中。不仅如此,还有大量的元数据来补充我问答,包括"赞"和"踩",用户对话题的兴 ...
1 min read