在Python中调用Java扩展包:HanLP

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人 ...
21 sec read

自然语言处理之词性标注集

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:
6 min read

Quora在自然语言处理上的所做的工作

问答网站最核心的内容是提供给优质的内容,如何让内容更加优质,处理分析大量的文本数据也是必不可少的工作。Quora有大量的文本数据,分布在Quora的数百万个问题、答案和评论中。不仅如此,还有大量的元数据来补充我问答,包括"赞"和"踩",用户对话题的兴 ...
1 min read

Elasticsearch分词插件的安装

Elasticsearch分析器原理 在安装分词工具前我们需要先了解下一个概念:分析器(Analyzer)。分析器是三个顺序执行的组件的结合(字符过滤器,分词器,标记过滤器)。即分词器包含在分析器中。分析器的内部就是一条流水线: Step 1 字符过滤器(Char ...
2 min read