标签: nlp

自然语言处理之BERTopic

主题模型是用来在非结构数据中无监督的发现隐含主题信息的一类重要工具,比较成熟和常用的算法有基于矩阵分解(如:SVD分解)的LSA(Latent Semantic Analysis), 引入概率方法代替SVD的pLSA(Probabilistic Latent…

器→工具, 开源项目 ·

开源的中文NLP大模型

在Hugging Face上,有多个模型适合用于对中文文本的迷信。这些模型通常被预训练在大规模的中文语料上,因此它们能够有效地理解和处理中文文本。以下是一些推荐的模型: bert-base-chinese bert-base-chinese 是一…

器→工具, 开源项目 ·

自然语言处理之Subword子词算法

背景与基础 目前的机器学习模型都是数学模型,其对应的输入要求必须是数字形式(number)的,而我们处理的真实场景往往会包含许多非数字形式的输入(有时候即使原始输入是数字形式,我们也需要转换),最典型的就…

自然语言处理之GPT

ChatGPT与GPT ChatGPT,全称聊天生成预训练转换器(英语:Chat Generative Pre-trained Transformer),是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模…

自然语言处理之 BERT

BERT简介 BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示的方法,由Google的研究者在2018年提出。它在自然语言处理(NLP)领域取得了革命性的进展,尤其是在理解上下文含…

自然语言处理之Transformer

Transformer 简介 Transformer是一种深度学习架构,由Google的研究者在2017年的论文《Attention Is All You Need》中首次提出。它在自然语言处理(NLP)和其他领域取得了巨大的成功,特别是在处理长序列数据方面。…

汉语拼音正词法基本规则

在听《字谈字畅》节目的时候了解到了一个新的概念:中文拼音正词法。 《中文拼音正词法基本规则》是中华人民共和国国家标准GB/T 16159—1996,1996-01-22国家技术监督局发布,1996-07-01实施。以下为摘录内容…

数据, 术→技巧 ·

自然语言处理工具包之NLTK

NLTK简介 NLTK(Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Sp…

器→工具, 工具软件 ·