分类: 器→工具

数据探索工具Pandas-Profiling

在使用数据进行机器学习前,通常会对已有的数据进行初步的观察,包括查看数据的类型、数据的范围、数据的分布等。比较常用的方式是使用Pandas预览一部分数据。今天要介绍的Pandas-Profiling工具可以使得以上的流程…

器→工具, 工具软件 ·

腾讯自然语言工具TexSmart

TexSmart简介 TexSmart是由腾讯人工智能实验室的自然语言处理团队开发的一套自然语言理解工具与服务,用以对中文和英文两种语言的文本进行词法、句法和语义分析。 除了支持分词、词性标注、命名实体识别(NER)、…

器→工具, 工具软件 ·

正则表达式与Python Re模块

re 模块是 Python 标准库中的一个模块,用于执行正则表达式操作。正则表达式是一种强大的工具,用于字符串匹配、查找、替换和解析。re 模块提供了丰富的功能,支持复杂的模式匹配和字符串处理。 正则表达式简…

HTML解析抽取工具Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。这个特性lxml差不多。 Beautiful Soup的安装 Beautif…

器→工具, 开源项目 ·

HTML网页解析提取工具lxml和XPath

在数据抓取过程中,经常遇到需要解析HTML中的内容,常用的是用正则表达式,今天主要介绍lxml工具及xpath的语法。 lxml简介 lxml 是一款高性能Python XML 库,它天生支持 XPath 1.0、XSLT 1.0、定制元素类,甚至 P…

条件随机场CRF及CRF++安装与使用

条件随机场(conditional random field, CRF)是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X, Y)…

Linux下文件的压缩与解压缩

Linux下文件的压缩与解压缩与Windows环境下有较大的区别,在Windows下只需要安装类似Winrar工具就能解压缩大部分文件,而在Linux命令行下每一种文件都有不同的压缩和解压缩方法。 常用Linux压缩解压缩命令 使…

器→工具, 工具软件 ·

短文本分类工具:LibShortText和TextGrocery

LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: 支持多分类 直接输入文本,无需做特征向量化…

器→工具, 开源项目 ·

自然语言处理工具包推荐

结巴分词 就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴。 结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况…

器→工具, 开源项目 ·

自然语言处理工具包之NLTK

NLTK简介 NLTK(Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Sp…

器→工具, 工具软件 ·