分类: 术→技巧

Pandas读取与导出Excel、CSV文件

在使用Pandas处理数据时,常见的读取数据的方式时从Excel或CSV文件中获取,另外有时也会需要将处理完的数据输出为Excel或CSV文件。今天就一起来学习下Pandas常见的文件读取与导出的方法。 加载Excel文件 在Pa…

数据, 术→技巧 ·

如何理解数据库的Schema模式

在学习数据库时,会遇到一个让人迷糊的Schema的概念。实际上,schema就是数据库对象的集合,这个集合包含了各种对象如:表、视图、存储过程、索引等。 如果把database看作是一个仓库,仓库很多房间(schema),…

术→技巧, 研发 ·

最优模型选择准则:AIC和BIC

很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型…

数据, 术→技巧 ·

数据可视化之制柱形竞赛图

我们经常看到的Bar Chart Race(柱形竞赛图),可以看到数据的呈现非常的直观。今天就一起来学习下如何生成和上面一样的柱形竞赛图。 1、导入Python库 import pandas as pd import matplotlib.pyplot as p…

数据, 术→技巧 ·

余弦定理与文本相似度

什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角…

数据, 术→技巧 ·

深度学习之长短期记忆网络LSTM

普通RNN存在的问题 循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同…

Word2Vec自然语言情感分析实战

情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观…

数据, 术→技巧 ·

多层全连接神经网络与情感分析

全连接神经网络 全连接神经网络是一种最基本的神经网络结构,英文为Full Connection,所以一般简称FC。FC的准则很简单:神经网络中除输入层之外的每个节点都和上一层的所有节点有连接。 上图是一个双隐层的…

卷积神经网络TextCNN与情感分析

在“卷积神经网络”中我们探究了如何使用二维卷积神经网络来处理二维图像数据。在之前的语言模型和文本分类任务中,我们将文本数据看作是只有一个维度的时间序列,并很自然地使用循环神经网络来表征这样的数据。其实…

数据可视化之箱形图

箱形图简介 箱形图(英文:Box plot),又是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值…

数据, 术→技巧 ·