所有文章

数据可视化之直方图

直方图简介 在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式具体表现。因为直方图的…

数据, 术→技巧 ·

知乎话题结构数据库设计

先前一直在研究好的树形结构的数据存储方案,也分析了关系数据库中各种树形结构数据的设计。但是仔细分析下来离自己想要实现的树形结构的数据还是有一些差距。前端时间看了下知乎的树形的话题结构,发现目前知乎的…

术→技巧, 研发 ·

MySQL 高性能存储引擎TokuDB

在安装 MariaDB 的时候了解到代替InnoDB 的 TokuDB,看简介非常的棒,这里对 ToduDB 做一个初步的整理,使用后再做更多的分享。 什么是 TokuDB? 在 MySQL 最流行的支持全事务的引擎为 INNODB。其特点是数据本身是…

术→技巧, 研发 ·

树形结构数据数据库存储方案

在程序开发中,我们常遇到用树型结构来表示某些数据间的关系,如企业的组织架构、商品的分类、操作栏目等,目前的关系型数据库都是以二维表的形式记录存储数据,而树型结构的数据如需存入二维表就必须进行Schema设…

术→技巧, 研发 ·

Pandas读取与导出Excel、CSV文件

在使用 Pandas 处理数据时,常见的读取数据的方式时从 Excel 或 CSV 文件中获取,另外有时也会需要将处理完的数据输出为 Excel 或 CSV 文件。今天就一起来学习下 Pandas 常见的文件读取与导出的方法。 加载 Excel…

数据, 术→技巧 ·

如何理解数据库的Schema模式

在学习数据库时,会遇到一个让人迷糊的Schema的概念。实际上,schema就是数据库对象的集合,这个集合包含了各种对象如:表、视图、存储过程、索引等。 如果把database看作是一个仓库,仓库很多房间(schema),一…

术→技巧, 研发 ·

最优模型选择准则:AIC和BIC

很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型…

数据, 术→技巧 ·

数据可视化之制柱形竞赛图

我们经常看到的 Bar Chart Race(柱形竞赛图),可以看到数据的呈现非常的直观。今天就一起来学习下如何生成和上面一样的柱形竞赛图。 1、导入 Python 库 import pandas as pd import matplotlib.pyplot as plt …

数据, 术→技巧 ·

余弦定理与文本相似度

什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了…

数据, 术→技巧 ·

深度学习之BP神经网络

神经网络简介 神经网络的结构模仿生物神经网络,生物神经网络中的每个神经元与其他神经元相连,当它"兴奋"时,向下一级相连的神经元发送化学物质,改变这些神经元的电位;如果某神经元的电位超过一个阈值,则被激活…

法→原理, 深度学习 ·