分类: 数据

汉语拼音正词法基本规则

在听《字谈字畅》节目的时候了解到了一个新的概念:中文拼音正词法。 《中文拼音正词法基本规则》是中华人民共和国国家标准GB/T 16159—1996,1996-01-22国家技术监督局发布,1996-07-01实施。以下为摘录内容…

数据, 术→技巧 ·

机器学习中的欠拟合和过拟合

对于深度学习或机器学习模型而言,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的…

Scikit-Learn数据集拆分train_test_split

监督机器学习的关键方面之一是模型评估和验证。当您评估模型的预测性能时,过程必须保持公正。为了制作训练数据(training samples)和测试数据(testing samples),常使用sklearn里面的sklearn.model_selection.t…

如何正确的进行数据埋点

数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集作为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。而埋点作为一种重要的采集手段,可以将用户行为信息转化为…

数据, 术→技巧 ·

App深度链接与延迟深度链接

APP唤醒与场景还原 在App投放推广中,唤醒用户是常见的运营策略。想要让用户重新活跃起来,转化用户的行为,必须从场景上还原用户的路径,从根本上找到用户增长的奥秘。 在这个广告漫天的时代,相信大多数用户…

数据, 术→技巧, 研发 ·

指标体系的搭建想法与思考

关于指标体系的搭建,网上可以找到很多方法论。方法论本身没有什么问题,但很多时候实践出来的结果并没有预想的那么好。主要障碍是当按照指标体系搭建完成报表后,你会发现这些报表实际对业务的帮助非常的小。这就…

数据, 术→技巧 ·

大数据通识:HIVE

Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapR…

Android/iOS判断是否使用代理或VPN

针对APP的黑产,我们提到部分用户会通过改变IP来绕过风控策略。更改IP比较方便的方法是使用代理IP或VPN。 在检测APP安全性是需要对是否使用代码和VPN做判断。以下为整理的一些代码供参考。 Android判断是否…

数据, 术→技巧, 研发 ·

大数据通识:Hadoop

这篇一开始文章整理于2014年,在此的7~8年时间里,Hadoop已经发生了很多变化,但最为核心的内容并没有变化那么多,当时的文章还是有一定的参考意义。再次重新做下整理。 Hadoop的概要介绍 Hadoop,是一个分布式系…

数据, 术→技巧 ·

大数据通识:Google MapReduce

Google,作为全球最大的搜索引擎公司,其伟大之处不仅在于建立了一个强大的搜索引擎,还在于它创造了3项革命性的技术,即:GFS、MapReduce 和 BigTable。作为 Google 早期三驾马车,这三项革命性的技术不仅在大数据…