机器学习: 商业与数据科学之间的桥梁

每次我们谈论自动驾驶汽车、聊天机器人、 AlphaGo 或者预测分析,都会涉及到一些机器学习技术的实现。在公众看来,应用于机器学习的算法类似于科幻小说,推出一个具体的机器学习应用计划仍然是一个很高的障碍。

易混淆的专业术语

机器学习的概念最早出现在20世纪50年代,那是人工智能的先驱时代。1950年,Alan Turing发表了一篇名为《计算机与智能》的论文,提出了一个著名的人工智能评估测试,我们今天称之为图灵测试。1959年,Arthur Lee Samuel创造了“机器学习”这个术语。 我们今天使用的许多理论发现都是在那个时候取得的。但是为什么我们今天要讨论这么多机器学习和数据科学呢?也许,最重要的区别在于与过去几十年相比,我们可以收集和分析的计算能力和数据量。今天,一个可以轻松装入掌上电脑的智能手机可以存储和处理的数据量比60年代占据几个房间的一百万大型计算机还要多。 我们可以使用具有数千个参数的大型无组织数据来训练算法和绘制预测,而不是依赖于完全精心策划的小型数据集。 数据的数量和质量也是现代机器学习技术区别于统计学的地方。虽然统计数据通常依赖于少数几个变量来捕捉模式,但是机器学习可以有效地利用数千个数据特征。

数据科学

数据科学这个术语可以追溯到20世纪60年代。 虽然有很多定义,但是以商业为中心的定义是由 MailChimp 的首席数据科学家John W. Foreman阐述的:随着时间的推移,数据科学不断发展,并获得新的“工具” ,核心业务目标仍然是寻找有用的模式,并从数据中获得有价值的见解。今天,数据科学被广泛应用于各行各业,并帮助解决各种分析问题。例如,在市场营销中,通过对顾客年龄、性别、地点和行为的探索,可以进行目标明确的营销活动,评估有多少顾客倾向于购买或离开。在银行业,发现外围客户的行为有助于发现欺诈行为。 在医疗保健中,分析病人的医疗记录可以显示患病的可能性等。数据科学前景包括多个相互关联的领域,利用不同的技术和工具。

数据挖掘与数据库中的知识发现

从图中可以看到,所有数据科学领域都与数据挖掘相关,因为它构成了数据科学的核心实践集。 数据挖掘这个术语听起来不像它所代表的含义。 这门学科不是挖掘数据本身,而是创建算法,从大型或可能的非结构化数据中提取有价值的见解。 数据挖掘的基本问题是映射可用的数据并将其转换为可消化的模式。数据挖掘被认为是数据库中的知识发现(KDD)这一更广泛过程的一部分,该过程由 Gregory Piatetsky-Shapiro 于1984年提出。

虽然看起来数据挖掘和 KDD 只是解决了数据科学的主要问题,但是机器学习为它增加了业务效率。

机器学习

数据挖掘和非常流行的机器学习是有区别的。尽管如此,机器学习是关于创建算法来提取有价值的见解,它的重点是在动态变化的环境中持续使用,并强调调整,再培训和更新基于以往经验的算法。 机器学习的目标是不断地适应新的数据,并在其中发现新的模式或规则。 有时,它可以实现没有人的指导和明确的重新编程。机器学习是当今数据科学中最具活力的发展领域,这归功于近年来一系列的理论和技术突破。 它们带来了自然语言处理、图像识别,甚至通过机器产生了新的图像、音乐和文本。 机器学习仍然是构建人工智能的主要“工具”。

人工智能

人工智能(AI)也许是数据科学中最模糊的理解领域。它也明显地脱颖而出。构建人工智能的主要思想是利用模式识别和机器学习来构建一个能够像人类一样思考和推理的代理(或接近这种能力)。 然而,由于这个术语被如此广泛地使用,我们还没有就人工智能中对I 的解释达成一致。智力很难形式化,而确定它的方法有很多。在商业语言中,人工智能可以解释为解决新问题的能力。 实际上,解决新问题是感知、概括、推理和判断的结果。

在公众看来,人工智能通常被认为是机器解决许多知识领域相关问题的能力。 这使得它们在某种程度上与人类相似。 然而,人工通用智能(AGI)的概念仍然停留在科幻小说的领域,还不能与现有的最先进的技术相匹配。 最近在德州扑克中击败人类的 AlphaGo、IBM Watson 或 Libratus 等著名系统,就是人工狭义智能(ANI)的代表。 他们专注于一个领域,可以基于类似的技术执行任务来处理数据。 所以,从 ANI 到 AGI 是数据科学尚未实现的目标,但这种突破不太可能在几十年内实现。 人们越来越担心机器会占据大多数工作,这在一定程度上是合理的,然而机器主宰世界的情形却并非如此。

大数据

大数据也是一个被过度炒作和误解的概念。商业中数字化变革的发展使得收集越来越多的大型数据集成为可能,这些数据集包含了关于客户、员工和公司资产的各种通常非结构化的记录。 这些关系到人口统计、互动和行为、终端设备,以及一切可以通过数字手段或手动输入跟踪的东西。 然而,这些非结构化数据集还不是大数据。

虽然收集大量数据是可用的,但这并不一定意味着可以从中发现有洞察力的模式。 大数据的概念意味着利用数据挖掘和机器学习技术在大数据集中发现模式。为什么我们今天如此强调大数据?大数据在技术布道者中的流行源于最近计算能力的进步。 我们可以处理所有的原始数据,获得更高的精度,并发现更多隐藏的依赖关系,而不是使用有限的数据子集来发现和推断整个主题字段的结果。这需要建立能够计算越来越大的非结构化数据集的高端基础设施,获取工具和专业知识来正确地可视化数据并从中产生洞察力。

机器学习工作流

我们如何让算法在数据中找到有用的模式呢? 机器学习和常规编程算法的主要区别在于不需要明确编程就能处理数据。 这实际上意味着工程师不需要向机器提供如何处理每种类型的数据记录的详细说明。 相反,机器依靠输入数据自己定义这些规则。无论是哪个特定的机器学习应用程序,一般的工作流都是相同的,一旦结果过时或需要更高的准确性,就会反复重复。

任何机器学习执行的核心工件都是一个数学模型,它描述了一个算法在使用历史数据子集进行训练后如何处理新数据。 训练的目标是开发一个能够形成目标值(属性)的模型,每个数据对象的一些未知值。 虽然这听起来很复杂,但事实并非如此。

例如,你需要预测你的电子商务商店的顾客是否会购买或离开。 这些预测购买或离开是我们正在寻找的目标属性。 为了训练一个模型来做这种类型的预测,你需要向一个数据集“输入”一个算法,这个数据集存储了不同的客户行为记录和结果(客户是否离开或购买了产品)。 通过学习这些历史数据,模型将能够对未来数据进行预测。

一般来说,工作流程遵循以下简单步骤:

  • 收集数据 使用您的数字基础设施和其他来源,收集尽可能多的有用的记录,并将它们合并成一个数据集
  • 准备数据 准备你的数据以最好的方式处理。 数据预处理和清理过程可能相当复杂,但通常,它们的目的是填补数据中的缺失值,并纠正数据中的其他缺陷,比如同一列中相同值的不同表示(例如2016年12月14日和14.2016不会被算法相同对待)
  • 分割数据 分割数据子集,以训练模型并进一步评估它对新数据的执行情况
  • 训练模型 使用历史数据的子集让算法识别其中的模式
  • 测试和验证模型 使用历史数据的测试和验证子集来评估模型的性能,并了解预测的准确程度
  • 部署模型 作为解决方案的一部分,将测试模型嵌入到决策框架中,或者让用户利用其功能(例如更好地针对产品推荐)
  • 改进 在使用模型之后收集新数据以增量地改进它

机器学习能够解决的五组任务

从商业角度来说,机器学习解决了一系列广泛的任务,但在更高的层次上,算法解决的任务分为5个主要组: 分类、数据聚类、回归、排序和生成。

分类

分类算法定义数据集中的对象属于哪个类别。因此,类别通常与类相关。通过解决分类问题,你可以解决各种问题:

二分类问题:

  • 这个领头羊会不会改变主意?
  • 这是不是垃圾邮件?
  • 这笔交易是不是欺诈性的?

多分类问题:

  • 这间公寓是在纽约、旧金山还是波士顿?
  • 图片上是什么: 一只猫,一条狗,还是一只鸟?
  • 这个客户更可能购买哪种类型的产品: 笔记本电脑、台式机还是智能手机?

另一种高度特定类型的分类任务是异常检测分类。 它通常被认为是一类分类,因为异常检测分析的目标是找出数据中不符合正态分布的异常值,即不寻常的对象。 它能解决什么样的问题:

  • 在我们的数据集中是否有不典型的客户?
  • 我们能否在银行客户中发现不寻常的行为?
  • 根据记录,这个病人与其他人不同吗?

数据聚类

分类和聚类的主要区别在于该算法面临的挑战是在没有预定义类的情况下对聚类中的项进行分组 换句话说,它应该在没有人类指导的情况下决定划分本身的原则。 数据聚类通常是在非监督式学习风格中实现的,我们将在一分钟内讨论这一点。 集群可以解决以下问题:

  • 考虑到他们的人口统计和行为,我们的主要客户群是什么?
  • 部分银行客户的违约风险与他们的行为有关系吗?
  • 我们如何分类人们用来到我们的网站的关键字?

回归

回归算法定义数值目标值,而不是类。 通过估计数字变量,这些算法在预测产品需求、销售数字、市场回报等方面都很强大。 例如:

  • 下个月我们能卖出多少件这种产品?
  • 这个航空目的地的飞机票价是多少?
  • 汽车维持其使用寿命的最高速度是多少?

排名

排序算法决定对象(或项目)与其他对象的相对重要性。 最著名的例子是 PageRank,Google 大量使用它来对搜索引擎结果页面进行排名。 Facebook 还应用排名算法来定义新闻 feed 中哪些帖子比其他帖子更吸引用户。 还有什么问题可以通过排名来解决?

  • 这个用户最喜欢的电影是什么?
  • 对于这些顾客来说,最受推荐的酒店是哪些?
  • 我们应该如何在电子商务商店的搜索页面上对产品进行排名?

生成

生成算法用于生成文本、图像或音乐。 如今,它们被用于像 Prisma 这样的应用程序中,可以将照片转换为艺术风格的图像,DeepMind 的 WaveNet 可以模仿人类的语言或创建音乐作品。 生成任务对于大量的消费者应用来说更为常见,而不是预测分析解决方案。 这就是为什么这种类型的机器学习对于娱乐软件有很大的潜力。 生成算法的可能任务是什么?

  • 将照片转化为特定风格的绘画
  • 为移动语音助理(例如 Google 助理)创建文本到语音的应用程序
  • 创建一种风格的音乐样本,或者让人联想到某个特定的音乐家

为了完成这些任务,使用了不同的模型训练方法(或训练风格)。 培训是一种开发特定数学模型的过程,该模型适用于历史数据中各个值之间的依赖关系。 经过训练的模型将能够识别未来数据中的这些依赖关系,并预测您所寻找的值。 因此,模特训练有三种类型。

三种模特训练风格

选择训练风格取决于您是否知道应该找到的目标值。换句话说,您可以在目标值已经被映射的情况下使用训练数据集,并且您只需要在未来的数据中预测这些精确的值。 或者你的目标可能是找出价值观之间隐藏的联系。在后一种情况下,对于历史数据和未来数据,目标值都是未知的。这种目标上的差异会影响训练风格的选择,并定义你选择的算法。

监督式学习

监督式学习算法使用的是已经有目标值的历史数据。 在训练数据集中映射这些目标值称为标记。 换句话说,人类告诉算法要寻找哪些值,哪些决策是对的或错的。 通过查看一个标签作为一个成功预测的例子,算法学会在未来的数据中找到这些目标值。 今天,监督式学习分类和回归问题都被积极使用,因为通常的目标值已经在训练数据集中可用。

这使得监督式学习成为最受欢迎的商业模式。 例如,如果您选择二进制分类来预测导线转换的可能性,那么您就知道哪些导线转换了,哪些没有。 您可以标记目标值(已转换/未转换或0/1)并进一步训练模型。 监督式学习算法还用于识别图片上的物体,定义社交媒体帖子的情绪,以及预测温度、价格等数值。

非监督式学习

非监督式学习的目的是组织没有标记目标值的数据。 在这种情况下,机器学习的目标是定义值中的模式,并根据相似点或不同点构造对象。 在分类任务领域,非监督式学习通常应用于聚类算法、异常检测和生成任务。 这些模型有助于发现项目之间的隐含关系,解决分割问题等。例如,一家银行可以使用非监督式学习银行将客户分成多个组。这将有助于制定处理每个特定群体的具体指示。非监督式学习分析技术也被用于排序算法中,以提供个性化的推荐。

强化学习

强化学习可能是受博弈论和行为主义心理学启发的最复杂的机器学习方式。 代理(算法)必须根据输入数据做出决策,然后根据这些决策的成功程度,被“授予”或“惩罚”。 通过反复地面对“奖励”和“惩罚” ,代理改变其决策,并逐渐学会获得更好的结果。强化学习技术在机器人技术和人工智能开发中得到了广泛的应用。 Deepmind 的一个著名的 AlphaGo 算法使用强化学习来估计古代围棋中最有效的棋步,而不是列举所有可能的棋盘组合。 据称,特斯拉自动驾驶仪还采用了强化学习监督式学习技术。 当驾驶员打开自动驾驶仪并修正其决策时,就会使用这种风格。然而,在商业领域,强化学习算法仍然很难应用,因为大多数算法只能在不变的规则、目标和世界环境中成功学习。 这就是为什么今天许多现代强化学习的进步都与围棋或者老雅达利游戏有关,这些游戏的3个参数都是稳定的。 强化学习的另一个问题是学习周期的长度。 在游戏中,第一个决定和获得分数之间的时间相对较短,而在现实生活中,估计这个决定有多成功的时间可能需要几个星期。

着手机器学习

对于大多数企业来说,预测分析和机器学习仍然是一个未知领域。 尽管机器学习工具的进化看起来令人印象深刻,但是获取业务价值仍然是一个挑战。 公司在人才收购障碍、内部领导困难,以及最后但并非最不重要的,过度监管的企业文化僵化等方面步履蹒跚。 将大数据的巨大潜力理论化相对容易——这在许多媒体中都很生动——但现实表明,计划投资大数据的公司数量实际上从2016年的31% 下降到了25% 。 另一方面,由于大型参与者的加入,对大数据的投资总体上呈上升趋势。 这意味着,竞争差距只会在规模较小或灵活性较低的企业中扩大。

商业翻译者和梦想家

适当的分析和数据科学领导是实现数据驱动文化的最大障碍。 根据麦肯锡全球研究所的调查,45% 的公司正在努力为数据和机器学习设定正确的愿景和策略。 考虑到这一点——人才引进的挑战是众所周知的:数据科学人才在薪酬和留住方面都是稀缺和昂贵的。调查显示,虽然找到一位数据科学家很难,但找到一位分析领导者则更加困难。具有讽刺意味的是,这个角色对于管理有效的数据流程至关重要。虽然您可以引入一些机器学习实现,并在没有分析领导的情况下弥补一些缺失的环节,但是这种方法注定要保持响应性而不是主动性。这个“商业翻译者”,或首席分析官(CAO)的技能,是多学科的桥梁之间的商业价值观和数据科学能力。该人员应该带头协调信息技术部门、数据科学、市场营销和利益相关者的努力,以建立和发展数据战略。

分析领导者的另一个重要任务是扮演有远见的角色。 这意味着在新的数据科学研究工作被广泛采用之前,就已经预见了它们的商业应用潜力。 最近,大多数满足商业需求的机器学习技术已经在数据科学领域被人们所熟知了几十年。 许多类似于强化学习的实验室,除了像 DeepMind 这样的著名实验室之外,还没有找到其他实现方法。 通过及早捕捉这些进步,并找到将它们转化为商业用途的方法,一个“翻译者”可以保持组织在竞争中的领先地位。

然而,获取分析专家并不简单。 目前,高级分析师职位的需求与人才供应之间的不匹配比例为5:1。 如果招聘失败,这个部门就意味着内部需要寻找和培训一名分析专家。 在这种情况下,最适合的机会是雇佣一个同时具有技术和领域业务背景的人。 有时候,这个角色可以由一个首席技术官获得,一个数据科学家谁过渡到管理,甚至一个首席执行官,取决于组织的规模。

数据驱动的组织

只有在肥沃的企业环境中,数据科学家才能发挥作用。引入机器学习计划应该得到所有组织层面的支持和理解。 随着每一项新技术的到来,不仅需要培训,而且还需要大量的努力来传播变革。 如果你打算使用机器学习作为决策的支持或者作为做出重要决策的杠杆,那么这种思维方式很可能会面临合理的阻力。 人们习惯于根据自己的直觉和经验做出决定,这只会让他们成为专业人士。 分析领导(或CAO)和其他高级管理人员的角色是教育员工和促进创新。这就是为什么沟通和表达能力是数据科学家首选的素质。

竖井式数据。部门的竖井结构是构建数据驱动组织的另一个障碍。数据访问可能被过度监管,或者部门本身可能希望将收集到的数据保留在内部。通过与这种行为作斗争,您可以在获取更多有用的数据方面取得更好的结果。

匿名数据。有时,在银行或保险等行业,监管是合法的,数据不容易共享。在这种情况下,数据中的所有值都可以在数据准备阶段转换为匿名数字。 因此,敏感的业务或客户细节将不会被披露。

总结

这篇文章并不打算详尽无遗,也不应该被看作是您的新兴机器学习计划的剧本。 虽然还有很多需要探索的地方,我们还是建议用这份白皮书作为评估你的战略的指南。当今商业的底线问题是要了解如何以及何时实现这一策略,以跟上机器学习和预测分析/服务所能提供的变化步伐。商业决策的现代时代将把那些能够利用自己收集的数据的人放在竞争的顶端。

参考链接:https://www.altexsoft.com/whitepapers/machine-learning-bridging-between-business-and-data-science/

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

机器学习在旅游与酒店个性化的研究

当我们访问Netflix、 YouTube 或Amazon时,我们认为个性化推荐是理所当然的。这些服务已经探索

Python检验数据是否正态分布

判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起

数据探索Pandas-Profiling与Dataprep.…

在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profi

发表评论

电子邮件地址不会被公开。 必填项已用*标注