中国制造业竞争力价值研究官网
助动中国制造2025战略

栏目
物联网 云计算 智能终端 资本市场 商业模式 质量品牌
当前位置:主页 > 制造转型 > 云计算 >
云计算

如何正确构建机器学习模型?

2020/11/21 作者:智造文记 来源:企业网 点击:

  摘要:组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。各种组

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。

各种组织都在为各行业中的众多应用实施人工智能项目。这些应用包括预测分析、模式识别系统、自主系统、会话系统、超个性化活动和目标驱动系统。每一个项目都有一个共同点:它们都基于对业务问题的理解,并且数据和机器学习算法必须应用于解决问题,从而构建一个能够满足项目需求的机器学习模型。

部署和管理机器学习项目通常遵循相同的模式。然而,现有的应用程序开发方法并不适用,因为人工智能项目是由数据驱动的,而不是编程代码。学习来源于数据,因此正确的机器学习方法源于以数据为中心的需求,并产生专注于数据发现、清理、培训、模型构建和迭代阶段的项目。

对于许多组织来说,机器学习模型开发是一项新活动,但是在某种程度上已经建立了以数据为中心的项目构建方法。

大约25年前,一个由五家供应商组成的联盟开发了跨行业的数据挖掘标准流程(CRISP-DM),该流程专注于数据挖掘项目中各种数据密集型步骤的连续迭代方法。该方法从业务理解和数据理解之间的迭代循环开始。接下来是数据准备和数据建模之间的迭代循环的切换,然后是评估阶段,它将结果分解到部署和业务理解。这种循环的、迭代的循环导致了连续的数据建模、准备和评估。

但跨行业的数据挖掘标准流程(CRISP-DM)的进一步开发似乎已经停滞在近20年前完全生产的1.0版本上,而在15年前还发布其第二个版本。IBM公司和微软公司对这种方法进行了更新和迭代,以生成它们自己的变体,这些变体为数据处理和建模之间的迭代循环添加了更多细节,并提供了在此过程中产生的工件和可交付成果的更多细节。

此外,这种方法由于并不敏捷或不适用于人工智能和机器学习项目而受到质疑。因此需要增强诸如人工智能的认知项目管理之类的方法,以满足人工智能特定的要求,并且可以在具有现有敏捷开发团队和数据组织的组织中实施这些方法。

这些方法论以及大型公司及其数据科学团队的学习,因此采用了一种更强大、更灵活的分步方法来进行机器学习模型开发,以满足认知项目的特定需求。

步骤1.了解并识别业务问题(并定义成功)

任何机器学习项目的第一阶段都是发展对业务需求的理解。在解决问题之前,组织需要知道要解决的问题。

首先,与项目所有者合作,并确保组织了解项目的目标和要求。目的是将这些知识转换为适合机器学习项目的定义,并制定实现该项目目标的初步计划。需要回答的关键问题包括:

?需要认知解决方案的业务目标是什么?

?解决方案的哪些部分是认知的,哪些并没有认知?

?是否解决了所有必要的技术、业务和部署问题?

?项目定义的“成功”标准是什么?

?项目如何在迭代冲刺阶段进行?

?是否对透明度、可解释性或减少偏见有特殊要求?

?道德方面的考虑是什么?

?精度和混淆矩阵值可接受的参数是什么?

?对模型的预期输入和预期输出是什么?

?要解决的问题的特征是什么?这是分类、回归还是聚类问题?

?什么是“启发式”:解决不需要机器学习的问题的快速方法?模型需要比启发式方法好多少?

?如何衡量模型的收益?

尽管在第一个步骤中有很多问题要回答,但是回答甚至尝试回答这些问题将会显著增加整个项目成功的机会。

设定具体、可量化的目标将有助于从机器学习项目中实现可测量的投资回报率,而不是简单地将其作为一个概念证明来实现,稍后将被搁置一边。其目标应该与组织业务目标相关,而不仅仅是机器学习。虽然机器学习特定的度量(例如精度、准确性、召回率和均方误差)可以包含在指标中,但更具体的业务相关关键绩效指标(KPI)更好。

步骤2. 理解和识别数据

一旦对业务需求有了深刻的了解并获得了计划的批准,就可以开始建立机器学习模型了,是吗?这种想法是错误的。建立业务案例并不意味着组织拥有创建机器学习模型所需的数据。

机器学习模型是通过对训练数据进行学习和概括而构建的,然后将获取的知识应用于从未见过的新数据中进行预测并实现其目的。数据不足将会阻止组织构建模型,而仅访问数据是不够的。有用的数据必须是干净的并且处于良好的状态。

确定组织的数据需求,并确定数据是否适合机器学习项目。组织的重点应放在数据识别、初始收集、需求、质量识别、见解和潜在的值得进一步研究的方面。以下是一些需要考虑的关键问题:

?训练模型所需的数据源在哪里?

?机器学习项目需要多少数据?

?当前培训数据的数量是多少?质量如何?

?如何拆分测试集数据和训练集数据?

?对于监督学习任务,是否可以标记这些数据?

?可以使用预训练的模型吗?

?操作和培训数据位于何处?

?在边缘设备上或更难以到达的地方访问实时数据是否有特殊需求?

回答这些重要问题有助于组织处理数据的数量和质量,并了解使模型正常工作所需的数据类型。

凡本网注明“中国制造2025”的所有作品,媒体转载请注明。

凡注明为其他来源的信息,均转载自其他媒体,转载目的在于传递更多信息,并不代表中国制造2025网赞同其观点及对其真实性负责。

分享到: 0

图文阅读

超值推荐 小蚂蚁15万蚁粉款蚁炫版 用实力诠释什么叫都市年轻首选

超值推荐 小蚂蚁15万蚁粉款蚁炫版

智造文 发布于2020-11-20

AMD全新架构计算卡Instinct MI100登台:AI性能暴涨7倍

AMD全新架构计算卡Instinct MI100登台

智造文 发布于2020-11-20

三峡(宜昌)大数据产业园正式开园运营

三峡(宜昌)大数据产业园正式开

智造文 发布于2020-11-20

苹果M1芯片相比传统X86 CPU的优点在哪?

苹果M1芯片相比传统X86 CPU的优点在

智造文 发布于2020-11-20

印尼政府和LG Chem和宁德时代签署开发锂电池的投资协议

印尼政府和LG Chem和宁德时代签署

智造文 发布于2020-11-20

中国制造2025官网

 

中国企业竞争力发展研究中心

 

中国制造产业智库

 

关于中国智造网|About CHINA-MIC.CN|联系我们|网站地图 |RSS地图

京ICP备19032137号 邮箱:MIC@CHINA-MIC.CN

中国企业竞争力发展研究中心主办 Copyright t © 2019-2020 中国智造网 版权所有