当前位置：首页 > IBM >

IBM：应对 AI 数据困境：恰当的数据集成方法、治理和工具

2021年09月22日
50 金币

专家洞察 IBM 商业价值研究院应对 AI 数据困境恰当的数据集成方法、治理和工具主题专家 Michael Haydock IBM 院士，IBM 全球企业咨询服务部副总裁兼首席科学家 mhaydock@us.ibm.com linkedin.com/in/drmikehaydock Michael 是知名的人工智能专家，在 IBM 全球企业咨询服务部 (GBS) 从事深度学习研究工作。他专攻数值优化和定量机器学习领域，应用这些呈指数级发展的技术理解客户关系以及优化企业供应链。Michael 拥有明尼苏达州明尼阿波利斯瓦尔登大学运筹学博士学位。 Steven Eliuk IBM 全球首席数据办公室 (GCDO) 人工智能与治理自动化副总裁 Steven.Eliuk@ibm.com linkedin.com/in/m3the01 Steven 在 IBM 的认知型企业数据平台（数据湖）中领导 AI 平台和基础架构组件的开发。他还负责将企业中的 AI 应用于内部流程，保持可靠的治理、安全、隐私和信任水平。他的团队负责开发、维护和运营 IBM 的一系列全球隐私服务，包括满足 GDPR、CCPA 和其他法规的要求。在加入 IBM 之前，Steven 在三星美国研究院领导设计人工智能高性能计算 (HPC) 基础架构。Steven 拥有阿尔伯塔大学计算机科学专业博士学位。 Susara van den Heever 云与认知软件专家实验室主任 svdheever@fr.ibm.com linkedin.com/in/susaravandenheever Susara 担任欧洲、中东和非洲专家实验室主任一职，工作重心是使用 IBM Cloud 和认知软件为客户创造价值。她的理想是借助数据和 AI 让世界变得更加美好。她帮助个人和企业提高效率、节省时间、更好地管理资源 — 甚至做出更好的环保选择。她曾供职于许多行业：帮助啤酒生产商创建更有效的供应链，确保为电信提供商公平分配带宽，帮助能源企业建立可持续生产，以及让城市更加宜居，等等。Susara 拥有卡内基梅隆大学化学工程专业博士学位。扫码关注 IBM 商业价值研究院官网微博微信公众号微信小程序为什么大约一半的 AI 项目以失败告终？一言蔽之，数据使然。要点要从 AI 中获得最大价值，就一定要从业务问题入手。然后寻找多种数据类型 — 结构化和非结构化数据、内部和外部数据、定性和定量数据，以解决问题并丰富解决方案。融入基于权限的强有力治理，建立数据溯源能力，以形成对数据和 AI 洞察的信任。制定计划，应对严格的数据准备挑战以及合并不同数据源带来的复杂性。复用数据，自动执行流程并采用适当的工具。 AI 的独特数据挑战人工智能 (AI) 不再是新生事物 — 量子计算才是。AI 正广泛应用于各种商业和社会用途。在疫情初期，84% 的组织预计将保持或提高对 AI 的关注度，近三分之一的组织因疫情直接增加 AI 投资。1 最近的一项调研表明，AI、物联网 (IoT) 和云计算是受访 CEO 们认为最有助于实现成果的 3 项技术。2 43% 的 IT 专业人员表示，他们的企业受疫情影响而加快部署 AI 解决方案。3 这转化为企业对建立战略性 AI 能力（包括战略、运营模式、人才）以及将该能力整合到企业的迫切需求。但即使在完成有前景的概念验证 (PoC) 阶段之后，许多 AI 项目仍处于停滞状态。90% 的企业难以在整个企业中扩大 AI 的应用范围。4 大约一半的 AI 项目归于失败也就不足为奇了。5 为什么？一言蔽之，数据使然。超过半数的 AI 战略负责人承认，他们不清楚自己的 AI 数据需求。6 39% 的 IT 专业人员表示，分析数据以建立和扩展可信的 AI 是组织 AI 之旅中最困难的部分，32% 表示数据复杂性和数据孤岛是采用 AI 的最大障碍。7 1 难怪超过一半的组织将数据视为 AI 项目停滞的罪魁祸首，他们将数据质量问题视为最主要的因素 (58%)，其次是缺乏整理有序的数据 (45%)，接下来是数据治理问题 (40%)。8 事实上，即便是高级数据能力的常见最佳实践对 AI 而言也是远远不够的。虽然 AI 可能只是数据的一个用例 — 尽管是重要用例，但需要将汲取的经验教训广泛应用于 AI 领域。 AI 有几个特殊的数据考虑因素，会对实践起到重要作用： – AI 规模：一般来说，对于 AI 而言，可用数据越多，结果的质量和准确性就越好。因此，AI 所需的数据量可能远高于某些高级分析。 – AI 速度：必须使用最新数据，才能达到某些 AI 洞察和最佳预测所需的响应速度。有时甚至需要实时数据或非常接近实时的数据。 – 数据种类：数据越多，而且是可增添背景信息的数据越多，AI 结果通常越好。然而，AI 模型的结果可通过操纵数据（恶意或无意）甚至只是广义的“数据漂移”来改变，因此确保所有数据得到正确处理至关重要。 – 数据质量：AI 对数据高度敏感，因此数据必须能够准确反映基本现实。在某些情况下，AI 密切关注其他传统分析方法可能认为是异常情况的峰值，因此准确性非常重要。 – 人类观点：人类如何看待数据 — 包括我们自己经验中的偏见和大脑“黑盒”中的不透明性 — 通常会影响数据使用方法。数据具有背景意义，因此必须结合背景查看和理解数据。如果没有适当的背景信息，可能会无意误用或误解数据。然而，企业常常被这些复杂性所淹没，在应对数据挑战时受困于动机虽好但不一致的方法。为了满足 AI 的独特数据需求，组织首先必须对试图解决的业务问题有着清晰的认识，然后运用务实的方法来解决这些问题。密切关注业务问题一些经过传统培训的数据专家仍然难以应付 AI，他们过分关注数据科学和工程的细节，也就是如何使用 AI。如果无法充分理解和考虑较大的业务问题，例如企业为什么使用 AI，那么概念证明和研究型项目可能会激增，但不会带来效益。此外，数据科学家和工程师往往倾向于采用“大数据解决方案”来解决业务问题，而这些问题有时可通过高质量、定位精确甚至定性式的“小数据解决方案”来解决。团队首先需要回答两个基本问题：试图解决什么业务问题？如何最恰当地解决？有时，最复杂的 AI 可能并不是最佳答案（见图 1）。根据数据揭示的洞察以及 AI 建议或采取的行动，就可以明确何时以及如何干预业务工作流程。 2 要快速取得成功，展示积极的业务成果，就必须始终关注于业务。算法复杂度图 1 需求匹配从 AI/分析“连续体”中选择适当的工具。高级/其他 AI 方法深度学习/机器学习随机优化优化预测性建模预测模拟警报查询/下钻专门报告标准报告数据：结构化与非结构化内部与外部人工智能规范性分析预测性分析描述性分析数据可视化和工具如何改进推理、解释、理解与信任并相应实现自动化？应该采取哪些措施以改善业务成果？未来会发生什么？我的业务状况如何？数据管理和治理实现价值的务实方法鉴于数据对于 AI 的重要性，以及在获取、整合、准备和正确管理数据方面存在诸多挑战，许多组织都急于通过开展单一项目，整理组织内的所有数据。这通常包括将数据放入大型数据湖中，尝试一劳永逸地解决所有数据问题。当然，这基本上不可能取得成功。这种想法不切实际，因为其范围通常不明确，导致无法实现合理的投资回报 (ROI)。更重要的是，数据和企业的需求变化太快，无法完成如此庞大的工作。相反，具备坚实的 AI 能力的组织则学会如何务实地思考（请参阅“The Weather Company：从预测业务中汲取的经验教训”）。哪些数据随时可用、易于访问而且干净？要快速取得成功，展示积极的业务成果，就必须始终关注于业务。使用存在质量问题或可用性问题的数据会摧毁快速取得成功的可能性，使组织陷入冗长而低效的数据清理工作泥潭。成功的组织在中短期内以面向业务的用例为重点，但在长期内则关注 AI 带来的持续价值。 The Weather Company：从预测业务中汲取的经验教训 The Weather Company (TWC) 的看家本事是让海量数据发挥作用。更具体地说，就是应用 AI 和各种模型，生成预测和洞察。该公司已经在 AI 领域摸爬滚打二十年，在大规模应用 AI 方面处于全球领先地位。在此过程中，他们汲取了大量关于满足 AI 特殊数据需求的经验教训。首先是不要低估手头的任务。整合天气与销售数据看似很简单，但绝非如此。在提取数据、了解如何执行必要的数据联接以及了解结果所带来的影响时，需要从经验中获得洞察。例如，模型是需要在云端集中运行，还是在最终用户的设备中以“边缘计算”模式运行？模式是接受在线训练并持续更新，还是接受离线训练并定期更新？答案会影响数据处理方式。事实上，TWC 获得的一个重要经验是，企业需要为数据准备与整合制定切合实际的计划，准确预测所需成本、资源和时间。经验表明，团队可能将 80% 的时间用于数据整理，而用于实际运行模型、调整模型和研究结果的时间则少得可怜。自动化有助于解决这个问题。想想 TWC 的一个工作领域：预测季节性流感和过敏影响。在整合所有必要数据方面存在独特的挑战，这意味着必须构建自定义数据管道和服务甚至创建用于建模的特殊数据湖。这需要深厚的数据技能，也就是需要回答看似简单的如下问题：我们可以按照自己想要或需要的任何方式进行数据切片吗？幸运的是，在第一次面对这种情况时，TWC 已经拥有能够胜任这项任务的工程师和数据科学家。其他同样重要的因素呢？该团队得到了高管的大力支持，高管理解、认可该项目，并支持投入大量时间和资源以实现目标和预期结果。也就是说，许多普遍关注的数据领域并非新生事物；有些甚至已经出现了数十年，但在 AI 时代获得新的紧迫性、重要性和改进机会： 1. 整合。建立可以从整个组织以及外部为 AI 挖掘数据的能力。 2. 治理。在管理 AI 数据时应用最新的治理方法，以建立对洞察的信任。 3. 工具。为需要的团队提供必要工具。凭借适当的业务敏锐度和务实精神，企业可在持续建立制度化的数据能力方面取得进展，以满足 AI 的一些独特特征。整合势在必行新冠病毒疫情生动地展示了“过去的表现不能代表未来的结果”这一标准“免责声明”如何应用于数据以及从中得出的洞察。依赖前几年数据和历史模型进行分析的企业发现，自己的预测毫无用处。9 为了生存，他们必须开始采集短期数据，例如，最近的销售和天气数据，甚至油价，并更新 AI 模型以执行相关性更强的预测。事实上，AI 之所以较快地流行起来，主要是因为它能够采集多变的短期数据以扩充现有数据，快速调整并产生相关预测。这些可快速更新的短期数据大部分来自企业外部，因此用于整合第三方甚至公共数据的强大方法日益成为 AI 不可或缺的能力。 4 追踪正在发生的重大事件及其后续影响（如失业、可支配收入减少）的能力，可提供管理洞察。如果有效利用具有适当颗粒度的数据源，那么从中得到的洞察就可以实现高度本地化，真正发挥作用。追踪正在发生的重大事件（如疫情）及其后续影响（如失业、可支配收入减少以及随之而来的对购物模式的影响）的能力，可提供管理洞察。证明这种本地化方法的一个例子是 IBM COVID-19 Lockdown Index。该指数根据最新数据每日更新，帮助人们了解疫情对美国各县经济活动的当前影响。企业可将该指数与自己的数据相结合，创建有用、切实可行的预测，然后相应地进行规划和调整（请参阅“观点：整合不同数据源，形成本地疫情洞察。”）借助治理和溯源，赢得信任使用外部或第三方数据进一步表明，组织需要非常了解自己的数据。谁是所有者？谁可以批准使用以及确定时间长度？基于第三方数据的 AI 资产的商业化可能会引发更复杂的问题。如果 AI 资产是用企业不再有权访问或批准使用的数据训练的，那该怎么办？虽然这些问题显然适用于外部数据，但内部数据也可能面临类似的问题。超过半数的组织在数据整合方面苦苦挣扎，而三分之一的组织对自己连接多个数据源的能力缺乏信心。11 接下来是受监管数据的问题。国家边界可能会影响数据可用性及其使用方式。数据质量也可能因国家/地区而异，这意味着整个地理区域中的数据可能不一致，或无法以相同的方式使用。例如，在一些国家/地区，由于部署了先进的微芯片和读卡器，可以捕获非常详细的信用卡交易数据；而在其他缺乏这种硬件的国家/地区，信用卡机器收集到的交易信息就比较少。适当的数据治理方法有助于解决这些问题，包括了解并追踪数据来源。简单而言，数据治理是指管理不同类型数据所采用的规范、原则和规则。数据治理不仅适用于局部层面，比如组织内部，以帮助妥善处理数据，在数据生命周期的各个阶段保持其完整性和有效性；它还适用于组织之间、生态系统之间甚至国家/地区之间的合作，确定如何共享数据。为了使数据更易于访问和管理，也许适当的规则和文化比适当的技术更为重要。熟悉标准条款和条件以及组织处理数据的方式的数据文化，更有可能帮助组织有效共享数据并充分利用数据。 5 观点：整合不同数据源，形成本地疫情洞察一般来说，如果知道一场巨大的风暴即将袭击某个国家/地区的东半部，人们可能会予以关注；但如果知道它会袭击自己所在的州、县或城镇，或者从你身边经过，那么会引起更大的关注。本地化的洞察可能作用很大。 IBM COVID-19 Lockdown Index 数量化了每个地区当前的中断程度。它将纵向信息与每日实时更新的疾病蔓延、病床和感染统计数据、当地社区限制以及美国整体市场波动措施结合在一起。然后预测各县何时到达疫情曲线的高峰，以及每个地区独特的曲线下降趋势，之后分配风险评分并确定当地解除封锁的速度。它的用户友好界面直观说明美国各县的封锁程度以及未来四周最可能出现的封锁走势（见图 2）。该指数使用公开可用的数据，包括：州医院的流行病学措施要求；各县疫情病例数；病床使用情况；重症监护病房床位使用情况；使用中的呼吸机数量。该系统还抓取当地新闻报道，以获取有关学校开放/关闭日期和其他潜在的社区限制方面的更新信息。另一个类似的计划是 The Emergent Alliance，这是 IBM、劳斯莱斯、微软和数十家全球企业组成的非营利合作联盟。该联盟致力于提供关于新冠病毒病例的准确和最新的地区状况，以帮助地方当局更有效地应对疫情爆发。本地化的风险指数结合感染率、社交媒体、新闻、Airbnb 数据等多种数据。分析内容包括疾病对健康的影响、政府的响应及公众行为的变化及其整体经济影响。但该项目的优点不仅限于应对疫情。关于新闻主题的情绪数据可以帮助预测新的行为模式。例如，关于户外运动的新闻或山区的 Airbnb 预订增加，可能会引起关于徒步旅行或其他相关商品和服务的活动。10 图 2 直观洞察 COVID-19 Lockdown Index 6 如果洞察的接收方不信任洞察所基于的数据，那么即便是最强大、最成熟的 AI 算法也不太可能对业务产生太大影响。自动化水平当然越高越好，有助于节省时间和资源，同时鼓励更广泛地采用 AI 方法 — 因为获取数据不再是一项艰巨的任务。它可以帮助团队避免花费数周甚至数月去获得使用数据的许可。在组织文化中，没有什么比信任更重要。虽然组织内部的信任不可或缺，但当组织共享或接受外部数据时，信任更为重要（见图 3）。AI 团队在收集数据和构建展示价值的解决方案方面的能力并不是很重要。如果所产生洞察的接收者不信任数据，比如不信任其来源、使用方法、被检测到并减缓的偏见或者其透明度与合规性，那么结果就不会太理想。事实上，在这种情况下，即便是最强大、最成熟的 AI 算法也不大可能对业务产生太大影响。从区块链最新的概念和技术进步中汲取的经验教训，可能有助于建立信任。区块链最重要的原则之一，便是从一开始就将相应的参与方整合在一起，也就是那些可以关乎网络成败并能够回答“哪些数据可以共享？以及与谁共享？”等问题的关键少数。这个具备最低可行性的生态系统也可以包括监管机构，他们共同决定网络的激励机制、旨在实现经济效益的框架以及治理规则。保留汇总的知识和洞察，但不保留可能具有监管影响的敏感数据，是一个重要的数据治理概念。区块链原则在这里也适用于：基于许可的方法和网络验证有助于保持透明度、数据完整性、数据沿袭以及数据来源清晰度。这可解决 66% 的 IT 专业人员最关心的问题，即如何解决 AI 训练数据来源不明确问题。12 当然，有效的治理并不止步于追踪用于训练 AI 模型的数据。它还会检查人类根据该数据做出的决策，这对于可解释性至关重要，尤其是在这些决策可能存在争议时。图 3 相同的困境可信数据受到高度重视，但保护过于严密。拥有可信数据非常重要 79% 未来客户在交换数据方面需要更高的透明度和隐私性 78% 愿意与业务合作伙伴共享专有数据以交换价值 48% 来源：Veena Pureswaran、Parm Sanha 与 Smitha Soman 合著。“借区块链之力促进全球贸易：如何从值得信任、互联互通的市场中释放价值”，问题：您在多大程度上认同以上关于可信数据的陈述？IBM 商业价值研究院。2020 年 5 月。 7 标准数据方法和工具无法不经修改地应用于 AI。开展工作的适当工具许多 AI 应用将原始数据转化为信号，并在时间序列和其他大型数据集中寻找模式和洞察。为了揭示这些信号，通常必须对数据集进行数百次处理。想象一下，拥有超过 6 亿库存单位的大型零售商该如何应对。想象一下，处理数据所花的时间以及每天处理数百次所需的能力。这当然不是微不足道的问题，而是需要高级数据技能，但实现这种计算能力也会带来财务成本（包括环境成本）。除了原始数据挑战外，元数据挑战可能更为严峻。思考一下智能车辆的一次图像捕获及其生成的所有背景数据，包括日期、时间、位置、图像中的对象和相对速度以及图像外的世界（环境背景），等等。标准数据方法和工具无法不经修改地应用于 AI。组织需要部署适当的工具，为 AI 准备、优化、清理、组合与复用数据（请参阅“观点：IBM 首席数据办公室 — 用于实现数据治理自动化的工具”）。例如： – 支持数据编目的可复用的数据管道和技术，可以让数据治理和沿袭验证的某些方面实现自动化。由于许多许可证规定了可以使用数据的哪些部分以及如何使用，因此这些数据管道和技术有助于更简便地复用数据，避免为了获取和使用数据而重新获得批准和重建初始基础。 – 数据虚拟化工具，帮助降低成本，简化数据使用的某些方面，无需实际移动数据，即可在新环境中展示和操作数据。 –“无代码”建模工具，支持业务用户和其他没有 AI 工程专业知识的人通过可视化方式（大多数是拖放操作）将 AI 模型应用于数据集。与之密切相关的是企业应该培养的环境。整个企业的人员，包括数据科学家、数据分析师和企业所有者，都应该能够轻松获得自己所需的数据。通过功能库（可以视为位于传统数据目录之上的用户友好界面），可以轻松找到已进行编目和已经过审查的可信数据与 AI 模型。这样就能够支持整个企业（而不仅仅是技术用户）复用数据，帮助企业从数据和 AI 投资中实现最大价值。由于数据偏见会对 AI 结果造成负面影响，甚至剥夺主要利益相关群体的权益，因此，必须在企业支持平台中包含可自动检测并帮助消除偏见的工具，以及可突出显示数据潜在问题的可视化工具。精心设计的工具也有助于建立信任。例如，假设一家石油和天然气公司坐拥地理、地形和地震信息的宝库。该公司的现场员工团队包括来自不同领域的科学家和工程师，他们已经准备好使用这个数据宝库，但他们缺乏编程技能，无法使用数据科学家构建的 AI 模型。通过将适当的工具与模型和数据整合，支持负责日常运营的现场工作人员充分利用 AI，而无需精通数据科学的编码人员。选择合适的分析方法和工具有助于促进对价值的关注：例如，将算法性能与业务指标联系起来。举一个现实世界的例子，一家欧洲杂货商使用 AI 预测未来的最佳投资地点。在分析现有商店的当前环境时，AI 需要区分小商店和大型商店之间的区别。 8 为了选择合适的指标，团队需要将对数据科学的深刻理解与对业务目标的广泛看法相结合。对于有这种想法的团队来说，事实证明，均方根对数误差比更传统的均方根误差更能捕捉规模上的巨大差异 — 这是理解业务意图的明智之选，也是与目的最匹配的工具。13 适当的工具非常重要，但要成功使用 AI，必须将这些工具整合到更广泛的战略数据平台中。通过实施这种平台，团队还可以在项目开始时从跨职能技能中受益，这包括战略专家、业务分析师、职能主题专家 (SME)、数据工程师、数据科学家、数据管理员以及产品和项目经理。要成功地部署 AI，还要求这些团队的组织架构与数据处理方法保持一致。组织处理数据的方式往往模仿组织架构。固步自封的孤岛式企业很难共享数据。成功建立 AI 数据能力的企业则能够采取现代运营模式，将 AI 专业知识和实践以及关注重点与企业的许多特征保持一致。然而，确保数据实践满足支持当今 AI 技术的任务要求还不够。数据管理方法（例如神经符号方法）必须领先于 AI 领域的发展，并预测它们的独特需求。观点： IBM 首席数据办公室 — 用于实现数据治理自动化的工具为一家拥有 100 多年历史、运营着约 600 家知名实体和企业的公司执行数据资产加载、编目和管理工作是一项巨大的挑战。为此，我们建立了一个非常有用的关键工具 — IBM 词汇表，用一系列业务术语来描述作为治理基础的数据。最初，该工具的使用几乎完全采用手动模式，需要与治理团队和数据源所有者进行广泛的沟通。从长远来看，这种方法不可扩展，需要数百名数据治理负责人与同等数量的主题专家配对，对数据进行标准化和加载。为了实现数据整理阶段自动化，提供元数据以帮助专家开展工作，团队使用 AI 来标记数据并使一些标准数据功能实现自动化。该计划名为“自动化元数据生成”，帮助将加载和整理海量数据资产的积压时间从 6-8 周缩短到 10 天以内，同时大大降低对团队成员的时间需求。该方法还提高了数据质量，进一步简化了数据治理和监管要求。扩大技术使用范围大大加速了整个公司的数据管理。该计划的成功引发了对其进行进一步强化并转变为商业产品的请求。治理是强化措施的重要组成部分。错误的治理将酿成大祸，因此团队让该工具捕获可以验证数据来源和沿袭的不可改变的数据，以确保轻松地以可持续和主动的方式维护基于数据的模型。 9 行动指南应对数据困境尽管让 AI 走出实验室并全面投入生产环境绝非易事，但我们确定了一些关键行动供企业参考，以期加快扩展 AI 的步伐。面向不太成熟的 AI 采用者的主要实践：处于考虑、评估和试点阶段的企业业务价值关注问题以及 AI 能否解决问题。开发和调整 AI 用例，向共同拥有或具有有用数据的他方（包括业务合作伙伴和其他第三方）证明效益。尤其是在举办设计思维研讨会时，可以从一开始就邀请不同的利益相关方。邀请控制着重要数据集的利益相关方，让他们对 AI 项目的结果有发言权、所有权和兴趣，这也有助于开放对有价值数据的访问。整合从已有的数据入手。关注实际可用的数据。不要被“玩具数据” 甚至合成数据分散注意力，不要使用它们进行试验。另一个极端是，不要尝试整合无法轻松获得或不太可能获得使用许可的数据。治理明智地精简。进入数据整理模式；或者，如有保证的话，关闭在数据训练方面未展示稳步提高的项目或者在数据共享方面未获得利益相关方真正支持的 AI 项目。工具避免单打独斗。没有任何一个组织能够拥有所需的全部数据、工具或平台。整合与治理不同来源和不同所有者并具有不同使用限制的数据，可能使组织面临无法克服的复杂性。必须认真挑选可以提供有用数据、顶级工具和集成平台的合作伙伴。这样，您就不需要将大部分资源都用于自行采购、准备和管理数据。针对更成熟的 AI 采用者的领先实践：处于实施、运营和优化阶段的企业业务价值投资于“数据新闻”，宣传价值。为可信的 AI 和数据建立有效的文化。通过活动和积极的数据新闻报道，定期报告项目结果和潜力。采访利益相关方，帮助其他群体了解他们的观点和需求。编写故事，说明良好的数据实践和利用数据推动 AI 的好处。展现 AI 项目中“人”的因素，以及 AI 给人类带来的积极影响。不要忘记展望未来：五年后，主要的商业或技术出版物将如何评价贵企业（及团队）？整合迭代、整合与自动化。应用敏捷方法，尤其是迭代冲刺，尽早发现可能影响成功的数据问题。发现有助于丰富洞察和实现业务目标的其他数据集（外部和内部）。建立数据和工具复用机制，以实现自动化，避免重复劳动。治理扩展数据实践，从而扩展 AI。在试点期间找到运营问题的答案。例如，如何调用模型？需要多久调整一次模型？采集数据的频率如何（流式或定期）？生产环境中的数据量有多少，所需的硬件规模有多大？要部署到现实世界的生产环境中，还需要考虑与治理、数据量和数据管理员角色相关的其他数据要求。工具谨慎赋能“公民数据科学家”。功能库环境和“无代码/少代码” 建模工具使业务用户和其他没有 AI 工程专业知识的人员能够自己利用 AI。但为了防止善意的 AI 公民在使用方面“失控”，强有力的治理不可或缺。 10 备注和参考资料 1 Unpublished data from IBM Institute for Business Value survey on AI Value (n=2765 C-level business executives in major industries, functional areas, and geographies). 2 “2021 CEO Study: Find your essential.” IBM Institute for Business Value. February 2021. https://www.ibm. com/thought-leadership/institute-business-value/csuite-study/ceo 3 “Global AI Adoption Index 2021.” Morning Consult on behalf of IBM. April 2021. https://newsroom.ibm.com/ IBMs-Global-AI-Adoption-Index-2021 4 Linthwaite, Rachel. “Overcome Obstacles To Get To AI At Scale.” Forrester. January 2020. https://www.ibm. com/downloads/cas/VBMPEQLN; “IDC Survey Finds Artificial Intelligence to be a Priority for Organizations But Few Have Implemented an Enterprise-Wide Strategy.” IDC. July 08, 2019. https://www.idc.com/ getdoc.jsp?containerId=prUS46534820 5 Ibid. 6 Ibid. 7 “Global AI Adoption Index 2021.” Morning Consult on behalf of IBM. April 2021. https://newsroom.ibm.com/ IBMs-Global-AI-Adoption-Index-2021 8 “AI Global Survey.” IDC. May 2019; Linthwaite, Rachel. “Overcome Obstacles To Get To AI At Scale.” Forrester. January 2020. https://www.ibm.com/downloads/cas/ VBMPEQLN 9 Poole, Erin. “The new frontier: Industries navigate supply chain challenges quicker with demand sensing.” IBM Smarter Business Review. May 21, 2020. https://www.ibm.com/blogs/services/2020/05/21/ the-new-frontier-industries-navigate-supply-chainchallenges-quicker-with-demand-sensing/ 10 “How AI and data models help governments fight Covid19.” Financial Times. 2020. https://www.ft.com/ partnercontent/ibm/how-ai-and-data-models-helpgovernments-fight-covid-19.html ; https:// emergentalliance.org/about 11 “AI Global Survey.” IDC. May 2019; Linthwaite, Rachel. “Overcome Obstacles To Get To AI At Scale.” Forrester. January 2020. https://www.ibm.com/downloads/cas/ VBMPEQLN 12 “Global AI Adoption Index 2021.” Morning Consult on behalf of IBM. April 2021. https://newsroom.ibm.com/ IBMs-Global-AI-Adoption-Index-2021 13 Experts’ experience.For a discussion of the two methods, see Saxena, Sharoon. “What’s the Difference Between RMSE and RMSLE?” Analytics Vidhya. June 26, 2019. https://medium.com/analytics-vidhya/ root-mean-square-log-error-rmse-vs-rmlse935c6cc1802a. 11 关于专家洞察专家洞察代表了思想领袖对具有新闻价值的业务和相关技术主题的观点和看法。这些洞察是根据与全球主要的主题专家的对话总结得出。要了解更多信息，请联系 IBM 商业价值研究院：iibv@us.ibm.com IBM 商业价值研究院 IBM 商业价值研究院 (IBV) 站在技术与商业的交汇点，将行业智库、主要学者和主题专家的专业知识与全球研究和绩效数据相结合，提供可信的业务洞察。IBV 思想领导力组合包括深度研究、专家洞察、对标分析、绩效比较以及数据可视化，支持各地区、各行业以及采用各种技术的企业做出明智的业务决策。访问 IBM 商业价值研究院中国网站，免费下载研究报告: https://www.ibm.com/ibv/cn 选对合作伙伴，驾驭多变的世界在 IBM，我们积极与客户协作，运用业务洞察和先进的研究方法与技术，帮助他们在瞬息万变的商业环境中保持独特的竞争优势。 © Copyright IBM Corporation 2021 IBM Corporation 北京朝阳区北四环中路 27 号盘古大观写字楼 25 层邮编：100101 美国出品 2021 年 6 月 IBM、IBM 徽标及 ibm.com 是 International Business Machines Corporation 在世界各地司法辖区的注册商标。其他产品和服务名称可能是 IBM 或其他公司的注册商标。以下 Web 站点上的“Copyright and trademark information”部分中包含了 IBM 商标的最新列表：ibm.com/legal/copytrade. shtml。本文档为自最初公布日期起的最新版本，IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。本文档内的信息“按现状”提供，不附有任何种类（无论明示还是默示）的保证，包括不附有关于适销性、适用于某种特定用途的任何保证以及非侵权的任何保证或条件。IBM 产品根据其提供时所依据的协议条款和条件获得保证。本报告的目的仅为提供通用指南。它并不旨在代替详尽的研究或专业判断依据。由于使用本出版物对任何企业或个人所造成的损失，IBM 概不负责。本报告中使用的数据可能源自第三方，IBM 并未对其进行独立核实、验证或审查。此类数据的使用结果均为“按现状”提供，IBM 不作出任何明示或默示的声明或保证。 11038811CNZH-00