机器学习生态系统中数据治理和数据质量的挑战
作者:互联网
数据的高度可用性,增强的计算能力和先进的数据科学技术共同为数据驱动的结果提供了关键结合。随着开放数据经济的迫在眉睫,经过调整的数据治理功能将成为大多数企业的目标。
当前的数据管理实践侧重于无风险数据共享和法规遵从性。在开放的数据经济中,降低数据共享风险和增强治理机制是成功的关键。随着数据治理在以数据为动力的业务模型中继续占据主导地位,组织将投资于先进的数据技术,例如人工智能(AI)和机器学习(机器学习),以“实现大规模的质量,合规性和安全性”。
“如果数据不可靠或质量较差,则可能会出现非最佳的业务决策。”如前所述 作者的数据质量在机器学习时代的影响,数据质量假定在机器学习-供电,自助服务分析时代的商业用户没有资格评估数据的使用质量更加重要。企业现在意识到,除非首先解决数据质量问题,否则他们的AI投资可能会浪费!在现代业务分析体系中,越来越多的数据源,输入通道,大量数据和“非结构化数据类型”增加了数据管理的麻烦,尤其是在数据质量和数据治理领域。这是来自的报告麦肯锡,洞察价值链:物联网中的数据质量挑战,这有助于突出物联网(IoT)数据中的数据质量挑战。
数字业务中数据质量的挑战
尽管多类型和多源数据丰富了企业数据宝库,但由于数据质量差,数据管理已成为一项严峻的挑战。 资料品质管理层继续困扰着数据管理专家,他们知道除非正确解决数据质量问题,否则企业可能会失去获取竞争情报的千载难逢的机会。
甚至大多数研究人员都认为,数据质量问题妨碍了数据驱动型企业的真正潜力。这机器学习的使用缓解数据质量挑战的技术仍然有限,尽管大多数行业领导者认为机器学习具有直接面对数据质量问题的潜力。此外,高级人工智能/ 机器学习解决方案平台提供的解决数据质量的解决方案通常非常经济高效。自从“手动数据质量评估清理”已被自动化工具取代以来,数据专业人员已将宝贵的工作时间用于实际的数据科学任务。
机器学习解决方案目前具有“评估数据资产的质量,预测缺失值并提供清理建议的能力,从而降低了数据质量专家和科学家的复杂性和工作量。”
随着数据输入点的日益增加,企业正努力以有效的方式收集和存储该数据。AI提供了通过“智能捕获”自动化数据输入过程的机会,从而提高了传入数据的质量。高质量的数据可以提高营销活动的质量,预测分析。查看此博客文章以获取最新资讯 关于AI,机器学习和主数据管理的共同努力,以提供最佳的数据管理结果。
这 文章,在AI生态系统数据质量的挑战,有助于充分发挥在人工智能项目,在那里同样的机器学习和深度学习(DL)先进的数据传输技术共同用于管理“数据采集,数据存储固有的常见数据质量问题,数据准备,以及高级数据分析。” 为了描述问题的严重性,本文的作者引用了AI和机器学习培训数据平台Alegion的首席执行官兼联合创始人Nathaniel Gates:“将机器学习模型投入生产的最大障碍是培训数据的数量和质量。”
数据质量管理作为数据治理过程中的重要环节,必须在项目初期就做好规划,现市场上也有一些比较成熟的数据质量管理、数据治理软件可以协助企业顺利执行这一环节。
数字业务中数据治理的挑战
“数据质量的核心且经常被忽略的问题”由于“分散的数据源,巨大的数据量和非结构化的数据类型”而使组织的数据管理复杂性进一步复杂化。尽管支持人工智能/ 机器学习的系统在数字业务中继续保持增长势头,但是缺乏可靠的数据治理框架有“释放出不可靠和误导性的信息以及意外的费用开销的潜力”。
以下是人工智能/ 机器学习支持的企业面临的一些常见且经常引起争议的数据治理挑战:
数据访问控制-谁有权访问哪些数据?
数据的准确性,一致性和可靠性。
当前的数据存储和集成基础架构-是否足够?
与企业内部和外部的数据移动有关的安全性问题。
实施的数据治理计划-缺少什么?
机器学习被视为数据治理的救星
数据治理和机器学习,揭示了AI采用的行业现状。一方面,高管们非常渴望采用支持AI的数据管理解决方案。另一方面,技术专家确信,除非制定出以数据治理为核心组成部分的合理的数据战略计划,否则采用人工智能/ 机器学习技术可能仍是遥遥无期的梦想。
元数据在数据治理中起着至关重要的作用,这一点从“数据治理中元数据的作用”的主题讨论的兴起可以证明。 ” 此前,Gartner宣布,到2020年,数据治理的50%或更多比例将“由元数据驱动。” 通过“通用词汇和可审核的流程”使业务实践透明,元数据现在已经帮助机器学习技术填充了业务通道。
任何现代企业都必须有一个适当的 数据管理先进的人工智能/ 机器学习系统促进了“基础设施”的建立,从而获得了“技术支持的决策”的好处。但是,为了使这些先进的技术系统能够提供竞争情报,就必须在端到端企业分析系统的整个过程中对数据流进行“跟踪,控制和监视”。
数据治理用例:金融部门
机器学习如何影响您的组织数据策略,笔者强调机器学习的成功解决方案,数据治理策略,在工作中企业内部相通。目前,虽然美国一般企业忙于在全国范围内实施CCPA或其许多版本,但金融业似乎已经找到了令人信服的答案机器学习驱动的解决方案。采取逐部门调查的态度,AI服务供应商认为他们的解决方案旨在解决通常困扰金融服务部门的所有监管或合规性要求。
由于数字业务仅依靠数据的力量来进行运营,因此数据治理在提供竞争优势方面扮演着战略角色。数据与先进技术的结合,如果使用得当,可以将业务推向成功的顶峰。但是,正如《卫报》的监护人所揭示的那样,毕马威国际报告称,有2200名企业高管担心“共享平台上的数据”的治理挑战,例如医疗保健或制造业。在这些行业中,通常,许多参与方以高频为基础交换数据,从而挑战了可用数据的完整性。
数据和业务团队参加团队运动
DBTA 文章重点关注人工智能/ 机器学习系统中数据质量技术投资的成本合理性,结果表明,“劣质数据”的主要来源是销售部门,销售人员经常在CRM系统上输入错误或不完整的数据。不良数据可以通过链接的流程和应用程序轻松传播到其他部门或职能。正如本文所指出的,数据管理的基本问题是IT与业务人员之间缺乏沟通。业务人员认为数据是IT问题,而IT部门则认为干净的数据是创建数据的业务人员的责任。
在最近的一次企业峰会上,企业领导者虽然认识到数据战略对于数据驱动的见解的重要性,但未能与明确定义的企业分享自己的成功 数据策略。他们认为数据实践应将业务和数据人员纳入团队。“翻译人员”将充当结缔组织,以弥合业务和技术专家之间可能存在的沟通鸿沟。”
他们认为数据实践应将业务和数据人员纳入团队。该团队将使用“翻译器”来“充当结缔组织,以弥合业务和技术专家之间可能存在的沟通鸿沟。”
标签:机器,学习,数据管理,治理,生态系统,数据,质量 来源: https://blog.51cto.com/u_15161633/2726772