在智能时代,数据的价值变得前所未有的重要。以ChatGPT为代表的生成式AI让人们看到了AI技术的颠覆性,一时间,大模型、加速计算、数据要素、数据隐私等概念风起云涌,此时,对数据进行有效的采集、处理、分析、治理,成为企业实现商业成功的关键。每一年,Gartner都会对市场热门的技术趋势进行深入研究,从中找到值得关注和投资的方向,为企业主提供发展参考。5月18日,Gartner发布了2023年十大数据和分析(D&A)趋势,包括数据即业务、数据价值规模化、以人为中心建立数据分析平台三个主题。
2023年十大数据和分析趋势
Gartner研究总监孙鑫表示:“我们发现,如果只是把数据分析能力作为一种IT能力做运维,往往难以发挥让业务比较大的价值。但是,如果把数据能力变成一种业务能力进行拓展,就会衍生出一些独立的、更有意思的商业模式,因此,‘数据即业务’已经发展为一种全球的趋势,吸引了很多中国企业关注。”例如,有时数据分析会作为一种产品进行销售,更多的业务人员也会承担一些数据分析或数据管理的职责。
孙鑫认为,企业要让数据分析与业务价值产生更清晰的联系,以此来进行更有针对性的投入,避免重复劳动。对此,Gartner推荐企业使用“业务价值流工具”进行数据的分析和管理,可以自上而下的帮助企业了解重要的业务节点和流程,辅助管理者做出决策,实现应有的价值。随着更多的创新发生在云端,围绕AI和数据分析的扩展性、兼容性、持续性和成本被频繁提及,由此也引发了有关数据编织和数据网格的热议,企业希望可以提升数据的业务场景化能力。
Gartner对数据网格(Data Mesh)的定义是以业务主导的方式管理数据,用于定义、交付、维护、管理数据产品,让数据发挥更大的价值。如果想实施好数据网格,需要在业务端配备数据产品经理的岗位,辅助做一些自服务分析,根据不同层级设置相互关联的治理模式。数据编织(Data Fabric)可以视为较为新型的数据管理设计模式,能够获取到灵活可复用、且被AI增强的数据集成管道,其中,会涉及知识图谱等技术,去更好地分析和理解元数据,提升基于用户的数据服务体验。
基于用户数据消费行为的分析,并在此基础之上进行推荐,是数据编织要解决的主要问题,让相关的数据找到相应的人。根据企业所处的数字化阶段和能力不同,Gartner提供了两种数据编织的设计路径——最小可用数据编制的设计和完整版的数据编制设计,企业可以据此进行数据优化和调整。招商银行建立了新一代数据目录,希望进一步优化数据分类体系,在该目录中进行的搜索、检查、请求等操作会被记录,这些操作型的元数据会被反馈到数据分类体系中,结合机器学习等技术进行自主演进,从多维度了解不同用户的实际需求。数据编织可以帮助企业用户实现快速的自服务,帮助数据管理团队实现更高效的数据生产力,大幅缩短数据需求响应时间,帮助企业主体加速投资回报。
借助高度可组合的数据分析生态,数据分析能力可以和微服务等技术整合,以模块化的方式快速落地到业务场景中。企业对于分析平台的可组合性较为关注,不同岗位的人员会在不用阶段根据不同需求选择匹配的技术路径,包括数据可视化、自动数据洞察、数据故事、数据叙事、自然语言驱动的分析、数据准备和报表会满足不同的业务需求,由企业按需来进行定制化的组合,而底层则是通过合作能力、指标平台/中台、治理能力、数据科学整合能力、数据目录能力,以及对数据源的连接来提供基础支撑。
在孙鑫看来,使用商业智能和数据科学平台的用户愈发多元化,既有业务分析师,也有数据分析的开发者、数据科学家,还有被增强过的数据消费者,“面对更广阔的用户,也要有更灵活的使用数据分析产品的架构,去建立更灵活的分析体验,这也是今年我们在‘魔力四象限’评估时比较重要的点。”除此之外,还会有一些新的产品形态来辅助建设业务指标。例如,指标平台/指标中台可以利用虚拟层管理不同的数据源,分析目录可以管理不同厂商的报表,带来统一的使用体验,这些目录可以被进行评级和打分,便于各方选择使用,同时,很多企业也在对外输出数据分析能力,使得数据的生产者和消费者相互转换,形成了对数据分析能力的发布-组合-再创新的生态循环。
分析目录
如今,AI已经是摆在企业面前的一道必答题。Gartner将Emergent AI视为今年的科技趋势之一,AI技术已经能够以更少量的数量达到更高的复杂度,预计到2026年,通过生成式AI驱动的数据分析能力,将吸引20%的大型企业数据和分析的支出,以支持这些企业对于自动化闭环数据分析结果的需求。此时,企业要学会主动迎接AI的浪潮,可以借助NLP等技术实现“决策智能”,完成从数据分析到业务行为的闭环。
孙鑫认为,生成式AI实现了嵌入式的增强体验,可以帮助用户完成更高级的数据分析,大幅降低了使用门槛。Gartner建议企业可以学习掌握提示工程(Prompt Engineering),通过全新的交互界面进行验证,从输入的角度核实、输出的角度理解并拓展大语言模型,辅以专门的工程师开发和优化由AI生成的文本。在招商银行内部,已经在使用聊天软件进行数据分析的相关讨论,提升数据使用效率。未来,数据科学家会更加关注大语言模型的调参,使其能够运用到千差万别的业务场景中。
AI战略的实施往往“事与愿违”
尽管AI可以为企业带来更低的成本和更好的决策,但是像生成式AI这样的新技术也会带来不少风险,例如所学习的数据存在偏见和错误,企业既要保证数据来源的多样性,也要避免遭遇一些瑕疵,同时,如果错误的信息没有经过适当的监管和审查,也会造成额外的损失。企业不能过度依赖AI提供的结果,要建立一套责任机制进行数据治理,确保生成式AI的使用是可靠的,遵守当地的隐私和安全法规。错误的信息、认知偏见,以及数据版权等问题,使得人工审查有着充分的必要性。
谈及生成式AI的未来走向,孙鑫给出了进一步解读,涉及架构、模型和运营。首先,英伟达在加速计算领域为AI算力奠定了重要基础,不过考虑到产品供应等问题,AWS、GCP等云厂商同样具有很大的发展空间,一些基础设施供应商也会集成预训练模型来提升硬件的价值。此外,大模型和“Fine-Tuning”模型会越来越多,Fine-Tuning模型的匹配度更高,使用相对较小、贴近业务场景的数据集即可满足要求,成本会随之降低,开源技术也会发挥更多的作用。同时,基于大模型构建的具有行业属性的特定模型将愈发普及。对于技术供应商来说,AI的安全治理、性价比等能力将是差异化或是护城河的体现。运营方面,“提示工程”的市集可以从多方面完善大模型的体验,“矢量数据库”则能够让生成式AI更了解企业所需,再加上Fine-Tuning模型和API管理工具,就能让企业在使用AI技术时更加得心应手。
“最后,我还是要强调一下,对于‘负责任人工智能工具’的投入是非常重要的。在中国,可能这一块相对来讲还比较空白一些,我们看到这种负责任的人工智能工具将在运营侧发挥关键的作用,甚至可以提供一些‘红队测试’、可解释性或者内容的管控,以减少我们基于人工智能用例的有害影响。“孙鑫说。