在全面到来的AI浪潮中重新读懂数据价值-3809游略网

在智能时代，数据的价值变得前所未有的重要。以ChatGPT为代表的生成式AI让人们看到了AI技术的颠覆性，一时间，大模型、加速计算、数据要素、数据隐私等概念风起云涌，此时，对数据进行有效的采集、处理、分析、治理，成为企业实现商业成功的关键。每一年，Gartner都会对市场热门的技术趋势进行深入研究，从中找到值得关注和投资的方向，为企业主提供发展参考。5月18日，Gartner发布了2023年十大数据和分析（D&A）趋势，包括数据即业务、数据价值规模化、以人为中心建立数据分析平台三个主题。

2023年十大数据和分析趋势

Gartner研究总监孙鑫表示：“我们发现，如果只是把数据分析能力作为一种IT能力做运维，往往难以发挥让业务比较大的价值。但是，如果把数据能力变成一种业务能力进行拓展，就会衍生出一些独立的、更有意思的商业模式，因此，‘数据即业务’已经发展为一种全球的趋势，吸引了很多中国企业关注。”例如，有时数据分析会作为一种产品进行销售，更多的业务人员也会承担一些数据分析或数据管理的职责。

孙鑫认为，企业要让数据分析与业务价值产生更清晰的联系，以此来进行更有针对性的投入，避免重复劳动。对此，Gartner推荐企业使用“业务价值流工具”进行数据的分析和管理，可以自上而下的帮助企业了解重要的业务节点和流程，辅助管理者做出决策，实现应有的价值。随着更多的创新发生在云端，围绕AI和数据分析的扩展性、兼容性、持续性和成本被频繁提及，由此也引发了有关数据编织和数据网格的热议，企业希望可以提升数据的业务场景化能力。

Gartner对数据网格（Data Mesh）的定义是以业务主导的方式管理数据，用于定义、交付、维护、管理数据产品，让数据发挥更大的价值。如果想实施好数据网格，需要在业务端配备数据产品经理的岗位，辅助做一些自服务分析，根据不同层级设置相互关联的治理模式。数据编织（Data Fabric）可以视为较为新型的数据管理设计模式，能够获取到灵活可复用、且被AI增强的数据集成管道，其中，会涉及知识图谱等技术，去更好地分析和理解元数据，提升基于用户的数据服务体验。

基于用户数据消费行为的分析，并在此基础之上进行推荐，是数据编织要解决的主要问题，让相关的数据找到相应的人。根据企业所处的数字化阶段和能力不同，Gartner提供了两种数据编织的设计路径——最小可用数据编制的设计和完整版的数据编制设计，企业可以据此进行数据优化和调整。招商银行建立了新一代数据目录，希望进一步优化数据分类体系，在该目录中进行的搜索、检查、请求等操作会被记录，这些操作型的元数据会被反馈到数据分类体系中，结合机器学习等技术进行自主演进，从多维度了解不同用户的实际需求。数据编织可以帮助企业用户实现快速的自服务，帮助数据管理团队实现更高效的数据生产力，大幅缩短数据需求响应时间，帮助企业主体加速投资回报。

借助高度可组合的数据分析生态，数据分析能力可以和微服务等技术整合，以模块化的方式快速落地到业务场景中。企业对于分析平台的可组合性较为关注，不同岗位的人员会在不用阶段根据不同需求选择匹配的技术路径，包括数据可视化、自动数据洞察、数据故事、数据叙事、自然语言驱动的分析、数据准备和报表会满足不同的业务需求，由企业按需来进行定制化的组合，而底层则是通过合作能力、指标平台/中台、治理能力、数据科学整合能力、数据目录能力，以及对数据源的连接来提供基础支撑。

在孙鑫看来，使用商业智能和数据科学平台的用户愈发多元化，既有业务分析师，也有数据分析的开发者、数据科学家，还有被增强过的数据消费者，“面对更广阔的用户，也要有更灵活的使用数据分析产品的架构，去建立更灵活的分析体验，这也是今年我们在‘魔力四象限’评估时比较重要的点。”除此之外，还会有一些新的产品形态来辅助建设业务指标。例如，指标平台/指标中台可以利用虚拟层管理不同的数据源，分析目录可以管理不同厂商的报表，带来统一的使用体验，这些目录可以被进行评级和打分，便于各方选择使用，同时，很多企业也在对外输出数据分析能力，使得数据的生产者和消费者相互转换，形成了对数据分析能力的发布-组合-再创新的生态循环。

分析目录

如今，AI已经是摆在企业面前的一道必答题。Gartner将Emergent AI视为今年的科技趋势之一，AI技术已经能够以更少量的数量达到更高的复杂度，预计到2026年，通过生成式AI驱动的数据分析能力，将吸引20%的大型企业数据和分析的支出，以支持这些企业对于自动化闭环数据分析结果的需求。此时，企业要学会主动迎接AI的浪潮，可以借助NLP等技术实现“决策智能”，完成从数据分析到业务行为的闭环。

孙鑫认为，生成式AI实现了嵌入式的增强体验，可以帮助用户完成更高级的数据分析，大幅降低了使用门槛。Gartner建议企业可以学习掌握提示工程（Prompt Engineering），通过全新的交互界面进行验证，从输入的角度核实、输出的角度理解并拓展大语言模型，辅以专门的工程师开发和优化由AI生成的文本。在招商银行内部，已经在使用聊天软件进行数据分析的相关讨论，提升数据使用效率。未来，数据科学家会更加关注大语言模型的调参，使其能够运用到千差万别的业务场景中。

AI战略的实施往往“事与愿违”

尽管AI可以为企业带来更低的成本和更好的决策，但是像生成式AI这样的新技术也会带来不少风险，例如所学习的数据存在偏见和错误，企业既要保证数据来源的多样性，也要避免遭遇一些瑕疵，同时，如果错误的信息没有经过适当的监管和审查，也会造成额外的损失。企业不能过度依赖AI提供的结果，要建立一套责任机制进行数据治理，确保生成式AI的使用是可靠的，遵守当地的隐私和安全法规。错误的信息、认知偏见，以及数据版权等问题，使得人工审查有着充分的必要性。

谈及生成式AI的未来走向，孙鑫给出了进一步解读，涉及架构、模型和运营。首先，英伟达在加速计算领域为AI算力奠定了重要基础，不过考虑到产品供应等问题，AWS、GCP等云厂商同样具有很大的发展空间，一些基础设施供应商也会集成预训练模型来提升硬件的价值。此外，大模型和“Fine-Tuning”模型会越来越多，Fine-Tuning模型的匹配度更高，使用相对较小、贴近业务场景的数据集即可满足要求，成本会随之降低，开源技术也会发挥更多的作用。同时，基于大模型构建的具有行业属性的特定模型将愈发普及。对于技术供应商来说，AI的安全治理、性价比等能力将是差异化或是护城河的体现。运营方面，“提示工程”的市集可以从多方面完善大模型的体验，“矢量数据库”则能够让生成式AI更了解企业所需，再加上Fine-Tuning模型和API管理工具，就能让企业在使用AI技术时更加得心应手。

“最后，我还是要强调一下，对于‘负责任人工智能工具’的投入是非常重要的。在中国，可能这一块相对来讲还比较空白一些，我们看到这种负责任的人工智能工具将在运营侧发挥关键的作用，甚至可以提供一些‘红队测试’、可解释性或者内容的管控，以减少我们基于人工智能用例的有害影响。“孙鑫说。