伴随AI走向应用深水区,公开数据资源日益枯竭,“数据烟囱”的客观存在,进一步阻碍高质量数据穿透管控层、资源交互层向场景释放价值。
9月以来,国家数据局密集发布系列政策,提出公共数据资源开发利用成为产业发展重要趋势,并明确出台“可信数据空间”建设行动计划,确立了2028年前建成100个可信数据空间,培育推广五大类空间,形成九大关键技术突破等目标。
为支撑人工智能产业高质量发展,基于对数据要素核心价值的深入洞察与领先的全栈AI能力,北京电子数智科技有限责任公司(以下简称 “北电数智”)以前瞻性的战略布局投身可信数据空间的探索与实践,快速实现产品方案转化,加速可信数据空间全面落地。
在12月19日举办的2024数据资产管理大会上,由北电数智、北京大学信息管理系、中日友好医院共同编写的《智能计算驱动的AI可信数据空间方案研究》(以下简称“《研究报告》”)正式发布,成为可信数据空间领域的首份研究报告。
聚焦AI可信数据空间的关键作用,《研究报告》前瞻性提出“以数据可信定义AI终局”的发展愿景,对行业趋势、现状和痛点进行了深入剖析,并给出建设性解决方案和研究依据,为AI可信数据空间从理论研究迈向落地提供客观、详实的论证和推演。
AI可信数据空间:实现数据资源共享、数据要素流通、数据价值共创、构建数据市场的重要基建
数据是AI发展的关键驱动力。《研究报告》指出,数据的价值在于动态流通,具有易于复制、非排他性等特征,数据流通存在安全风险高、成本大等挑战,数据拥有方共享意愿低,阻碍了数据要素价值的释放,由此导致高质量数据短缺,成为国内AI发展掣肘之一。
北电数智基于在可信数据空间领域的深入实践,在《研究报告》中围绕定义、案例,以及我国发展现状等维度,对智能计算驱动的AI可信数据空间的建设给出三层次建议:
首先,“明确价值定义”。可信数据空间是数据要素流通的重要基建,是国家中长期数据要素基础设施,也是实现全行业数据流通的前提和关键保障。通过隐私计算、虚拟沙箱等技术手段,可信数据空间可保障数据“可用不可见、可用不可存、可控可计量”,为数据要素的安全、高效流通提供关键支撑。具体而言,可信数据空间通过采用“数字合约”规范了数据的流通规则,可提升数据的流通效率;同时,通过可控、可追溯的链路设计,确保数据仅在合约范围内流转,保障数据安全;此外,还可通过分布式架构让数据由持有方保管,确保数据在流通过程中产权不发生转移,实现数据产权保护。
第二,“善借他山之石”。目前,北电数智认为可信数据空间在国内外已有诸多相关案例可供参考借鉴。欧盟通过构建多层次的可信数据空间体系,为数据流通和数字化转型提供基础,并在科研、健康等领域取得显著成效。例如,欧洲开放科学云(EOSC)汇聚了丰富的科研数据资源,为科研人员提供了高效的合作平台,加速了企业创新孵化。国内也在政务、跨境、工业等领域有了诸多实践。例如,政务数据空间领域的“区块链+审判”应用,可以提高审判执行效率;科研领域的跨境数据空间,可以促进科研科创数据的跨境共享;工业数据空间则能在工业领域助力企业解决数据流通难题,助力制造升级、实现提质增效。
第三,“因地制宜因情施策”。尽管我国在可信数据空间领域已有积极的探索和实践,但整体发展尚处于起步阶段,特别是“大模型+数据空间”的结合,因技术复杂度高和成本约束,相关应用案例较为稀缺。要真正推动可信数据空间的健康发展,还需要形成统一技术路线和标准体系,并解决大模型与数据空间技术结合的问题。《研究报告》建议,国资背景企业可作为“领头雁”和“组局者”先行先试,推动安全、高效、公平的数据流通环境建设。
AI可信数据空间:数据要素X人工智能价值的最大化释放路径
可信数据空间是数据要素和人工智能价值的最大化释放路径。通过构建一个安全、可信的数据环境,让数据能自由汇聚、共享和流动,从而释放数据要素价值,为人工智能发展提供数据燃料。
作为AI原生国企,北电数智秉承在数据要素领域先进理念,致力于打造安全、可靠的数据交换和共享环境,构建了“红湖·可信数据空间”,通过可信数据流通为大模型开发提供优质数据,并通过大模型产业的发展带动数据要素价值的释放。
红湖·可信数据空间的整体架构是面向大模型开发设计的。面向数据提供方,红湖·可信数据空间有着使用策略协商、数据合约授权、数据安全接入、存证等产品功能,最大范围保障其权益,让数据“可用不可见、可用不可存、可控可计量”;面对数据开发者,红湖·可信数据空间还提供了大模型嵌入与开发、数据安全计算、流程管控、底层算力调度等功能,让可信空间中的数据有效支持模型训练及人工智能发展。
如何在大模型训练和推理过程中保障数据安全及开发安全,是可信数据空间需考虑的重要问题。 红湖·可信数据空间的产品设计对大模型开发算法安全进行了保障,它能依托混元算力构建,通过嵌入机密计算能力、隐私计算软硬一体设计等技术,能结合已有算力基础设施建设可信数据空间,如将平台能力建立在国产硬件上;而在算法开发环节,红湖·可信数据空间提供了大模型开发算法融入数据空间的标准化方法,将算法与有效的技术手段结合来保护数据隐私安全。
而对于数据流通的安全性,红湖·可信数据空间会根据应用场景需求对数据选取不同的安全技术配置,如对于大数量、超大模型、低敏感的数据,可以基于策略控制与软件隔离对大模型进行训练;但对于多方小数据量但高敏感的数据,就需要基于密码学密文计算的样本对齐、模型推理等。
以“红湖·可信数据空间”为代表的可信数据产品,充分考虑了人工智能开发过程中的风险因素,可充分发挥AI三大要素的核心作用,是数据要素与人工智能价值的最大化释放路径。
面向不同行业需求,北电数智红湖·可信数据空间已形成多种解决方案。如在医疗领域,通过整合多源异构数据,并结合AI数据挖掘,提升了医疗服务的智能化水平;在科研领域,提出了“1+1+N”科研数据服务解决方案,构建全面的科研与产品服务生态网络;在公共数据运营领域,构建从数据汇聚、治理、授权管理到开发利用的全链条授权开发与流通应用体系,释放公共数据价值。
最后,《研究报告》认为,通过为数据流转应用创造互信共享环境,可信数据空间已成为当前促进大模型落地和AI产业发展的关键,能够有效保障数据在安全可信环境中汇聚、共享、开放和应用,是解决数据跨域流通的最优解。
展望未来,建设面向AI可信的数据空间生态,已成为重要的行业趋势。《研究报告》预计,随着相关政策与法律法规的不断优化完善、大模型与数据要素融合趋势加快、数据流通基础设施朝向互联互通迈进,可信数据空间将成为实现数据资源共享共用的数据流通利用基础设施、数据要素价值共创的应用生态和支撑构建全国一体化数据市场的重要载体。北电数智也将持续锻造“红湖·可信数据空间”产品服务能力,全力促进数据要素价值释放,促进人工智能产业发展。