3月19日,科技创新与知识产权信息服务商智慧芽全新AI助手“芽仔”,由智慧芽垂直领域大模型提供底层技术“源动力”。“芽仔”是专注于研发创新与知识产权领域的AI助手,旨在帮助用户轻松实现专业内容生成、精准检索与推荐、总结分析、多语言翻译、互动对话等,提升创新效率。
AI大模型正带来新一轮技术革命,“芽仔”正是在此AI时代更替的大背景下诞生。相较于通用大模型,垂直领域大模型是智慧芽结合客户和场景需求后的必然选择。智慧芽技术副总裁屠昶旸表示:“通过垂直领域的应用,跟随企业进入百行千业,与业务流程和产品功能相结合,产生更大的应用价值。”
图:智慧芽AI助手“芽仔”的AI技术问答功能示意
从模型训练效果来看,智慧芽已成功训练专利大模型和生物医药大模型,领域知识均达到行业专家水平。其中,专利大模型通过中国专利代理师资格考试的水平,生物医药大模型达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平。在MMLU、C-Eval,Patent-Bench等综合测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。
图:智慧芽垂直领域大模型与其他大模型考试成绩
图:智慧芽垂直领域大模型能力评测
高质量训练数据集建立行业壁垒
决定一个垂直领域大模型表现的,除了模型本身外,训练数据集同样起到关键性作用。随着大模型应用的深入,对大规模且高质量的训练数据需求更为迫切。然而,获取和处理这类数据的成本高、难度大。
特别对于垂直领域大模型来说,拥有高质量的数据,还需要深入理解行业的特定术语、概念以及流程,同时选择和优化最适合该行业特性的技术和算法,这种深度的专业性是区分一般模型与高效、精准的垂直领域大模型的关键。
而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿级token的规模,包含了十余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种药物数据等。另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。
图:智慧芽垂直领域大模型预训练数据集主要构成
通过精心的数据准备和预处理,以及在训练过程中的严格数据管理,确保模型能够在高质量的数据上学习,从而提高模型的性能和应用价值。
同时,智慧芽围绕数据、算法训练、测试、强化学习构筑了“四位一体”的训练平台。算法上,采用增强式预训练的策略,基于专利和医药领域超40位专家反馈及其2万多条对比数据的强化学习,配合RAG(检索增强生成)技术,加强大模型理解能力,减少幻觉,对齐人类意图,将大模型精度提升至80%。
持续的数据监控和质量控制是保证训练结果可靠性的关键。在专利大模型领域,目前市场上还没有比较全面、专业、完整的评估体系。智慧芽率先建立了Patent-Bench评测基准,通过大模型评测平台全方位呈现大模型的评测效果。
大模型时代已开启“场景比拼”
相比通用大模型,垂直领域大模型具有更强的领域专业性和任务针对性,能够更好地解决特定领域的问题和提供更加精准的服务。大模型的竞争从通用大模型转向垂直领域大模型是大势所趋,而垂直领域大模型的决战或在“场景比拼”。
在场景层面,智慧芽累计服务全球50多个国家超12000家客户,涵盖了高校和科研院所、生物医药、新材料、新能源、智能制造、通信电子、新能源汽车、半导体等50多个高科技行业。智慧芽面向知识产权、研发创新、生物医药和科创金融等领域的数据产品和服务拥有百万级的专业用户,与其业务流程深度整合。
现在,智慧芽的大模型应用产品可与现有工作流无缝集成,提供真正契合客户工作场景的AI体验。屠昶旸表示:“高质量的数据,领先的算法,和天然的场景优势,将推动智慧芽在大模型落地应用方面一路领先。我们通过大模型重塑产品,让用户用自然语言交互即可获取精准详实的技术方案,让用户的创新效率达到指数级的提升。”
除了目前已取得突破的专利大模型、生物医药大模型,智慧芽将开拓更多垂直领域,当前面向材料、通信等领域的大模型正在训练中。
今年2月,“智慧芽文本生成大模型算法”已成功通过国家互联网信息办公室第四批境内深度合成服务算法备案,具备了正式向用户开放的资质。
未来,智慧芽将以大模型技术为产品创新的核心,驱动技术迭代、产品创新、业务升级,并着力构建开放生态,赋能行业发展,帮助更多企业真正进化为“AI First”,全面提效创新生产力。
关于智慧芽
智慧芽是一家科技创新和知识产权信息服务商,以机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术和大数据加工厂2.0的卓越能力为基础,致力于为全球创新企业和创新生态人群提供服务。
截至目前,智慧芽已经服务全球50多个国家超12000家客户,涵盖了高校和科研院所、生物医药、新材料、新能源、智能制造、通信电子、新能源汽车、半导体等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括麻省理工学院、牛津大学、陶氏化学、Spotify等。