(资料图片仅供参考)
“生成式人工智能是近40年来最重要的技术革命”,这是微软联合创始人比尔盖茨最新的研判。当智能涌现,如何推动科学研究、应用创新,成为业界关注的焦点。
9月7日,在2023外滩大会“新一代数据底座——探索图智能的应用与发展”分论坛上,蚂蚁集团带来了一项融合研究—“大图模型”(LargeGraphModel,简称LGMpython)。这项研究将图计算与图学习及大语言模型结合,利用大语言模型的生成能力和图计算的关联关系分析能力,提供更直观、更全面的信息呈现和更精准的洞察,从而更好地解决海量复杂的数字化应用难题。目前蚂蚁已完成第一阶段“生成式异质图增强”的研编程客栈究工作,相关成果论文被世界计算机顶会(WWW2023)收录。
图计算是一种强大的数据处理技术,可以解决复杂关系网络中的关联性难题,在金融反欺诈、天气预报、药物开发,甚至类脑研究领域都有应用,被誉为人工智能“牛鼻子”。大模型是最有可能走向通用人工智能的技术,在某些领域的任务达到了与人类相当甚至更好的表现。
为什么要用尖端技术驱动尖端技术?大语言模型不能独立完成数据分析和挖掘任务吗?蚂蚁集团高级技术专家刘永超表示,大语言模型可以推理出隐性关联关系,但是无法绘制关系图,而研究数据关系需要体现清晰的链路,使用图结构表示更便于理解。“将大语言模型与图计算结合,就是先从海量信息中逻辑推理,再利用超级计算算出关系,这就类似给人类大脑外接了一台超级计算机,能力更强了”,刘永超解释。
(蚂蚁集团刘永超分享“大图模型”研究成果)
在这项研究中,蚂蚁集团主要开展了两项工作。第一,利用大语言模型丰富图数据。区别于普通的上下文依赖模型,大语言模型可以根据现有数据生成新的数据点。这项工作名为“生成式异质图增强”工作,即通过大语言模型来扩展和丰富不同类型的图数据。第二,通过Prompt(一种指令或提示)引导模型学习和发现特定数据特性。例如,设置一个Prompt“一年内违约3次以上的群体的共同特征”,模型便会生成满足特定条件的数据样本。这种能力可以加速数据分析和特性发现的过程。
蚂蚁集团是图计算领域的引领者,与清华大学共同研发的图计算平台TuGraph曾三次打破图数据库权威测评LDBCSNB世界纪录,2021年获得世界互联网大会“领先科技成果”奖,2023年入选IDCMarketScape中国图数据库市场“领导者”象限。近年来业界为图智能走向通用人工智能开展了多种尝试,“大图模型”就是蚂蚁为了破解行业难题,从2022年初开始的研究。伴随2022年底大模型爆发,这项研究得到了可行性验证。
在本场论坛上,国内外图智能领域的专家和学者还分享了更多热点进展。加拿大滑铁卢大学校级教授M.Tamerzsu分享了在业内富有挑战性的流式图计算技术。浙江大学计算机学院教授陈华钧讲述了大模型时代知识处理的机遇与挑战。之江实验室图计算研究中心副主任陈红阳带来了之江朱雀图科学计算与生物医药研发的最新研究。机器之心联合创始人、副主编李亚洲认为图智能和大模型相结合的研究有望为数据智能带来重大提升。
关于人工智能和图计算的可能性,外滩图智能论坛汇聚了不同视角的见解,为图智能发展描绘了重要的发展脉络。