人手一个ChatGPT的时代或许就要来了!
当地时间4月12日,微软宣布开源大语言模型训练工具Deep Speed Chat,这意味着继OpenAI开放GPT的API方便各大厂商直接接入后,更为底层的工具也开放给所有用户使用。
开源底层训练工具
(资料图片仅供参考)
人工智能行业又迎来重磅消息。
当地时间4月12日,微软宣布开源了Deep Speed Chat,帮助用户轻松训练类ChatGPT等大语言模型。
据了解,这一工具是基于微软Deep Speed深度学习优化库开发而成,具备训练、强化推理等功能,还使用了RLHF(人工反馈机制的强化学习)技术,可将训练速度提升15倍以上,成本却大幅度降低。
简单来说,这种接近“所见即所得”反馈的训练工具,可以帮助没有太多人工智能模型训练基础的用户,在短时间内迅速训练出定制化的ChatGPT大语言模型,堪称“傻瓜式服务”。
据微软披露,目前使用该工具训练一个130亿参数的类ChatGPT模型,只需1.25小时。而训练一个1750亿参数的模型,Deep Speed Chat也只需不到一天的时间,而这一参数规模相当于ChatGPT-3.5。
据介绍,Deep Speed Chat拥有强化推理、RLHF模块、RLHF系统三大核心功能。
具体来看,首先是这一工具的强化推理能力对于用户使用更为友好,只需一个脚本即可实现多个训练步骤。
“传统模型训练需要诸多流程,包括调用预训练模型,实施训练标注等等。”一位业内工程师告诉记者,从目前微软介绍的情况来看,Deep Speed Chat可以大幅优化这一过程的繁琐度。此外,该工具还提供一个易于使用的推理API,用于在模型训练后测试对话性能。
而RLHF模块、RLHF系统则确保模型训练过程中的精细度,同时实现模型训练与推理能力的无缝切换。
从目前披露的情况来看,多位业内人士认为,相关的大模型训练门槛的资金投入、专业性要求都将大幅下降。
有业内人士戏称,如果说GPT引发了诸多行业的“工作危机”,那么如今Deep Speed Chat则可能将这场危机引入人工智能行业本身。
商业化领域迎重大变革
这无疑将引发整个人工智能领域商业化的变革。
“现在训练大模型要依托超大的算力,背后是大量GPU集群,这些价格是一般小型企业乃至科研机构无法承担的。”一位从事人工智能研究的工程师告诉记者,类GPT模型训练此前存在的最大障碍是硬件设备。
事实上,在过去几个月伴随ChatGPT的走红,类似Deep Speed Chat的训练开发工具也纷纷面世。但总体而言,由于缺乏支持端到端的基于RLHF的规模化系统,要想训练ChatGPT模型整体效率依然不高。
有媒体此前调查发现,现有的开源系统的训练效率通常还不到,这些机器所能达到的最大效率的5%。
而微软的Deep Speed Chat面世,或许意味着这一情况从商业的角度来看将大幅改善。
记者注意到,目前在Azure云上训练一个OPT-13B模型(一种类似于GPT系列的大型语言模型)只需要9小时,而OPT-30B模型也只需18个小时,这两种训练分别花费不到300美元和600美元。
即使是当前开源领域,参数最大的OPT-175B,训练时长也仅需20个小时,其训练价格也在5000美元左右。要知道此前千亿参数领域的模型训练,其成本均在百万级美元。
对于此次微软下场推出的这款重磅服务,有业内人士将之比喻为几十年前家庭电脑的普及。
“现在我们每个人拥有一台自己的电脑是稀松平常的事情,”一位业内人士认为,正是这种基础建设的普及,推动了整个互联网时代的到来,“而如今,一场新的基础建设已将拉开大幕。”
(文章来源:上海证券报)