(资料图片仅供参考)
编程客栈() 5月15日消息:聊天机器人经常被忽视的一个限制是记忆能力。虽然这些系统的 AI 语言模型是基于 TB 级的文本上训练的,但它们在使用过程中能够处理的文本量(即输入文本和输出的组合,也称为「context window 上下文窗口」)是有限的。对于 ChatGPT 来说,大约是 3000 个单词。虽然有办法可以解决这个问题,但它仍然不是大量的信息。
现在,由前 OpenAI 工程师创立的人工智能初创公司 Anthropic 大大扩展了其聊天机器人 Claude 的上下文窗口,将其推至约 75,000 个单词。正如该公司在一篇博文中指出的,这足以一次性处理《了不起的盖茨比》这本小说的全部内容。事实上,该公司就是通过这样做来测试系统的——编辑小说中的一句话,并要求 Claude 发现变编程化。结果它在 22 秒内完成了此操作。
你可能已经注意到,在描述这些上下文窗口的长度时不够精确。这是因为 AI 语言模型不是以字符或单词的数量来衡量信息量,而是以「token」来衡量,这是一个不完全对应这些熟悉数量的语义单位。仔细想想,这是有道理的。毕竟,单词的长度可能长或短,并且它们的长度不一定与其意义的复杂性相对应(词典中最长的定义通常是给最短的词)。使用「token」反映了这个事实,因此,更精确地说:Claude 的上下文窗口现在可以处理 100,000 个 token,而之前只能处理 9,000 个 token。相比之下,OpenAI 的 GPT-4 可以处理大约 8,000 个 token(这不是 ChatGPT 中提供的标准模型——你需要付费才能使用),而 GPT-4javascript的完整模型可以处理多达 32,000 个 token。
目前,Claude 的新功能仅向 Anthropic 的商业合作伙伴提供,他们通过该公司的 API 接入聊天android机器人。定价情况尚不清楚,但肯定会有相当大的增加。处理更多文本意味着在计算上需要花费更多。
但这个消息表明,AI 语言模型处理信息的能力正在增加,这无疑会使这些系统更加有用。正如 Anthropic 所指出的,一个人读完 75,000 个单词的文本大约需要五个小时,但通过 Claude 扩展的上下文窗口,它可以在几分钟内读取、总结和分析一篇长文档。(尽管这并不能解决聊天机器人常常编造信息的问题。)更大的上下文窗口还意味着系统能够进行更长时间的对话。导致聊天机器人失控的一个因素是,当它们的上下文窗口填满时,它们会忘记之前的对话内容,这也是为什么 Bing 的聊天机器人仅限于 20 个对话轮次。更多的上下文意味着更多的对话可能性。
这种扩展的上下文窗口对于许多应用场景都非常有用。在处理大量文本的任务中,聊天机器人可以更全面地理解和回应用户的问题。它们可以在更长的对话中保持上下文一致性,并提供更准确的回答和指导。例如,在客户服务中,聊天机器人可以更好地跟踪用户的问题和需求,从而提供更个性化和有针对性的支持。
尽管目前 Anthropic 的扩展上下文窗口功能只针对其商业合作伙伴开放,但随着时间的推移,这种技术可能会在更广泛的范围内得到应用。随着 AI 语言模型的进一步发展,处理更多信息的能力将会成为聊天机器人和其他自然语言处理系统的重要进步。