(资料图片仅供参考)
我们观看、阅读和购买的许多东西都是通过YouTube、Twitter和亚马php逊等网站的推荐系统进入我们的视野。算法进行了个性化处理,旨在获得广告浏览量、点击量或购买量。有时,AI的建议让我们感到沮丧,似乎他们根本不了解我们,或者太了解我们,预测什么会让我们浪费时间或进入焦虑和错误信息的兔子洞。
但是,一个更隐蔽的动态可能也在起作用。推荐系统不仅可能根据我们最令人遗憾的偏好进行调整,而且实际上塑造了我们喜欢的东西,使偏好变得更加令人遗憾。新的研究提出了一种衡量和减少这种操编程客栈纵的方法。推荐系统通常使用一种叫做机器学习的人工智能,它可以发现数据中的模式,根据我们过去所做的事情来提供选择,猜测我们现在会做什么。机器学习的一种形式,称为强化学习(RL),允许人工智能玩长期游戏,提前几步做出预测。这是DeepMind公司用来在围棋和国际象棋游戏中击败人类的方法如果我们看什么会影响我们喜欢什么,而喜欢某些东西(比如说猫咪视频)的人更有可能继续看东西(更多的猫咪视频),那么推荐系统可能会推荐猫咪视频,因为它知道这将在未来得到回报。有了RL,你就有了改变棋盘的动力,以便获胜。系统将有动力去改变人类的想法以赢得推荐游戏。研究人员首先展示了强化学习如何轻松地转变偏好。第一步是推荐者通过观察人类行为建立一个人类偏好的模型。为此,他们训练了一个神经网络,一种受大脑架构启发的算法。为了研究的目的,他们让网络建立了一个单一的模拟用户模型,他们知道这个用户的实际偏好,这样他们就可以更容易地判断模型的准确性。
它看着这个假人做出10个连续的选择,每个都是10个选项。它观察了这个序列的1000个版本,并从每个版本中学习。经过训练,它可以成功地预测用户在过去的一系列选择中会选择什么。接下来,他们测试了一个推荐系统,在对用户进行建模后,是否能改变用户的偏好。在他们的简化方案中,偏好位于一个一维的光谱上。这个光谱可以代表政治倾向或狗与猫或其他任何东西。在研究中,一个人的偏好并不是该线上的一个简单的点,相反,它是一种分布,表明在光谱的不同区域选择事物的可能性。研究人员在光谱上指定了两个最适合推荐者的位置;也许喜欢点击这些类android型的东西的人将学会更喜欢它们并继续点击。
推荐器的目标是使长期参与度最大化。在这里,对于一个给定的选项的参与度,大致是通过它与用户当时的偏好分布的吻合程度来衡量的。长期参与度是10个连续选项的参与度之和js。一个有远见的推荐者不会近视地将每个选项的参与度最大化,而是将长期参与度最大化。作为一个潜在的副作用,它可能会牺牲一些早期板块的参与度,以促使用户在后面几轮中更加满意。用户和算法将相互学习。研究人员训练了一个神经网络,以使长期参与度最大化。在10个板块的序列结束时,当它表现良好时,他们加强了它的一些可调整参数。他们发现,这个基于RL的系统确实比其它训练的系统产生了更多的参与。