对于人类来说,识别一个场景中的物品是非常简单的一件事。但是对于人工智能和计算机视觉系统来说,发展对其周围环境的高保真理解需要更多的努力,如果我们说得具体一点,大约需要800小时的手工标记训练图像的努力。为了帮助机器更好地看到人的方式,麻省理工学院CSAIL的一个研究小组与康奈尔大学和微软合作,开发了STEGO,一种能够识别图像到单个像素的算法。
通常情况下,创建CV训练数据需要人类在图像中的特定对象周围画上方框--比如,在坐在一片草地上的狗周围画上方框--并给这些方框贴上里面的东西("狗"),这样,在上面训练的AI就能把狗和草地区分开来。相反,STEGO(基于能量的图谱优化的自我监督转化器)使用一种被称为语义分割的技术,它将类别标签应用于图像中的每个像素,使人工智能对其周围的世界有一个更准确的看法。
一个有标签的盒子会把物体加上周围像素中的其他项目放在盒子的边界内,而语义分割给物体中的每个像素都贴上标签,但只有构成物体的像素--你只得到狗的像素,而不是狗的像素加上一些草。这是机器学习,相当于在Photoshop中使用智能套索与矩形划线工具。
这种技术的问题主要出现在范围上,传统的多镜头监督系统通常需要数千,甚至数十万的标记图像来训练算法。乘以组成256x256的单一图像的65536个单独的像素,所有这些像素现在也需要被单独标记,所需的工作量迅速上升到不可能完成。
相反,"STEGO寻找在整个数据集中出现的类似物体,"CSAIL团队在周四的一份新闻稿中写道。"然后它将这些类似的物体联系在一起,在它所学习的所有图像中构建一个一致的世界观。
"如果你在看肿瘤扫描、行星表面或高分辨率的生物图像,如果没有专家知识,你很难知道要寻找什么对象。在新兴领域,有时甚至人类专家也不知道正确的对象应该是什么,"麻省理工学院CSAIL博士生,微软软件工程师,以及论文的主要作者马克-汉密尔顿说。"在这些类型的情况下,需要设计一种方法在科学的边界上运作,尤其是不能依靠人类在机器之前弄清楚的情况下。"
研究人员在各种各样的图像领域--从家庭内部到高空航拍--上进行了训练,结果显示STEGO的性能是以前语义分割方案的两倍,并且与人类控制的图像评估密切相关。更重要的是,"当应用于无人驾驶汽车数据集时,STEGO成功地分割出了道路、人和街道标志,其分辨率和颗粒度比以前的系统高得多。"麻省理工学院CSAIL团队写道:"在来自太空的图像上,该系统将地球表面的每一平方英尺都分解为道路、植被和建筑物。"
"在制作一个理解潜在的复杂数据集的通用工具时,我们希望这种类型的算法能够使从图像中发现物体的科学过程自动化,"汉密尔顿说。"有很多不同的领域,在这些领域中,人类的标签将是非常昂贵的,或者人类甚至根本不知道具体的结构,比如在某些生物和天体物理领域。我们希望未来的工作能够应用于非常广泛的数据集。由于你不需要任何人类标签,我们现在可以开始更广泛地应用ML工具。"
尽管其性能优于之前的系统,但STEGO也有其局限性。例如,它可以将意大利面和玉米糁都识别为"食品",但不能kvEtzni很好地区分它们。它还会被一些无意义的图像所迷惑,比如说坐在电话听筒上的一根香蕉。这是一种食品还是生活用品?STEGO无法分辨。该团队希望在未来编程客栈的迭代中建立更多的灵活性,使该系统能够识别多个类别的物体。