DeepMind AI通过观看视频来讲述世界

 作者:崔军蹉     |      日期:2017-08-02 05:18:01
OE KLAMAR /法新社/ Gettyvide作者:Matt Reynolds对于未经训练的人工智能而言,这个世界充满了令人困惑的数据流大多数人都没有问题来理解他们周围的景象和声音,但算法往往只是获得这种技能,如果那些景点和声音明确标记为他们现在,DeepMind已经开发出一种人工智能,可以通过观看视频的微小片段来识别一系列视觉和音频概念例如,这种人工智能可以掌握草坪割草或搔痒的概念,但它没有被教授用于描述它听到或看到的内容的词语 “我们希望建立能够以自主方式不断了解其环境的机器,”加州大学伯克利分校的Pulkit Agrawal说没有参与这项工作的阿格拉瓦尔说,这个项目让我们更接近创造人工智能的目标,人工智能可以通过观察和聆听周围的世界来教导自己大多数计算机视觉算法需要输入大量标记图像,以便能够区分不同的对象显示一个标有“猫”的成千上万张猫咪照片的算法,很快它就会学会识别猫,即使是以前从未见过的图像但是这种教学算法的方式 - 称为监督学习 - 并不具有可扩展性,在DeepMind领导该项目的ReljaArandjelović说他的算法不是依赖人类标记的数据集,而是通过将看到的内容与听到的内容进行匹配来学习识别图像和声音瑞士伯尔尼大学的Paolo Favaro说,人类在这种学习方面特别擅长 “我们没有人跟随我们,告诉我们一切都是什么,”他说 Arandjelović通过两个网络开始创建他的算法 - 一个专门识别图像,另一个用音频做类似的工作他展示的图像识别网络仍然是从短视频中拍摄的,而音频识别网络是在每个视频中从同一点拍摄的1秒音频剪辑上进行训练的第三个网络将静止图像与音频剪辑进行比较,以了解哪些声音与视频中的哪些景点相对应总而言之,该系统接受了来自400,000个视频的6000万个静音对的培训该算法学会识别音频和视觉概念,包括人群,踢踏舞和水,而没有看到单个概念的特定标签例如,当显示某人拍手的照片时,大多数时候它知道哪个声音与该图像相关联 Agarwal说,这种共同学习方法可以扩展到包括视觉和听觉以外的感官 “例如,同时学习视觉和触摸功能可以使代理人能够在黑暗中搜索物体并了解材料属性,例如摩擦力,”他说 DeepMind将于10月底在意大利威尼斯举行的国际计算机视觉会议上展示这项研究虽然DeepMind项目中的AI不与现实世界交互,但Agarwal说完善自我监督学习最终会让我们创建可以在现实世界中运作的AI,并从它所看到和听到的内容中学习但是在我们达到这一点之前,自我监督学习可能是一种训练图像和音频识别算法的好方法,而无需大量人类标记数据的输入 DeepMind算法可以在80%的时间内正确地对音频片段进行分类,使其在音频识别方面比在标记数据上训练的许多算法更好这些有希望的结果表明,类似的算法可能能够通过浏览大量未标记的数据集(如YouTube的数百万在线视频)来学习一些东西 “世界上大多数数据都没有标注,因此开发可以从未标记数据中学习的系统是有意义的,”Agrawal说期刊参考:arxiv.org阅读更多:好奇AI通过探索游戏世界并犯错误来学习更多关于这些主题: