网站建设工具品牌有,网络服务商官方网站,电商软件什么品牌好,怎么修改别人做的网站来源#xff1a;凤凰科技 概要#xff1a;最近她所在的实验室正在做一项新研究#xff0c;基于深度学习和视觉化语言模式了解不同物体之间的关系。 2017未来科学大奖颁奖典礼暨未来论坛年会28、29日在京举办#xff0c;斯坦福大学终身教授、谷歌云首席科学家李飞飞在人工智… 来源凤凰科技 概要最近她所在的实验室正在做一项新研究基于深度学习和视觉化语言模式了解不同物体之间的关系。 2017未来科学大奖颁奖典礼暨未来论坛年会28、29日在京举办斯坦福大学终身教授、谷歌云首席科学家李飞飞在人工智能研讨会上表示最近她所在的实验室正在做一项新研究基于深度学习和视觉化语言模式了解不同物体之间的关系。 李飞飞表示无论是动物智能还是机器智能视觉都是非常重要的技术。视觉是人脑中最为复杂的系统占有大脑中50%的认识单位。视觉反应速度非常快只需要150微秒。这使得图像识别技术变得非常重要但又十分复杂。 过去8年时间图像识别的错误率降低了10倍。2012年对GPU和深度识别技术的了解让这一领域实现了突破。但是在一个图集中要获得数据和物体之前关系的信息依然很难目前所能做的工作都十分有限。李飞飞所在实验室正在为攻克这一领域展开新的研究。 她列举了一张图中的算法这种算法可以预测不同物体之间的空间关系进行对比了解这种对称的关系然后了解物体之间的动作以及它们的之间位置关系。物体之间还能有什么样的数据集提供一个标签进行短句子描述。进行进一步了解视觉世界而不仅仅是一系列的物体名称实验室正在做相关量化研究。 以下是李飞飞演讲实录enjoy 今天我给大家带来的是最近的一些研究思路今天我的演讲内容是关于视觉智能动物世界当中有很多物种而且有一种非常了不起绝大多数动物都有眼睛因此视觉是最为重要的一种感观的方法和认知方法这是在动物的大脑当中帮助动物在世界当中生存下来进行沟通去操控和生存。 所以我们无论是讨论动物智能或者是机器智能的话视觉是非常重要的基石。世界上所存在的这些系统当中最为了解的一点是我们所知道的人类视觉系统。所以在5亿多年前的时候这个进化已经不断地让我们的视觉系统不断地发展使得我们的视觉系统非常重要的去理解这个世界而且这是我们大脑当中最为复杂的系统而且有50%的大脑当中的这些认知的单位都有着最为复杂、最为高级的感知系统所以能够让我们知道人类的视觉系统非常了不起。 这是认知心理学家做过的一个最为著名的一个实验这也就是告诉大家人类的视觉体系有多么了不起大家看一下这个视频你的任务是如果看到一个人的话就举手这是一个智商测试。所以每个图景的时间是非常短的也就是1/10秒不仅这样而且让大家看一个人的话并没有告诉你是什么样的人或者他站在哪里什么样的姿势穿什么样的衣服然而大家仍然能很快地识别出这个人。 1996年的时候Newl音译教授学生证明出视觉认知能力是人类大脑当中最为了不起的能力因为速度非常快而且大概是150微秒在150微秒之内我们的大脑能够区别非常复杂的图像。会把非常复杂的含动物和不含动物的图像区别出来那个时候计算机没有接近人类的这种工作激励着计算机科学家希望解决最为基本的问题就是图像识别问题。 过了20年到现在计算机领域和专家也在这个问题上发明了几代技术这个就是我们所了解到的这些图集当然也取得了非常大的进展和进步。这张图表是给大家总结一下在过去的几年当中在分类挑战当中一些标志性的项目横轴是时间年份左边纵轴指的是分类错误。我们能够看到它的错误是降低了10倍。8年的时间里错误率就降低了十倍所以这八年当中经历了非常大的革命。 2012年的时候了解了GPU技术以及深度识别技术帮助世界了解在深层学习革命的一个发展所以非常令人激动的领域尤其过去几十年在人工智能的研究。作为科学家就会想一下在这个图集之外还可以做到什么。 通过一个例子告诉大家两张图片包括一个动物和一个人通过图像识别来看这两个图非常相似但是他们的故事却是非常不同的当然你肯定不想在右边的图的场景当中我们在这就会出现一个非常重要的问题就是人们能够做的这也是最为重要、最为基础的一点图像识别功能就是识别图像物体之间的关系首先这个输入是图像本身但是我们所输出的信息包括物体的位置以及物体之间的关系。当然这个领域有一些前期工作但是绝大多数工作都是比较有限的。获得数据和物体之间的关系信息比较有限。 最近我们的实验当中做了这样一项工作开始新的研究预测根据深度学习以及视觉化语言模式了解不同物体之间的关系。 这张图的算法能够预测不同物体之间的空间关系进行对比了解这种对称的关系然后了解他们之间的动作以及他们的之间位置关系。所以这就是一个更为丰富的方法了解我们的视觉世界而不仅仅是一系列的物体名称这是我们所做出的一些量化研究。说明我们的工作在不断地进展和取得进步的。 一年前的时候我们知道这个领域发展非常快就是关于计算机图像识别方面。我们也知道有很多新的研究已经超过了我们的研究成果。 我们可以看一下在他们之间的关系是什么而且在这个图像当中不同物体的关系能够让我们去更进一步了解这个问题就是在物体之间还会有什么样的数据集。最开始我们知道有这个形象非常有限的信息比如这是一个物体COCO进一步学习提供一个标签进行短句子描述视觉数据信息是非常复杂和非常多的。 根据途径出来一些问答经过三年的研究我们发现可以有更为丰富的方法来描述这些内容通过这些不同的标签描述这些物体包括他们的性质、属性以及关系然后通过这样的一个图谱建立起他们之间的联系。可以在这看一下这个内容。这样一个数据库当中包括上千个标签包括属性和关系还有句子、问答信息在我们这样一个信息库当中能够非常精确地让我们来进行更加精确的研究而不仅仅知道物体识别本身。 我们如何来去使用这样的图表呢我们做过的一个工作就是我们看一下这个场景的搜索大家无论在百度还是在Google搜索中搜索过图像或者图集比如可以输入穿西装的男性可以展现出很多的图如果输入可爱的小狗的话有很多类似的图会出现这一点非常好。同时看一下他们解决了什么问题呢是否解决了图像搜索的问题呢我们输入一个句子男性穿着西装抱着可爱的小狗瞬间结果不是特别好了。 绝大多数搜索引擎的这种算法在搜索图像的时候可能很多还是仅仅使用物体本身的信息他们只是简单地了解这个图有什么物体但是这是不够的。 如果我想搜索一个坐在椅子上的男性的话如果物体本身给我们一个人形象或者椅子形象再能加上更多的属性加上更多的信息这个结果就会更好一些。 2015年的时候我们开始去探索一种新的呈现方法我们可以去输入非常长的描述性的段落放到大型的数据库当中然后来把它和我们的图像进行对比我们通过这种算法能够帮助我们进行很好的搜索这就远远地超过了我们在今天的这个图像搜索技术当中所看到的结果。 这个看起来非常好但是大家会有一个问题在哪里能够找到这些场景图像呢确实非常复杂而且很难帮助我们构建起一个场景图所以我们是手动地去构建这样一个场景这个过程将会非常繁杂所以我们下一步的工作我们就是希望能够出现自动地产生场景图的一个技术。所以我们有这样一个自动的系统当然是通过这种迭代的信息传递的模式而且使用这种深度学习的呈现方法当然太细节的内容在这不给大家讲了但是要给大家传递的一个重要信息。我们今年夏天的时候的一个成果就是我们这个方法在场景图这方面的搜索成果是比现行的激活技术要更好的。 通过这样一种场景图会给我们提供一个四层的过程而且让我们更好地了解场景信息但是还是不够的。而且实际上到现在为止我们仅仅探索了认知心理学家所讨论的一个概念人们在一眼之中能够看到什么样的内容有什么样的概念人们只要看一眼就能看出整个图像当中的故事所以我们要去看一下这种只看一下图就能够了解它主要信息的能力是什么呢在我之前曾经做过一个研究就是希望人们能够告诉我们你看到了这个图的时候看到了什么内容所以这是我们的实验场景实验人员坐在电脑屏幕面前给它非常简短地看一些图像然后很快地去看另外的一个图像去遮盖之前留下的印象。他们需要打印出自己所看到的所有内容做这个工作给他们付10美元现在不给大家一小时10美元大家可以实验一下这个感觉如果你是参加我的实验人员的话。 在这个图当中其实很快能够被一张简单的途径去盖掉很短的呈现时间只有27微妙27微妙相当于是1/40秒简单图形的时间是半秒的时间是更长的人们还是能够很好地理解场景信息基本上是很短的时间。如果我给的实验费用更高的话大家甚至能做的更好。在这个语言当中有非常丰富的元素不仅仅看到图像当中的物体是什么他们的关系是什么而且有更多的内容。 2015年开始我们有另外一个概念叫做LSTM他们希望把语言之间关系建立起来我们在电脑当中给他们一个图像能够描述穿橙色工作服的工人站在路上工作或者穿黑色T恤的男士在弹吉他不仅仅用简短的句子描述图形所以后来进行进一步的工作就是深度捕获。看每个短句描述一个部分然后描述图像的场景。 除了这个之外我们今年所做的工作我们希望把这些图像要用这些短语让它成为小短的句子成为一个小段落给了更多的内容而且和认知心理学家所做的实验当中人类的描述结果是非常接近的。但是我们并没有只停于这里在上个周的ICCB的上面展示了一个视频非常丰富的研究区域很多网络上的视频有各种各样的数据形式了解这些视频是非常重要的。在里面可以描述更长故事的片段用同样的模型可以这样做可以把时间的元素加入到里面。 这就是一个例子大家可以看一下可以看到视频是在进行着的我们也可以去描述每一个部分是怎么样的。 这是另外一个例子也是描述了这个演员正在做的这些事情差不多大家能明白什么意思了。 另外一个部分除了简单的认知以外就是推理推理可以让我们能够回到人工智能的最初在20世纪七八十年代的时候人工智能的先驱们用了很多推理斯坦福大学的一个教授也是把他的研究称为一个块状的世界这里面涉及到很多的深度推理。蓝色还是不错的喜欢这些蓝色的块状不喜欢红色的块状不喜欢支撑三角形的东西到底喜欢不喜欢灰色的盒子呢所以这里有很多推理需要去做的然后够得出一个正确的答案。 当然时间过得很快不能讲的特别详细但是我们在实验室里也是用了这些简单的工具来描述这样一个分块状的世界。这里面也有很多的问答列表每个问答列表都是涉及到推理的过程当中最关键的一些环节包括空间的一些关系一些逻辑关系在这里面也有一些问答例子。 去年我们也是把这些智能的问答集做成了这样一个系统人类能做多少机器能做多少在准确上面的一个对比。我们到底怎么能够做得更好呢这也是最近我们做的一个工作在ICCB发表的。我们用了一个新的程序去做在我们的算法里面我们把这些问题输入进来然后把程序进行一些协调还有执行的引擎用预测的一些程序进行执行的处理。通过这样一个算法我们可以看到这些学习的准确率。 有哪些学习模块呢首先判断到底这些物体形状怎么样这些紫色是什么样的这是一个更加复杂的就是在灰色的这些模块旁边有多少发光的这些物体得出的结果是2。 我给大家分享的就是一系列的工作有哪些能够超越我们视觉的一些途径其实我们在了解到场景还有其他的一些要素对于整个的认知会产生什么样的影响除了这个情景、视觉、语言还有很多推理等等这些都是很重要的。 最后用这张图来结束这是20周大的一个小女孩随着她的认知世界的发展她通过很多游戏她也可以通过画画以及各种玩具来和世界建立认知这是认知视觉的智能对于我们的理解、交流、协作、互动等等视觉智能都是非常非常关键的让我们开始探索这个世界。