省级网站 开发建设 资质,杭州网站建设服务,网络建站流程,网站添加微博来源#xff1a;AI科技评论编译 #xff1a;陈彩娴近日#xff0c;有一篇发表在arXiv的论文“Deep Learning and the Global Workspace Theory”提出了一个大胆的猜想#xff08;或理论#xff09;。两位作者认为#xff0c;当下的深度学习已经可以基于一个意识模型… 来源AI科技评论编译 陈彩娴近日有一篇发表在arXiv的论文“Deep Learning and the Global Workspace Theory”提出了一个大胆的猜想或理论。两位作者认为当下的深度学习已经可以基于一个意识模型即“全局工作空间理论”GWT将处理不同模态转换的神经网络即功能模块结合为一个系统从而迈向实现通用人工智能的下一个阶段。总结成公式就是GWT深度学习→通用人工智能。论文链接https://arxiv.org/pdf/2012.10390.pdf然而深度学习的那些被人广泛诟病的问题如脆弱性、不可解释性等等可以通过这个框架来解决吗现在学术界一直提倡的结合知识、结合图网络、结合因果关系等观点他们又怎么看待呢作者在论文中也部分地给出了自己的答案。他们认为该系统可以提高神经网络的对抗鲁棒性实现Bengio提出的系统2认知以及对于理解因果关系很重要的反事实推理等等。这个理论是否可行尚不可知但其描绘的图景值得一看。1论文摘要随着深度学习的不断发展人工智能在许多感知、理解、语言与认知任务中已接近人类。然而我们对开发基于大脑的认知架构的需求也在不断增长。全局工作空间理论Global Workspace Theory指的是一个将专业模块网络中的信息整合和分发以创建更高级的认知和意识形式的大规模系统。作者认为现在正是使用深度学习技术实现全局工作空间理论的时机。因此他们基于多个隐空间Latent Space针对不同任务在不同的感知输入和/或模态上训练的神经网络之间的无监督神经翻译提出了一个路线图以创建一个独特的非模态全局隐工作空间Amodal Global Latent Workspace。2大脑与机器中的认知神经架构在机器学习的体系中深度学习的特征是使用在输入与输出层之间具有多个“隐藏”层的人工神经网络。人工智能的许多最新突破都要归功于深度学习。神经科学家也指出了大脑与深度人工神经网络之间的相似性与差异性。深度学习的出现使计算机能够有效执行此前无法实现的感知与认知功能。在这篇论文中作者等人希望将深度学习扩展至全局工作空间理论GWT。GWT是感知、执行功能甚至意识的基础。GWT是一种意识模型最初由美国心理学家Bernard J. Baars等人提出是当代主要的神经科学意识理论之一图1A。该理论提议将大脑分为执行不同功能的专用模块模块与模块之间具有长距离连接。通过注意选择的过程确定输入或任务要求后专用模块内的信息可以在不同模块之间传播与共享。根据该理论每一时刻的及时共享信息即全局工作空间构成了我们的意识知觉。从功能的角度来看全局工作空间可以通过协调多个专用模块来解决单个模块的功能所无法解决的问题。图 1大脑中的全局工作空间如上图所示图1A是GWT的示意图。同心圆描绘了外围如感知输入与更多的中间过程全局工作空间位于中心。每个专用模块都是独立处理信息。通过自下而上基于重要性或自上而下与任务相关的注意力来选择输出时输出可以进入全局工作空间。在全局工作空间中信息处理的特点是长距离的互连性强因此可以将新的信息传播到其他模块。在任何给定时间内专用模块的子集都会依赖数据与任务被调到工作空间中。全局工作空间的内容反映了我们不断变化的意识。图1B是GWT映射到猴子大脑。图左视觉信息可以通过视觉系统传播并激活以前馈方式控制行为输出的额叶区域——在这种情况下信息是无意识的。图右当输入足够强大或与任务相关时输入将激活循环连接导致全局工作空间“点火”ignition一个高度非线性、非零的过程。图C是受Dehaene和Changeux启发的全局神经元工作空间GNW实现包含了具有前馈和循环连接的处理层的分层结构LGN外侧膝状体V1 / V4视觉区域Par顶皮质区Front额叶皮层。图D所示的简单循环网络是全局工作空间的全或无“点火”的原因所在与漏掉的或未检测到的输入分别是Correct Rejection与Miss相比大脑有意识感知到的输入Hits的主要特征是额叶区域的全或无激活或“点火”。Dehaene等人提出了该理论的神经元版本即全局神经元工作空间Global Neuronal Workspace 。根据GNW理论当新的信息通过在前额叶、额颞叶和扣带状皮层中密集分布着远距离轴突的神经元网络到达全局多个大脑系统时意识通达就会产生图1B。GNW关键方面的尖峰神经网络实现捕获了全局工作空间理论的本质图1C以及意识报告与神经元反应之间的已知关系图1D。但这种方法是否能够以足够的灵活性扩展来解决人工智能中的问题仍未可知。在这篇论文中作者提出使用深度学习的知识来实现全局工作空间理论。Yoshua Bengio将他最近的“意识先验”理论与GWT明确地联系起来但他的观点主要强调机器学习的一些新颖理论原理例如稀疏因子图。作者在这里提出了一种互补的方法其中强调使用当前可用的深度学习组件来实现全局工作区的实用解决方案同时也关注大脑中的等效机制。3深度学习GLW的路线图在下文中作者们尝试一步步定义AI系统中实现全局工作空间的必要和充分组件。这些步骤构成了一个路线图研究人员可以按照该路线图来实现这个目标。需要强调的是下面所描述的所有组件都是单独存在有些甚至在各自的功能上达到或超过人类水平。某些细节可能存在漏洞此外也可能有多种方法来实现全局工作空间。总体而言作者认为下文的策略最有可能成功。3.1 多个专用模块GWT的第一个组成部分是N个N≥2独立的专用模块具体参考论文中的Glossary每个模块都有自己的高级隐空间隐空间的定义和示例请参见图2。这些模块可以是经过预训练的、专门用于感知视觉分类听觉分类或目标分割的神经网络可以是自然语言处理模块可以是长期记忆存储模块可以是强化学习智能体也可以是运动控制系统等等。当然选择这些专用模块非常关键因为这决定了整个全局工作空间系统的功能以及全局工作空间可能执行的任务范围。但这不会影响下面列出的其他原则。图 2深度学习隐空间的示例指一个能够捕获输入域或任务的相关结构和拓扑的低维空间通常指判别模型的最后一个特征层与生成模型的第一层。深度学习隐空间的示例投影到2D以进行可视化包括A. MNIST数据集的隐空间。数据集中的每个图像都是左侧空间中的一个点根据数字类别进行着色。定期在2D矩阵中对隐空间进行采样会促进右侧的图像重建使用UMAP逆变换方法创建。B. 词嵌入空间Word2Vec算法。隐空间的不同部分专注于不同的语义域例如插图中的“sea”。C. ImageNet自然场景数据集从BigGAN生成模型得出的隐空间。每行沿着256维隐空间中的单个矢量采样不同的点。D. VAE-GAN模型的人脸隐空间。针对每一列从隐空间中采样一个点然后向其中添加数量不等的预先计算的“微笑”或“男性”向量。必须强调的是潜在表示latent representations本质上是神经激活的向量可以使用代数运算如panel D所示进行内插如panel A与C、外推或更广泛的操作。从理论上讲将N个前馈判别模型连接在一起每个网络都经过训练可以根据类别对来自特定领域的输入进行分类便足以构建一个多模态工作空间比如当一个人听到“老虎”这个单词时会预激活“老虎”的视觉识别单元。但实际上加入生成模型的好处有很多网络能够生成运动或语言输出还会生成具有自上而下的生成路径的传感系统例如可变的自动编码器、GAN与预测编码网络。如果全局工作空间的目标是影响系统的行为输出那么包含生成网络是非常必要的。此外包含生成网络对系统能够具备创造力或“想象力”比如生成心理图像对通过迭代构想一个可能的未来状态或反事实状态来进行思维模拟意义都非常重大。最后当一个输入达到意识且相应的模块被移动到有意识的全局工作空间中时一个循环的、自上而下的途径可能是解释从大脑中观察到的“点火”特性的关键图1B与D。3.2 全局隐工作空间Global Latent WorkspaceGLWGLW是一个独立的中间共享隐空间在本质上是非模态的经过训练后可以在专用模块的N个隐空间之间执行无监督的神经翻译图3本文的关键图。尽管在深度学习中有许多监督多模态翻译的例子但在本文中作者强调循环一致性是神经翻译的主要无监督训练目标。如此GLW可能会在任何一对模块之间进行转录即使模块之间没有匹配数据例如没有气味与特定的视频游戏状态进行系统关联我们也可以直观地识别出玩家的状态何时变得不同。当然如果默认的无监督神经翻译策略也可以在有关联数据可用时例如在观看动物的同时听到相应的声音补充有监督的目标自然是最好的。按预期这个中间空间的维数应该与每个输入隐空间的维数相等或更高但远低于所有输入隐空间的总和。这个“瓶颈”现象可以确保仅对相关信息在某个时间点进行编码并迫使系统优先处理带有注意力的竞争性输入。图3深度学习“全局隐工作空间”的示意图如图3所示深度学习“全局隐工作空间”的专用模块分布在外围可以是针对各种任务的预训练网络感知物体识别检测分割语音识别...运动机器人手臂控制语音生成…语言文本理解机器翻译文本-语音转换...记忆存储或更高级别的与认知和行为相关的功能直观物理引擎RL策略任务嵌入...。每个模块都通过模块的相关隐空间的内部副本连接到GLW如图所示位于中心。通过使用循环一致性目标进行深入训练这个工作空间学会了以几乎无人监督的方式在任意两个模块的隐空间表示之间进行转换不需要或仅需要少数配对数据红色箭头。当自下而上或自上而下的注意力从一个模块中选择输入时其隐空间激活被复制到GLW中并立即被转换为适用于其他各个模块的表示形式。但是这些模块中只有少数模块当前已移至工作空间中的模块将有效地接收和处理相应的数据。例如在视觉场景中识别出老虎后“老虎”的NLP单词嵌入和与逃跑相关的行动计划会出现在工作空间中但是如果此时在工作空间中采取了特定的相应模块文本到语音运动输出那么“老虎”一词就只是发音或启动逃跑。3.3 注意力在大脑中注意力决定了哪些信息能被有意识地感知以及哪些信息会被丢弃尽管注意力和意识可以分离。同样在原始GWT中由注意力选择进入工作空间的信息。在深度学习中注意力在近期已经引起人们的关注尤其是在NLP和CV中广泛使用的transformer架构。在transformer和相关网络中注意力是一个网络层发出的查询与另一网络层发出的查询之间的匹配在自注意力机制下网络可能是同一层匹配分数确定将哪些信息传递到下一阶段。同样地我们可以设想一个键-查询匹配过程以选择到达GLW的输入。如果工作空间包含当前任务的潜在表示则该信号可用于发送自上而下的注意查询每当输入模块的隐空间产生一个匹配键时相关信息就会被带入工作空间。在没有明确任务的情况下或者在有异常强烈或令人惊讶的输入的情况下自下而上的注意可能会占上风在上述术语中显信息具有取代所有查询的“主键”。以数据依赖和任务依赖的方式生成键和查询的注意力机制必须通过使用特定目标函数的训练来优化。3.4 内部副本当选择一个特定模块的信息进入工作空间时隐空间激活向量的副本也会被带入GLW。如果隐空间是概率性的像在变分自动编码器中一样就可以从概率分布中获取唯一的样本——这可以确保始终保持GLW的统一表示与我们的主观经验和神经科学证据保持一致。3.5 广播被选上的信息很快得到广播即通过共享的隐空间转换为其他模块的隐空间。这个转换过程是自动的无需其他努力就能有意识地理解我们的内部和外部环境。这也是有意识的输入获取“含义”的方式因为这些输入会突然与相应的语言、运动、视觉与听觉等表示形式连接。这仅意味着相关格式的相关信息对这些系统来说是“可用”的作为工作空间内的内部副本但不一定要使用如有效地复制到相应的模块中。人们不会总是形象化地联想到一张心智图像的细节也不是总会说出他们的想法或心里话也并非总是按照运动计划来行动等等。决定这些信息是否会被这些系统使用的是它们本身目前是否已连接到工作空间比如由于它们的任务相关性。许多在工作空间内广播有意识输入时自动形成的潜在表示不会为自身有意识地感知但可能与Crick和Koch所描述的“意识半影”penumbra of consciousness相对应。4GLW的功能优势本文介绍的GLW架构有一个主要的可测试特性即整体应大于其各个部分即各个模块的总和。换句话说GLW的附加功能属性也可以提高与其连接的所有模块的性能。除了这些已有的单个任务外全局工作空间还提供了组合模块以执行全新任务的可能性。首先GLW中的自动多模态对齐表示是完成信息基础的理想途径。感知输入或运动输出不再是各自隐空间中的无意义矢量而是与其他感知运动域中的相应表示与相关的语言表示产生了关联这促成了感知运动数据的语义基础。与语义信息的感知运动基础相反仅捕获空心“语言标记”之间的长期统计关系的语言嵌入向量通过与感知环境或智能体的运动和行为方式的相关部分进行关联而得到转换。因此感知运动接地grounding的概念与Gibsonian可供性affordance的概念紧密相关且与Gibson在脑科学中的生态学方法有更广泛的连接。最终接地的潜在表示可以为与全局工作空间连接的每个模块提高性能尤其是在提高分布外样本包括所谓的“对抗”攻击的鲁棒性方面。虽然接地和可供性是信息进入全局工作空间的即时自动结果但这种系统需要花费更多的时间和精力。事实上以任务依赖的方式将任意模块组合短暂地移动到工作空间中的能力正是通用认知架构所需要的。如此通过将一个模块的功能部署到另一个模块的潜在表示上系统可以从专用模块中获得更多常规功能。这种迁移学习使智能体能够通过泛化先前已学习的模型来适应新的环境和任务并成为实现智能的核心条件。因此作者提出以共享隐空间作为意识平台弥合了意识与通用智能之间的理论联系。当有足够多样化的模块可用时它们的可能组合实际上是无限的。取得这种灵活性需要付出大量的时间和精力思维功能组合是一个缓慢而有序的过程需要反复使用自上而下的注意力以调用相关的模块一次使用一个功能。这也是Kahneman和Bengio所说的系统2认知。这种灵活的思维组成系统具有的一个主要功能是反事实推理或回答“如果……会怎样”的能力。这种能力是高级认知中绝大标志性属性的核心想象力和创造力规划思维模拟关于未来的可能状态的迭代推理。在这种情况下世界模型即环境对人的行为做出反应的内部模型在寻找新任务的解决方案上特别有用因为它们提供了任务独立的相关信息可以让智能体通过内部模拟进行离线学习。可以说这些假设的功能优势应转化为可检验的预测。每个模块潜在的、得到改善的性能和鲁棒性可以通过现有基准轻松验证。虽然高级认知功能可能需要新的测试平台但迁移学习和任务组成基准已经存在。最终这篇论文所罗列的优势是捕获人类和动物的意识功能以及迈向通用人工智能的途径。5术语解释通过循环一致性进行无监督神经翻译在自然语言处理中神经翻译系统是一种使用神经网络的机器翻译算法。标准的神经机器翻译是通过源语言和目标语言的匹配示例单词句子来学习。但是由于所有语言都表示外部世界的共同物理现实所谓的语言基础属性因此从理论上讲完全有可能无需借助匹配的语料库图 I就能在两种或更多语言中学习对齐语言表示形式这也被称为“无监督神经翻译”。最近人们提出了一种新方法依赖于循环一致性的训练目标从语言A到语言B进行连续翻译然后从语言B翻译到语言A如果能翻译回原来的句子语言对齐就取得了成功。类似的方法已在不同领域之间的神经翻译上得到应用例如不成对的图像到图像翻译文本到图像翻译或触觉到图像翻译。通过循环一致性训练进行的域对齐也是最近研究无监督域适应和迁移学习任务的研究核心。图 I语言表示之间的对齐。来自任意两种语言X和Y本论文用的是法语和日语的隐空间共享相似的拓扑还可以通过变换W与共享的隐空间Z对齐。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”