深圳和海枫建设集团有限公司网站,婚庆公司策划书,罗田县住房和城乡建设局网站,dedecms转wordpress一、Gemini 介绍
Gemini 是一个多模式模型系列#xff0c;在图像、音频、视频和文本领域展示了真正强大的功能。其中功能最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平#xff0c;其中包括 12 个流行文本和推理基准测试中的 10 个、9 个图像理解…一、Gemini 介绍
Gemini 是一个多模式模型系列在图像、音频、视频和文本领域展示了真正强大的功能。其中功能最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平其中包括 12 个流行文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音基准测试中的 5 个识别和语音翻译基准。 Gemini Ultra 是第一个在 57 个科目的 MMLU 上达到人类专家表现且得分高于 90% 的模型。它还在新的 MMMU 多模态推理基准上取得了 62.4% 的新的最先进分数比之前的最佳模型高出 5 个百分点以上。 介绍 Gemini我们最大、最有能力的 AI 模型 Gemini 还是我们迄今为止最灵活的模型它能够在从数据中心到移动设备的各种设备上高效运行。它的尖端技术能力将极大地改善开发者和企业用户使用 AI 构建和扩展应用的方式。
Gemini 模型建立在 Transformer 解码器之上通过架构和模型优化的改进得到增强以实现大规模稳定训练并在 Google 张量处理单元上进行优化推理。它们经过训练可支持 32k 上下文长度采用高效的注意力机制例如多查询注意力Shazeer2019。
Gemini 有多种尺寸包括两种版本的 Nano专为手机等内存受限环境中的设备上使用而设计、Pro用于增强数据中心的性能和大规模可部署性和 Ultra用于高度复杂的环境任务。即使是较小的型号也非常棒 1.1、产品集成
Gemini 目前已经集成到 Google 的许多产品中。
截至今天Gemini Pro 型号现已为 Bard ( http://bard.google.com ) 提供支持。从 Bard 更新说明中可以知道由于目前 Google Bard 新版中嵌入的 Gemini Pro 版本暂时只支持英文所以大家在体验的时候可以用英文中文效果会不太理想。 12 月 13 日开发者可以通过 Google AI Studio 或 Google Cloud Vertex AI ( https://cloud.google.com/vertex-ai ) 上的 API 访问 Gemini Pro。 Android 开发者可以在 Pixel 8 Pro 上使用 Android Nano 尺寸。 明年初Google 将完成对模型的进一步信任和安全检查并通过额外的 RLHF 调整进一步完善它之后将推出由 Gemini Ultra 模型提供支持的 Bard Advanced。作为其中的一部分Google 将 Ultra 提供给选定的客户、开发人员、合作伙伴以及安全和责任专家以便在更广泛地使用它之前进行早期实验和反馈。
1.2、多模态设计
Google从一开始就将 Gemini 设计为多模态而不是从纯文本模型开始然后在事后嫁接视觉和音频编码器。这意味着我们可以很自然地交错模式说几句话添加图像添加一些文本也许是短视频同样模型可以自然地交错文本和图像作为输出。 二、基准测试
MMMU 是上周刚刚发布的全新基准测试 ( https://mmmu-benchmark.github.io )约有 11,500 个示例需要图像理解、大学水平的学科知识和深思熟虑的推理。我们认为在这个基准测试中尝试 Gemini 模型来看看它们的表现会很有趣。凭借其多模式和推理功能Gemini Ultra 远远超过了最先进的 GPT-4V。 2.1、文本/编程能力
在各种文本、数学、编码和推理基准测试中包括 MMLU、GSM8K、MATH、Big-Bench Hard、HumanEval、Natural2Code、DROP 和 WMT23Gemini 均优于所有其他模型并改进了现有模型艺术。在 MMLU 上Gemini Ultra 是第一个在 57 个科目的 MMLU 上达到人类专家表现且得分高于 90% 的模型。
当使用 32 个样本的 CoT 时Gemini Ultra 在 MMLU 上获胜 2.75%但当使用 5 次提示时以相同的差距输给 GPT-4。值得注意的是G-Ultra 在编码任务方面似乎比 GPT-4 好得多。 2.2、图像理解能力
在图像理解方面Gemini 在我们检查的所有基准测试中都表现良好Ultra 模型在每个基准测试中都创下了新的最先进结果。 2.3、多模态能力和推理能力
从发布的报告中的有个例子可以很好地说明 Gemini 的多模式能力和推理能力。
将此图像作为输入和提示 “找出这些图表中突出的数据点及其含义。然后为显示的所有数据生成详细的降价表” Gemini 能够产生如下所示的响应 “最突出的数据点是美国填埋的塑料垃圾占 73%。这明显高于显示的其他国家和地区。这意味着美国在回收或焚烧塑料废物方面没有像其他国家和地区那样做那么多。” 以及条形图中表示的每个数据点的渲染表格版本。 2.4、跨语言支持
Gemini 在跨多种不同语言的多语言图像理解任务中也表现出色。 2.5、视频理解能力
Gemini Ultra 还在各种少镜头视频字幕任务以及零镜头视频问答任务中取得了最先进的结果。 2.6、音频理解能力
在语音识别和语音翻译任务中Gemini 也表现出色。我们尚未针对这些任务评估 Ultra 模型但我们预计该模型规模的增加将产生比 Gemini Pro 模型更好的结果Gemini Pro 模型已经在我们检查的所有五个基准中设定了新的最先进结果。 三、Gemini 特点
3.1、强劲的性能
Google 对 Gemini 模型进行了严格测试并评估了它们在各种任务上的表现。从自然图像、音频和视频理解到数学推理Gemini Ultra的性能在32个广泛使用的大型语言模型LLM研究和开发中的学术基准中有30项超过了当前的最新成果。
Gemini Ultra以90.0%的分数成为首个在MMLU大规模多任务语言理解上超越人类专家的模型该模型使用数学、物理、历史、法律、医学和伦理学等57个学科的组合来测试世界知识和解决问题的能力。
Gemini 在文本基准测试上优于 GPT-4。但真的是这样吗尽管结果令人印象深刻但如果您注意使用相同提示技术例如 Big-bench、Hellaswag 和 Math报告的结果您会发现性能差异很小。 在新的 MMMU 基准测试中Gemini Ultra 也取得了 59.4% 的高分。该测试包含了多个领域的多模态任务需要深入的推理能力。 在我们测试的图像基准方面Gemini Ultra 无需物体字符识别 (OCR) 系统的辅助就超越了之前的尖端模型。这些基准测试突显了 Gemini 的天生多模态能力并预示了其更为复杂的推理能力。 3.2、下一代模型能力
回想起我们曾经对多模态模型的那份笨拙拼接它们虽能应对简单任务如图像描述但在抽象和复杂的逻辑推理面前却显得力不从心。如今Google 以其创新精神设计了Gemini——一个天生支持多模态的智能体。从摇篮期便在多种模态间游刃有余它通过额外的多模态数据微调其理解和推理的能力已远超过现有模型成为各领域的领跑者。
一点一滴、细节之中Gemini 1.0 展现了它处理复杂书面和视觉信息的能力。就如同在茫茫数据海洋中寻找那一线生机它能洞察难以辨识的知识无论是科学还是金融领域都预示着数字化突破的曙光。
当我们谈论编程之美时Google 的Gemini 展示了它在理解、解释、生成流行编程语言比如 Python、Java、C 和 Go方面的高超技艺。它跨语言的操作能力和对复杂信息的处理让它在全球编程基础模型中脱颖而出。在多个编程基准测试中包括行业标准的HumanEval和我们内部的Natural2Code数据集中Gemini Ultra 的表现尤为出色。
不仅如此Gemini 还可作为高级编码系统的动力核心。回想两年前我们推出了AlphaCode——首个在编程竞赛中达到竞争水平的AI代码生成系统。而今借助Gemini专业版我们打造了AlphaCode 2它不仅擅长解决编程问题更涵盖了复杂的数学和理论计算机科学难题。
到目前为止创建多模态模型的标准方法涉及训练不同模态的单独组件然后将它们拼接在一起粗略模拟部分功能。这些模型有时可以很好地执行某些任务比如描述图像但在更概念化和复杂的推理方面表现不佳。
Google 设计了 Gemini使其本能地支持多模态从一开始就在不同的模态上进行了预训练。然后我们使用额外的多模态数据对其进行了微调以进一步提高其效果。这有助于Gemini从根本上无缝地理解和推理各种输入远远优于现有的多模态模型——而且它的能力在几乎每个领域都是最先进的。
3.2.1、复杂推理能力
Gemini 1.0的复杂多模态推理能力可以帮助理解复杂的书面和视觉信息。这使它在发现在大量数据中难以辨别的知识方面具有独特的技能。
它惊人的能力通过阅读、过滤和理解信息从数十万份文件中提取见解将有助于在从科学到金融等许多领域以数字速度实现新突破。 Gemini 揭示新的科学见解 3.2.2、理解文本、图像、音频等
Gemini 1.0 能够同时处理和理解文本、图像、音频等多种信息这使它在理解复杂话题上更加细腻能够回答那些涉及到复杂主题的问题。它在解释数学和物理等复杂科目的推理过程方面表现尤为出色。 Gemini 在数学和物理学方面的解释能力 3.2.3、高级编程
Google 推出首个版本的 Gemini 能够理解、解释并生成世界上最受欢迎编程语言例如 Python、Java、C 和 Go的高质量代码。其跨语言操作能力和对复杂信息的处理使其成为全球领先的编程基础模型之一。
Gemini Ultra 在多个编程基准测试中表现卓越其中包括 HumanEval —— 一个评估编程任务性能的重要行业标准以及我们的内部数据集 Natural2Code该数据集使用作者生成的来源而不是基于网络的信息。
Gemini也可以用作更高级编码系统的引擎。两年前我们推出了AlphaCode这是第一个在编程竞赛中达到竞争水平的AI代码生成系统。
利用Gemini的专业版本创建了一个更先进的代码生成系统AlphaCode 2它擅长解决超越编码的竞赛编程问题涉及复杂的数学和理论计算机科学。 Gemini 在编码和竞赛编程方面表现出色 在与原版 AlphaCode 相同的平台上进行评估时AlphaCode 2 展现了显著提升解决问题数量几乎翻倍。估计其性能超过了 85% 的竞赛参与者相较于 AlphaCode 的近 50% 有显著提高。当程序员与 AlphaCode 2 协作为代码样本定义特定属性时其表现更为出色。
3.3、更加可靠、可扩展和高效
Google 在自家AI优化基础设施上借助内部设计的Tensor处理单元TPUv4和v5e对Gemini 1.0进行了大规模训练。这不仅是我们最稳固和可扩展的训练模型同时也是效率最高的服务模型之一。
在TPU上运行时Gemini 的速度远超以往那些小巧但功能有限的模型。这些专为AI加速而生的处理器已成为Google众多AI驱动产品的核心——从搜索到YouTube、Gmail、Google地图、Google Play和Android——为全球数十亿用户提供服务并帮助世界各地的公司以成本效益的方式训练大型AI模型。
此外Google 还发布了迄今为止最强大、高效和可扩展的TPU系统Cloud TPU v5p。这一代TPU将加速Gemini 的发展并助力开发者及企业客户更快速地训练大规模生成式人工智能模型让新产品和功能更快地触达用户。 3.4、以责任和安全为核心构建
Google 始终致力于推动大胆而负责任的人工智能发展。基于谷歌的人工智能原则和我们产品的健全安全政策Google 为Gemini增设了新的保护措施以适应其多模态能力。在开发每一个阶段我们都深思熟虑潜在风险并致力于测试和减轻这些风险。
Gemini 经历了谷歌AI模型中最全面的安全评估覆盖了偏见和毒性等关键问题。我们开展了针对网络攻击、说服力及自主性等新颖研究领域的探索并应用了谷歌研究中最先进的对抗测试技术在部署前提前识别关键安全问题。
为了更好地发现评估方法中可能存在的盲点谷歌正与一系列多元化的外部专家和合作伙伴合作对Gemini 进行各种问题上的压力测试。在训练阶段我们通过使用真实有毒提示等基准来诊断内容安全问题并确保其输出符合我们的政策。
为了减少可能造成的伤害谷歌建立了专门的安全分类器来识别、标记和分类暴力或负面刻板印象内容。这种分层方法结合了强大的过滤器使Gemini 对每个人都更加安全和包容。同时我们将持续应对模型所面临的事实性、基础性、归因性和协作性等已知挑战。
责任和安全始终是我们模型开发和部署的核心。这是一项长期承诺需要合作建设因此我们正在与行业和更广泛的生态系统合作通过组织如MLCommons、Frontier Model Forum及其AI安全基金以及我们的安全AI框架SAIF来定义最佳实践并制定安全和安全基准该框架旨在帮助减轻公共和私营部门AI系统特定的安全风险。在开发Gemini的过程中我们将继续与全球的研究人员、政府和民间社会团体合作。
3.5、让Gemini面向全世界
Gemini 1.0现在正在一系列产品和平台上推出
3.5.1、谷歌产品中的Gemini专业版
通过谷歌产品将Gemini 带给数十亿人。
从今天开始Bard将使用Gemini Pro的精细调整版本进行更高级的推理、规划、理解等。这是Bard自推出以来最大的升级。
它将在全球170多个国家和地区提供英文版本并计划在不久的将来扩展到不同的模式并支持新的语言和地点。
还将Gemini引入Pixel。Pixel 8 Pro是第一款专为运行Gemini Nano而设计的智能手机它为录音应用中的“摘要”功能和Gboard中的智能回复功能提供支持首先在WhatsApp中推出明年将在更多的消息应用中推出。
在未来几个月里Gemini 将会在我们的更多产品和服务中推出比如搜索、广告、Chrome 和 Duet AI。
已经开始在搜索中尝试Gemini它使我们的搜索生成体验SGE对用户更快在美国英语搜索中延迟减少了40%同时提高了质量。
3.5.2、使用Gemini构建产品
从12月13日开始开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。
Google AI Studio是一个免费的基于网络的开发者工具可帮助开发者和企业客户快速使用API密钥原型设计和推出应用程序。当需要完全托管的AI平台时Vertex AI允许通过完全数据控制对Gemini进行定制并从Google Cloud的其他功能中获益以提高企业安全性、安全性、隐私和数据治理以及合规性。
Android开发者还可以通过AICore在Android 14上的Pixel 8 Pro设备上使用我们最高效的Gemini Nano模型进行设备任务构建。立即注册AICore的早期预览。
3.5.3、Gemini Ultra 即将推出
对于 Gemini Ultra我们目前正在进行广泛的信任和安全检查包括由可信赖的外部方进行红队测试并在向人类反馈的基础上进一步完善模型使用微调和强化学习然后才会广泛推出。
作为这一过程的一部分我们将使Gemini Ultra提供给一些特定的客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈然后在明年初向开发者和企业客户推出。
明年初我们还将推出Bard Advanced这是一种全新的、尖端的人工智能体验让您可以使用我们最好的模型和能力首先是Gemini Ultra。
3.5.4、Gemini 时代开启创新未来之门
这是 AI 发展的关键里程碑也标志着我们 Google 迈入了一个全新时代。我们将继续快速创新并负责任地提升我们的模型能力。
我们已经在 Gemini 上取得了重大进展并正在努力进一步拓展其未来版本的能力如在规划和记忆方面的提升以及增加处理更多信息的上下文窗口以便提供更佳的响应。
我们对 AI 负责任地赋能世界所带来的巨大潜力感到兴奋。这是一个充满创新的未来它将激发创造力拓展知识推动科学发展并改变全球数十亿人的生活和工作方式。
四、模型训练
Gemini 是一项大规模的科学和工程工作需要 ML、分布式系统、数据、评估、RL、微调等方面的各种不同专业知识该报告的 800 多名作者。最大的 Gemini 模型在大量 TPUv4 pod 上进行训练。它构建在 JAX 和 Pathways 系统 ( https://arxiv.org/abs/2203.12533 ) 之上这使我们能够从单个 Python 进程跨多个数据中心的大量 TPUv4 Pod 协调大规模训练计算。
Gemini Ultra 的训练基础设施非常令人着迷Gemini 在多个数据中心的多个 TPUv4 Superpod4096 个 TPU上并行训练数据。疯狂的是他们的网络速度足以在多个数据中心之间同步梯度而不会显著降低训练效率。 五、References
[1]. Gemini 官方介绍
https://blog.google/technology/ai/google-gemini-ai/#sundar-note
[2]. Gemini 技术报告
https://goo.gle/GeminiPaper
[3]. 多模式提示推理
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html