小说网站推广方式,好便宜建站,西安建筑网站建设,wordpress极验证登录引言
随着机器学习的快速发展#xff0c;视觉语言模型#xff08;VLM#xff09;的研究取得了显著的进步。今天#xff0c;我们很高兴介绍两款强大的开源视觉语言模型#xff1a;CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色#xff0c;为人工智能的…引言
随着机器学习的快速发展视觉语言模型VLM的研究取得了显著的进步。今天我们很高兴介绍两款强大的开源视觉语言模型CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色为人工智能的发展开辟了新的道路。
CogVLM强大的开源视觉语言模型
CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数支持490*490分辨率的图像理解和多轮对话。CogVLM-17B在10个经典的跨模态基准测试中取得了最佳性能包括NoCaps, Flicker30k captioning, RefCOCO, RefCOCO, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA和TDIUC并在VQAv2, OKVQA, TextVQA, COCO字幕等方面排名第二超越或匹敌PaLI-X 55B。CogVLM还可以和您聊关于图片的话题。
CogVLM的论文https://arxiv.org/abs/2311.03079 CogAgent基于CogVLM的视觉语言模型
CogAgent是基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数支持1120*1120分辨率的图像理解。在CogVLM的能力之上CogAgent进一步拥有了图形用户界面GUIAgent的能力。
CogAgent在9个经典的跨模态基准测试中实现了最先进的通用性能包括VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE测试基准。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。除了CogVLM已有的所有功能视觉多轮对话视觉定位之外CogAgent支持更高分辨率的视觉输入和对话式问答拥有视觉Agent的能力并通过改进预训练和微调提高了OCR相关任务的能力。
CogAgent的论文https://arxiv.org/abs/2312.08914 如何开始使用CogVLM和CogAgent
1. 使用网页演示进行推理您可以直接访问我们的CogVLM CogAgent Web Demo进行体验。
2. 自行部署CogVLM / CogAgent我们提供了详细的部署指南包括命令行界面和网络演示的部署方式。您可以根据需要选择合适的方式。
3. 微调CogAgent / CogVLM如果您想在自己的任务中使用CogVLM我们提供了详细的微调指南帮助您实现不同的输出风格或领域知识。
4. OpenAI格式我们提供了与GPT-4V相同的API示例您可以在openai_demo文件夹中查看。
详细用法请见GitHub页面。
硬件需求
模型推理需要至少1个RTX 3090(24G)显卡CogAgent需要约12.6GB的显存CogVLM需要约11GB的显存。如果使用FP16则需要1个A100(80G)或2个RTX 3090(24G)显卡。微调则需要至少4个A100(80G)显卡或者8个RTX 3090(24G)显卡。
结语
CogVLM和CogAgent的发布为视觉语言模型的研究和应用开启了新的篇章。我们期待看到更多的研究者和开发者利用这两款模型推动人工智能的发展。