当前位置：首页 > news >正文

南山高端网站建设红色网站建设

news 2025/12/27 12:55:35

南山高端网站建设,红色网站建设,手工制作大全废物利用,qq空间做单页网站Visual Instruction Tuning LLaVA 指令智能体分为两类#xff1a;端到端的#xff0c;通过LangChain[1]/LLM[35]协调各种模型的系统。数据集生成用GPT辅助生成的#xff0c;具体不写了。模型结构#xff1a; input image Xv LLM#xff1a;Vicuna visual encoder端到端的通过LangChain[1]/LLM[35]协调各种模型的系统。数据集生成用GPT辅助生成的具体不写了。模型结构 input image Xv LLMVicuna visual encoderpre-trained CLIP visual encoder ViT-L/14 W是为了和词向量一个维度we apply a trainable projection matrix W to convert Zv into language embedding tokens Hv, which have the same dimensionality as the word embedding space in the language model 这个线性映射很简单也可以设计复杂一些比如gated cross-attention in Flamingo [2] and Q-former in BLIP-2。 Training 给一张图片有很多问答对这就使得多模态指令的统一格式。使用LLM的原始自回归训练目标对LLM预测的tokens执行指令调整。两阶段训练 Stage 1: Pre-training for Feature Alignment. 对于图像Xv随机采样问题Xq这是要求assistant简要描述图像的语言指令。GT答案Xa是原始标题。保持视觉编码器和LLM权重冻结并仅在可训练参数θW投影矩阵 Stage 2: Fine-tuning End-to-End. 保持视觉编码器权重冻结并继续更新LLaVA中投影层和LLM的预训练权重实验

查看全文

http://wiki.neutronadmin.com/news/81345/