十堰市郧城建设网站,云服务器租用价格表,百度助手app下载,推广运营公司网站夕小瑶科技说 原创 作者 | 谢年年、ZenMoore
大模型虽好#xff0c;但却存在着一个恼人的问题#xff1a;大模型回答得好不好#xff0c;取决于我们问题问得怎么样。一个好的、详细的问题往往可以产生惊人的效果...
所以... ChatGPT 问世之后#xff0c;最火的书可能不是… 夕小瑶科技说 原创 作者 | 谢年年、ZenMoore
大模型虽好但却存在着一个恼人的问题大模型回答得好不好取决于我们问题问得怎么样。一个好的、详细的问题往往可以产生惊人的效果...
所以... ChatGPT 问世之后最火的书可能不是《ChatGPT 技术原理》而是《提示工程Prompt Engineering指南》如何让 ChatGPT 更能听懂你的问题。
一时间全球人民都捧起了这本“咒语”教程开始背诵各种各样的“施咒”技巧比如“Lets take a breath...”比如“You are my grandma...”比如...
但是够了真正的人工智能是不需要解释的你解释得越多智能就越智障。理想的情况是大模型可以帮你对问题进行合理的解释帮你把一个简陋的问题变成一个好问题就像 DALL·E 3 的原理那样p.s., DALL·E 3 使用 GPT-4 来优化用户提示从而提升图像和用户需求的一致性。
幸运的是最近谷歌发布了一篇博客一口气介绍了两篇相关论文可能有望帮助我们摆脱繁琐的提示工程...
文章概览
LLM在少样本学习和零样本学习中所展现的问题解决能力令人惊喜这大大降低了对标注数据的强依赖性。仅需一点点prompt魔法就可以获得不错的效果。
比如零样本方法可以直接提出需求而不需要提供样例示范其操作简单且普适性强但对模型的指导完全依赖模型内部知识性能通常较弱。
少样本学习相比零样本来说通过提供示范能更好地指导LLM输出答案但前提是给出的是一个高质量的示范否则可能比没有示范还要糟糕。
来看一个数学推理问题的例子给问题添加一个正确的示范可以引导出对测试问题的正确解答Demo1与问题而添加一个错误的示范Demo2与问题Demo3与问题会导致错误的答案。其中Demo2是一个正确但推理过程重复的示范这也导致了最终输出重复Demo3提供的则是一个答案错误的示范。 由此可见样本示范的选择对LLM生成质量有很大的影响。
但对于复杂任务来说人工构造高质量示范样本难度很大特别是对于需要领域知识的任务如长文章摘要或医疗问题回答。因此自动生成可靠示范是非常有必要的。
为了解决这个困境谷歌团队提出了一种名为 Consistency-Based Self-Adaptive PromptingCOSP的方法无需人工构造样本仅使用无标签样本通常容易获取和模型自身的预测输出即可构建LLM的伪示范在推理任务中大大缩小了零样本和少样本之间的性能差距。同时本文还将这个思想扩展到广泛的通用自然语言理解NLU和自然语言生成NLG任务在多个任务上展示了其有效性。这两篇工作分别被 ACL2023 和 EMNLP 2023 接收。
谷歌博客 https://blog.research.google/2023/11/zero-shot-adaptive-prompting-of-large.html
论文一标题 Better Zero-shot Reasoning with Self-Adaptive Prompting
论文一链接 https://aclanthology.org/2023.findings-acl.216/
论文二标题 Universal Self-Adaptive Prompting
论文二链接 https://arxiv.org/pdf/2305.14926.pdf
论文一COSP
如果LLM对自己的答案很“自信”那么应该在多次调用下输出相同答案如果是这样就说明该答案更可能是正确的其置信度就比较高。因此可以考虑使用高置信度的输出及其输入作为伪示范。之所以叫做伪示范是因为示范样例的答案仍然是LLM生成的并且没有经过真实答案检验。
基于此设想COSP 方法的步骤如下 将每个无标签的问题输入到LLM中通过多次采样模型将获得多个包含问题、生成的推理过程和答案的示范并为其分配一个分数以反映答案的一致性。输出次数越多的答案分数越高。 除了偏好更一致的答案外COSP还惩罚回答中的重复问题即重复的词语或短语并鼓励选择多样性的示范。将一致的、非重复和多样化输出的偏好编码为一个评分函数该函数由三个评分的加权和组成用于选择自动生成的伪示范。 将伪示范与测试问题一起输入LLM中并获得该测试问题的最终预测答案。 论文二USP
COSP专注于推理问答任务这些问题有唯一答案很容易测量置信度。但是对于其他任务比如开放式问答或生成任务如文本摘要则会变得困难。为了解决这个限制作者引入了USPUncertainty-based Self-supervised Prompting将该思想推广到其他常见的NLP任务上。
选择伪示范的方法因任务类型变化而有所不同 分类CLSLLM生成预测使用神经网络计算每个类别的 logits, 并基于此选择置信度较高的预测作为伪示范。 短文本生成SFG这类问题类似于问答任务可以使用COSP中提到的相同步骤进行处理LLM生成多个答案并对这些答案的一致性进行评分。一致性较高的答案被选择作为伪示范。 长文本生成LFG这类问题包括摘要和翻译等任务通常是开放式的即使LLM非常确定输出也不太可能完全相同。在这种情况下使用重叠度度量计算不同输出对于相同查询的平均ROUGE分数选择具有较高重叠度的作为伪示范。 总的来说在第一个阶段针对不同的任务类型调用语言模型对无标签数据生成输出并基于 logit 熵值、一致性或者重叠度等指标进行置信度打分最后选择置信度高的样本作为上下文示范。在第二阶段将这些伪的上下文示范作为语言模型输入的一部分对测试数据进行预测。
实验结果 ▲图1
如图1所示通过三个LLM在六个算术和常识推理问题上进行比较相同的计算资源条件下COSP方法在零样本设置下取得了更好的性能。通过自动生成的示范和策略性的选择示范COSP能够提供更一致和相关的答案从而提高了模型的推理能力。 ▲图2
如图2所示对于USP作者将分析扩展到更广泛的任务范围包括超过25个分类任务、短文生成和长文生成任务。可以看到在不同的任务中USP超越了zero-shot基准。 ▲图3
本文还针对BIG-Bench Hard任务进行了测试如图3所示每一行代表一个任务。以前LLM在这些任务中表现不如人类而现在大部分任务上LLM都超越了人类的平均表现。而USP同样优于基线即使是与人工制造的提示样本图中3-shot相比也具备一定的竞争力。
结论
总的来说本文提到的COSP和USP方法通过自动构造伪样本的方式弥合了零样本与少样本之间的差距对自然语言理解与生成一系列广泛的任务都适用。
加上前几天我们解读的一个小妙招从Prompt菜鸟秒变专家加州大学提出PromptAgent帮你高效使用ChatGPT文章中提到模型可以自动迭代优化Prompt将平平无奇的prompt打造成媲美专家设计的prompt。现下模型还可以自动生成伪示范提升零样本的能力。继续发展下去prompt工程师一职会不会也快要失业了呢