4.3 【prompt教程6】系统地测试更改

曾确令 • 2023年7月10日 pm7:18 • AIGC应用 • 阅读 178

系统地测试更改

如果你能测量它，提高性能就更容易了。在某些情况下，对提示的修改将在一些孤立的例子中实现更好的性能，但在一组更具代表性的例子上会导致整体表现更差。因此，为了确保变化对性能是净正的，可能需要定义一个全面的测试套件（也称为“评估”）。

有时很难判断变化——例如，新指令或新设计——是否使您的系统变得更好或更糟。看几个例子可能会暗示哪个更好，但样本量小，很难区分真正的改进或随机运气。也许这种变化有助于一些输入的性能，但损害了其他输入的性能。

参考黄金标准答案评估模型输出

假设知道一个问题的正确答案应该参考一组特定的已知事实。然后，我们可以使用模型查询来计算答案中包含多少必要的事实。

较糟糕的例子：“回答这个问题并告诉我它的正确性。”
较好的例子：“回答这个问题，并将你的答案与黄金标准答案进行比较，以评估其准确性。”

原创文章，作者：曾确令，如若转载，请注明出处：https://www.zengqueling.com/10promptjiaocheng6xi/

AIGC prompt 应用

赞 (0)

微信扫一扫

微信扫一扫

4.3 【prompt教程5】使用外部工具

« 上一篇 2023年7月10日 pm6:29

prompt框架和实践案例

下一篇 » 2023年7月10日 pm7:59

联系我们

15602395067

在线咨询：

邮件：eden7@qq.com

工作时间：周一至周五，9:30-18:30，节假日休息

QR code