系统地测试更改
如果你能测量它,提高性能就更容易了。在某些情况下,对提示的修改将在一些孤立的例子中实现更好的性能,但在一组更具代表性的例子上会导致整体表现更差。因此,为了确保变化对性能是净正的,可能需要定义一个全面的测试套件(也称为“评估”)。
有时很难判断变化——例如,新指令或新设计——是否使您的系统变得更好或更糟。看几个例子可能会暗示哪个更好,但样本量小,很难区分真正的改进或随机运气。也许这种变化有助于一些输入的性能,但损害了其他输入的性能。
参考黄金标准答案评估模型输出
假设知道一个问题的正确答案应该参考一组特定的已知事实。然后,我们可以使用模型查询来计算答案中包含多少必要的事实。
- 较糟糕的例子:“回答这个问题并告诉我它的正确性。”
- 较好的例子:“回答这个问题,并将你的答案与黄金标准答案进行比较,以评估其准确性。”
原创文章,作者:曾确令,如若转载,请注明出处:https://www.zengqueling.com/10promptjiaocheng6xi/