两个关键概念:

1. 提示词工程与提示词评估

  1. 提示词工程 : 帮助您编写更好的提示词
  2. 提示词评估 : 帮助您衡量提示词的实际使用效果

提示词工程

提示词工程是一系列用于制作有效提示词的工具包,帮助 LLM 准确理解要求以及您希望它如何响应。包含以下技术:

  1. 多例提示词
  2. 使用XML 标签构建
  3. 许多其他最佳实践

提示词评估: 不关注如何编写提示词,而是通过自动化测试来衡量其有效性。可以:

  1. 根据预期答案进行测试
  2. 比较同一个提示的不同版本
  3. 检查输出是否有错误

2. 建立提示词评估管道的目的

  1. 只测一次?

当用户提供意外输入时,会带来很大的生产中断风险

  1. 测了几次? 调整了,用来处理一两个极端情况 比选项 1 好一些,但是用户通常会提供您未曾考虑过得非常意外的输出

  2. 通过评估管道运行提示词,根据客观指标迭代。这种方法需要更多的工作和成本,但对提示词的可靠性更有信心。

将提示词部署到生产环境,用户将以您意想不到的方式与其交互。在有限的测试中看似可靠的提示在面对各种现实世界的输入时,可能很快就会崩溃。