大型语言模型是可靠的评判者吗?关于 LLM 事实验证能力的研究
Xue-Yong Fu, Md Tahmid Rahman Laskar, Cheng Chen, Shashi Bhushan TN Dialpad Canada Inc. {xue-yong, tahmid.rahman, cchen, sbhushan}@dialpad.com
摘要
近年来,大型语言模型(LLMs)因其在早期语言模型中未曾观察到的惊人涌现能力而备受关注。LLM 近期被广泛应用的一个新兴领域是将其作为各类生成模型所生成文本的评估器。在本文中,我们探讨了 LLM 在评估文本生成模型所生成摘要的事实一致性方面是否可靠的可能性。我们首先提出了一种利用单个 LLM 执行基于问答的事实评分流水线中所有步骤的新方法,以评估事实得分。随后,我们还研究了各种 LLM 直接进行事实评分的性能。我们的评估是在传统基准测试中通过比较它们与人类标注的相关性来进行的。与预期相反,我们的研究结果显示,对于 GPT-4 和 PaLM-2,没有任何事实指标与人类的事实评估表现出显著相关性(例如,系数得分大于 0.3),唯一的例外是 GPT-3.5 在两个事实子类别中表现出相关性。尽管如此,我们的研究结果在几乎所有事实错误类型中都是一致的,这表明当前 LLM 在评估事实性方面存在根本性的局限。
1 引言
文本摘要技术通过利用预训练语言模型(Devlin 等人,2018;Liu 和 Lapata,2019;Lewis 等人,2020;Raffel 等人,2020;Zhang 等人,2020;Laskar 等人,2022c)取得了显著进展。然而,当前模型的一个持续关注点是它们经常无法与旨在摘要的原始文档保持事实一致性(Maynez 等人,2020;Fabbri 等人,2021a)。因此,确立摘要的事实准确性仍然是评估摘要模型的关键(Fabbri 等人,2021b,2022)。为了解决这个问题,最近的研究利用了自然语言推理、问答或句法依赖等技术作为事实评估指标(Honovich 等人,2022)。然而,正如 Pagnoni 等人(2021)所强调的那样,这些自动事实指标中没有一个表现出与人类评估的显著相关性(即未能达到高于 0.3 的相关性得分),这指出了这些措施的有效性有限。
LLM(如 ChatGPT)的出现及其随后的进步改变了自然语言处理(NLP)的格局。类似 ChatGPT 的 LLM(Google,2023;Touvron 等人,2023b;OpenAI,2023)在广泛的 NLP 任务中表现出了令人印象深刻的进步,从文本分类到生成、语言翻译及其他领域(Laskar 等人,2023a,c)。鉴于这些 LLM 的能力,我们的研究探索了利用 LLM 进行事实一致性评估这一关键任务的可能性(Dubois 等人,2023;Liu 等人,2023b;Manakul 等人,2023;Tang 等人,2022;Laban 等人,2023)。
为了评估模型的事实一致性,一种常见的方法是利用问答(QA)流水线(Huang 等人,2021)。传统上,使用 QA 系统评估事实性涉及为以下每个任务使用单独、不同的模型:答案选择、问题生成和问答(Huang 等人,2021)。然而,这种方法涉及协调这些不同模型这一复杂任务,可能导致现实场景中的效率低下。此外,这些模型可能无法捕捉到最佳事实评估所需的全面上下文。为了应对这些挑战,我们提出了一种新颖的方法,用 LLM 构建的单一统一模型替代了这些单独的模型。此外,我们还探索了另一种方法,即直接要求 LLM 评估给定摘要的事实性。同时,我们也通过考虑偏相关(partial correlations)来解决不准确的高相关性测量(Pagnoni 等人,2021)的潜在风险,偏相关擅长控制混杂变量。总之,本文研究了以下研究问题(RQ):
- RQ 1:利用 LLM 能否改进基于 QA 的事实指标?
- RQ 2:LLM 能否直接生成可靠的事实性得分?
2 相关工作
虽然神经抽象摘要模型可以生成流畅的摘要,但它们经常产生事实不一致(Honovich 等人,2022)。在事实一致性评估的早期,使用了各种无监督和弱监督指标,包括基于关系三元组、基于文本蕴含以及基于 QA 的技术(Huang 等人,2021)。尽管基于 QA 的方法是一种广泛使用的事实评估技术,但它需要单独的模型来执行不同的步骤,例如问题生成、答案选择,最后是问答。这使得基于 QA 的方法非常复杂且低效。在这方面,我们研究是否仅使用一个不同的 LLM 就可以执行基于 QA 的事实指标流水线中的所有步骤。因此,我们也研究 LLM 是否可以直接用于预测给定文章生成摘要的事实性得分。
同时,事实评估的一个主要限制是缺乏通用基准。这使得各种事实指标的比较非常困难。为了解决这个问题,最近引入了各种用于事实一致性评估的基准,例如 SummaEval(Fabbri 等人,2021a)和 FRANK(Pagnoni 等人,2021)。这些基准旨在评估各种指标捕捉抽象摘要中事实错误的能力。在现有的基准中,FRANK 基准是最大的一个,由来自不同数据集的摘要的人类标注事实得分组成。更具体地说,它是两个数据集 CNN-DM(Nallapati 等人,2016)和 XSUM(Narayan 等人,2018)的汇编,结合了这些数据集上九个不同模型的输出(CNN-DM 5 个模型,XSUM 4 个模型)。总共,该数据集包含 2250 个关于模型输出不同类型事实错误的人类标注判断。此外,该基准通过引入偏相关系数解决了各种事实指标中高相关性的错误测量问题。
在本文中,我们还利用 FRANK 基准,通过利用 LLM 作为评估器来评估模型生成摘要的事实一致性。我们的论文在几个关键方面与 Gao 等人(2023)的研究不同。值得注意的是,我们的研究采用了 FRANK 数据集,涵盖了 CNN-DM 和 XSUM 数据集。相比之下,Gao 等人(2023)的研究基于 SummEval 和 Newsroom 数据集。此外,我们的研究呈现了使用偏相关而非 Gao 等人(2023)所采用的直接相关性的结果。该指标擅长控制混杂变量,可能减轻不准确的高相关性测量的风险(Pagnoni 等人,2021)。
3 方法论
在本节中,我们介绍我们的方法:(i)使用 LLM 作为基于 QA 的事实指标,以及(ii)使用 LLM 进行直接事实评分。下面,我们首先介绍这些方法。
(i) 通过 LLM 实现基于 QA 的事实指标: 我们选择将 LLM 纳入基于 QA 的事实指标的原因是,它在评估模型的事实一致性方面比大多数其他现有的自动事实指标更可靠(Huang 等人,2021)。使用基于 QA 的系统作为事实评估器的典型过程包含 3 个任务:
- 答案选择:此过程的开始涉及从提供的摘要中提取关键点,称为“答案”。
- 问题生成:确定答案后,下一步是根据这些答案制定问题,使用摘要作为上下文。
- 问答:最后一步是使用输入文档作为参考来回答生成的问题。
在本文中,与利用单独模型执行每个任务(这使得基于 QA 的事实评估过程非常复杂)的传统方法相反,我们提出使用一个单一的 LLM 作为基于 QA 的事实指标评估器来执行所有步骤。对于提示词构建,我们首先在一些样本中评估各种提示词,然后选择在我们的实验中表现最好的一个。我们在表 1 中展示了我们用于此任务的选定提示词。
在我们的提示词中,我们利用上下文学习原则,并为 LLM 提供一个相关示例来执行前两个任务:初始答案选择和问题生成。由于初始答案和问题都需要从给定的摘要中生成(使得问题和答案之间存在一定的依赖关系),我们将这两个步骤统一起来,要求 LLM 同时从给定的摘要中生成答案和问题。这使得基于 QA 的流水线的前两个步骤更有效率。之后,将生成的问题和文章作为输入提供给 LLM 以生成最终答案。基于 QA 的事实指标的评估过程取决于找到初始选择的答案与最终答案之间的相似度。相似度越高,摘要被认为越忠实。
(ii) 通过 LLM 进行直接事实性评分: 类似于我们为基于 QA 的事实指标评估构建提示词的方式,我们首先在一组样本中评估各种提示词,并选择在完整实验中表现最好的一个。通过上下文示例演示,我们提示目标 LLM 在 1 到 5 的范围内评估所提供摘要的事实性(我们的提示词如表 1 所示)。
4 实验
在本节中,我们首先介绍我们在本文中研究的 LLM,然后定义评估指标,最后给出实验结果。
4.1 模型
我们使用以下 LLM 进行评估。
- GPT-3.5:GPT-3.5,也称为 ChatGPT,是由 OpenAI 开发的基于 Transformer(Vaswani 等人,2017)的自回归模型,通过监督学习和人类反馈强化学习在海量文本数据上进行了预训练。我们通过 OpenAI 使用该模型的
gpt-3.5-turbo-0613版本。 - GPT-4:GPT-4(OpenAI,2023)是 OpenAI 推出的 GPT 系列模型的最新成员,被誉为更可靠、更具创造力,并且能够处理比 GPT-3.5 更细致的指令。然而,GPT-4 的成本比 GPT-3.5 高出约 25 倍,且速度明显较慢。我们通过 OpenAI 使用该模型的
gpt-4-0613版本。 - PaLM-2:这也是 Google 提出的一种基于 Transformer 的语言模型,展现出增强的推理能力和改进的计算效率。我们通过 Google 的 Vertex API 使用该模型的
text-bison@001版本。
| Prompt: 基于 LLM 的 QA 事实指标 | Prompt: 基于 LLM 的事实性评分 |
|---|---|
| # 答案选择与问题生成: 从以下文本中,生成一个可以在 1 或 2 个词内回答的问题,并生成一个名词短语/命名实体的答案。 文本:Tom 今晚去看了棒球比赛。 输出: { “question”: “Tom 什么时候去看了棒球比赛?”, “answer”: “今晚” } 文本:[SUMMARY] 输出: # 问答: 根据给定的上下文回答以下问题。 问题:[LLM 生成的问题] 上下文:[ARTICLE] | 评估为新闻文章撰写的摘要质量。请在 1(最差)到 5(最好)的范围内对每篇摘要的忠实度进行评分,无需任何解释。 文章:Tom 早上 7 点醒来,立刻和他的妹妹一起去上学。 摘要:Tom 和他的妹妹一起去上学。 忠实度:5 文章:[ARTICLE] 摘要:[SUMMARY] 忠实度: |
表 1:作为基于 QA 的事实评估器和直接忠实度评分器的 LLM 提示词。在基于 QA 的事实评估器中,忠实度得分是根据初始选择的答案(即从答案选择和问题生成步骤生成)与最终答案(即从问答步骤生成的答案)之间的相似度来衡量的。
4.2 评估指标
虽然之前的研究,如 Gao 等人(2023),已经指出了自动指标在评估事实性方面的潜力,但未考虑与系统和数据集属性相关的混杂变量可能会影响感知的相关性(Pagnoni 等人,2021)。相比之下,我们的实验通过引入偏相关系数,利用 FRANK 基准(Pagnoni 等人,2021)来解决这一问题。FRANK 基准不仅包含来自不同数据集的数据,还具有全面的事实错误类型学,允许对生成摘要中的不准确性进行更细致的理解。按照 FRANK 基准,我们根据以下内容测量偏相关:
- 事实错误(Factuality Errors):这是整体的事实性错误。
- 语义框架错误(Semantic Frame Errors):由于对情况或事件中的关系和角色理解不正确而导致的错误。示例:谓词错误、实体错误和环境错误。
- 谓词错误(PredE):摘要中谓词不正确或被错误呈现。
- 实体错误(EntE):提到了错误的实体。
- 环境错误(CircE):关于事件环境的不准确细节。
- 话语错误(Discourse Errors):指摘要文本不同部分之间的错误链接。示例:指代错误和话语链接错误。
- 指代错误(CorefE):指错误的引用(例如,代词)。
- 话语链接错误(LinkE):话语内逻辑连接语句时的错误。
- 内容可验证性错误(Content Verifiability Errors):当摘要因缺乏支持证据而无法验证其准确性时,就会出现这些错误。示例:文章外错误和语法错误。
- 文章外错误(OutE):包含参考来源中不存在信息的陈述。
- 语法错误(GramE):使句子在事实上不正确的语法错误。
| 指标 | Pearson (PaLM-2) | Pearson (GPT-3.5) | Pearson (GPT-4) | Pearson -value (PaLM-2) | Pearson -value (GPT-3.5) | Pearson -value (GPT-4) | Spearman (PaLM-2) | Spearman (GPT-3.5) | Spearman (GPT-4) | Spearman -value (PaLM-2) | Spearman -value (GPT-3.5) | Spearman -value (GPT-4) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 事实错误 | -0.0409 | -0.0016 | -0.0014 | 0.1050 | 0.9498 | 0.9561 | -0.0632 | -0.0259 | 0.0084 | 0.0121 | 0.3037 | 0.7390 |
| 语义框架错误 | -0.0416 | -0.0533 | -0.0386 | 0.0985 | 0.0343 | 0.1260 | -0.0005 | -0.0752 | -0.0494 | 0.9845 | 0.0028 | 0.0501 |
| PredE | -0.0057 | -0.0145 | -0.0044 | 0.8220 | 0.5650 | 0.8622 | 0.0928 | -0.0434 | -0.0290 | 0.0002 | 0.0848 | 0.2497 |
| EntE | -0.0211 | -0.0044 | -0.0212 | 0.4027 | 0.8617 | 0.4006 | 0.0645 | -0.0401 | -0.0327 | 0.0105 | 0.1117 | 0.1941 |
| CircE | -0.0307 | -0.0496 | -0.0444 | 0.2240 | 0.0491 | 0.0782 | 0.1044 | -0.0915 | -0.0419 | 0.0000 | 0.0003 | 0.0961 |
| 话语错误 | -0.0177 | -0.0184 | -0.0185 | 0.4820 | 0.4649 | 0.4633 | -0.1073 | 0.0289 | 0.0065 | 0.0000 | 0.2522 | 0.7962 |
| CorefE | -0.0174 | -0.0222 | -0.0158 | 0.4897 | 0.3790 | 0.5306 | -0.0857 | 0.0158 | 0.0136 | 0.0007 | 0.5314 | 0.5890 |
| LinkE | -0.0057 | 0.0019 | -0.0173 | 0.8210 | 0.9385 | 0.4938 | 0.1424 | -0.0640 | -0.0567 | 0.0000 | 0.0110 | 0.0245 |
| 内容可验证性错误 | 0.0185 | 0.0692 | 0.0335 | 0.4621 | 0.0060 | 0.1844 | 0.0011 | 0.0846 | 0.0359 | 0.9647 | 0.0008 | 0.1545 |
| OutE | 0.0302 | 0.0570 | 0.0472 | 0.2314 | 0.0237 | 0.0610 | 0.0212 | 0.0375 | 0.0300 | 0.3999 | 0.1373 | 0.2347 |
| GramE | -0.0187 | 0.0128 | -0.0297 | 0.4590 | 0.6130 | 0.2395 | 0.1103 | -0.0641 | -0.0397 | 0.0000 | 0.0110 | 0.1157 |
表 2:作为基于 QA 的事实指标评估器的不同 LLM 的相关性得分。
| 指标 | Pearson (PaLM-2) | Pearson (GPT-3.5) | Pearson (GPT-4) | Pearson -value (PaLM-2) | Pearson -value (GPT-3.5) | Pearson -value (GPT-4) | Spearman (PaLM-2) | Spearman (GPT-3.5) | Spearman (GPT-4) | Spearman -value (PaLM-2) | Spearman -value (GPT-3.5) | Spearman -value (GPT-4) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 事实错误 | -0.0898 | 0.0246 | 0.0915 | 0.0004 | 0.3302 | 0.0003 | -0.0921 | -0.0073 | 0.0579 | 0.0003 | 0.7737 | 0.0217 |
| 语义框架错误 | -0.0787 | 0.0111 | 0.0206 | 0.0018 | 0.6590 | 0.4139 | -0.0826 | 0.0980 | 0.0118 | 0.0010 | 0.0001 | 0.6384 |
| PredE | -0.0465 | 0.0172 | -0.0266 | 0.0651 | 0.4945 | 0.2917 | -0.0108 | 0.3337 | -0.0265 | 0.6687 | 0.0000 | 0.2934 |
| EntE | -0.0641 | 0.0113 | -0.0177 | 0.0109 | 0.6554 | 0.4817 | -0.0569 | 0.1801 | -0.0243 | 0.0240 | 0.0000 | 0.3356 |
| CircE | -0.0663 | 0.0266 | 0.0004 | 0.0084 | 0.2909 | 0.9884 | -0.0503 | 0.3702 | -0.0246 | 0.0459 | 0.0000 | 0.3288 |
| 话语错误 | -0.0641 | 0.0178 | -0.0376 | 0.0110 | 0.4806 | 0.1355 | -0.0484 | -0.2273 | -0.0332 | 0.0546 | 0.0000 | 0.1879 |
| CorefE | -0.0632 | 0.0165 | -0.0345 | 0.0121 | 0.5131 | 0.1712 | -0.0519 | -0.2700 | -0.0215 | 0.0394 | 0.0000 | 0.3947 |
| LinkE | -0.0520 | 0.0257 | -0.0440 | 0.0390 | 0.3086 | 0.0805 | -0.0219 | 0.2827 | -0.0499 | 0.3849 | 0.0000 | 0.0477 |
| 内容可验证性错误 | -0.0147 | 0.0316 | 0.0184 | 0.5612 | 0.2107 | 0.4662 | -0.0071 | 0.0148 | 0.0190 | 0.7784 | 0.5568 | 0.4510 |
| OutE | -0.0131 | 0.0267 | 0.0468 | 0.6033 | 0.2891 | 0.0633 | -0.0052 | -0.0447 | 0.0483 | 0.8357 | 0.0761 | 0.0551 |
| GramE | -0.0497 | 0.0285 | -0.0716 | 0.0488 | 0.2575 | 0.0045 | -0.0298 | 0.2893 | -0.0874 | 0.2377 | 0.0000 | 0.0005 |
表 3:作为忠实度评分器的不同 LLM 的相关性得分。
4.3 结果与讨论
对于基于 QA 的事实性,用于衡量相关性的常用指标包括精确匹配(Exact Match)和词 F1 分数。然而,精确匹配可能过于严格。因此,我们选择词 F1,它为答案重叠提供了更平衡的评估。
(i) LLM 作为基于 QA 的事实指标: 我们在表 2 中展示了基于 QA 的事实评估结果。对于整体事实性(称为“事实错误”),只有 PaLM-2 在 Spearman 偏相关中显示出 0.0121 的统计显著 -value。这表明人类判断与 LLM-QA 得分之间没有线性相关性,因为相关系数为 。对于大多数事实错误子类别,PaLM-2、GPT-3.5 和 GPT-4 在 Pearson 相关系数上没有统计显著的 -value。然而,所有相关值都非常接近于零,这表明即使对于子类别,人类判断与 LLM-QA 得分之间也没有线性相关性。就能够检测非线性关系的 Spearman 相关系数而言,PaLM-2 在话语错误、CircE、GramE 和 LinkE 中表现出与人类判断的统计显著但非常弱的相关性(大于 0.1 但小于 0.3),其中绝对值超过 0.1。
(ii) LLM 作为直接忠实度评分器: 表 3 显示了 LLM 分配的事实性得分与对应于不同类型人类标注错误得分之间计算的相关系数。在错误子类别方面,我们看到 PaLM-2 没有显示出任何相关性,且 -value 很高,系数接近于零。GPT-3.5 和 GPT-4 也没有任何显著的 Pearson 相关得分。但有趣的是,GPT-3.5 在话语错误()、PredE()、EntE()、CircE()、GramE()、CorefE()和 LinkE()方面显示出统计显著的 Spearman 相关得分。观察到的负相关令人担忧,因为它可能暗示模型作为忠实度评分器的可靠性存在固有问题。
5 结论
本研究的核心目标是评估各种 LLM,特别是 GPT-3.5、GPT-4 和 PaLM-2 在文本摘要任务事实性评估中的有效性。除了直接使用 LLM 评估摘要的事实性外,我们还引入了一种新颖的方法,利用单个 LLM 执行基于 QA 的事实评分流水线的各个步骤。与预期相反,我们的研究结果显示,对于大多数 LLM,没有任何方法与人类的事实评估表现出显著相关性(系数大于 3),唯一的例外是 GPT-3.5 在直接生成 LLM 忠实度得分时在两个事实子类别中:PredE 和 CircE。尽管如此,结果在几乎所有事实错误类型中都是一致的,这表明当前 LLM 在有效评估事实性方面存在根本性的局限。
虽然之前的研究,如 Gao 等人(2023),指出了自动指标在评估事实性方面的潜力,但我们的研究结果表明,考虑可能的数据集偏差至关重要(Pagnoni 等人,2021)。在某些情况下,不考虑与系统和数据集属性相关的混杂变量可能会影响感知的相关性。为了提供更细致的视角,我们建议利用偏相关系数来控制这些变量。我们的研究呼吁探索当前语言模型在保持事实一致性方面的固有缺陷,并阐明了开发更准确、更全面的事实评估模型和方法的必要性。
未来,我们将使用其他基准(Laban 等人,2022;Wang 等人,2023)以及在噪声数据集(Fu 等人,2022;Khasanova 等人,2022;Laskar 等人,2022a,b, 2023b;Manderscheid 和 Lee,2023)上研究 LLM 的事实评估能力,同时研究新方法,例如利用少样本学习(Brown 等人,2020)、其他提示策略(Liu 等人,2023a),以及对开源 LLM 进行微调(Touvron 等人,2023a,b;Zhao 等人,2023)是否能带来更好的事实评估器。
局限性 本文中使用的闭源模型在不断更新。随着新版本的发布,这可能导致旧版本模型的潜在弃用或不可用。因此,在复制我们的研究时,结果可能会有一些差异。
参考文献
(此处省略,保持原论文格式)