新闻中心
首页 / Our News /生成式 AI 问答评估的真实情况策展与指标解读最佳实践 机器学习博客生成式 AI 问答评估的真实情况策展与指标解读最佳实践 机器学习博客
评估生成型人工智能问答的最佳实践
文章精华
本文介绍了生成性人工智能Generative AI问答系统的 ground truth 数据策划与评估方法,强调了使用 FMEval 工具来解释评估指标的重要性。通过高质量的 ground truth 数据,我们可以有效地量化用户体验并进行商业决策。以下是本研究的几条关键要点:
循环过程:正确理解指标计算方式有助于更有效的 ground truth 策划。评估得分低的原因:低得分可能表明 ground truth 策划存在问题。平衡评估指标:需要在召回 (Recall)、精准度 (Precision) 和 F1 分数之间取得平衡。审慎设置 ground truth 复杂性:需确保 ground truth 数据明确无歧义,以提高评估结果。重要信息
在使用大型语言模型LLM构建问答系统时,必须遵循负责任的人工智能最佳实践。这需要一个稳健的质量及评估框架,以确保生成的响应达到质量标准和用户体验的期望。因此,恰当的 ground truth 数据策划和评估方法在这个过程中至关重要。
本文着重介绍了如何利用 FMEval 来评估生成型 AI 应用中的问答系统,并透彻解释了其评估指标。
解决方案概述
我们以一个示例 ground truth 数据集称为“黄金数据集”为例,该数据集包含 10 个问答事实三元组。每个三元组描述了一个事实,以及一个问题答案对,以模拟基于知识源文档的理想响应。我们使用了亚马逊 2023 第二季度的 10Q 报告作为源文档,创建了 10 个问答三元组。黄金数据集遵循本文章讨论的 ground truth 策划最佳实践,但并不是所有问题都遵循以展示 ground truth 策划对指标结果的影响。
问题答案事实谁是安德鲁R贾西Andrew R Jassy?安德鲁R贾西是亚马逊公司的总裁兼首席执行官。亚马逊首席执行官亚马逊 CEO亚马逊总裁2023 第二季度,亚马逊的总净销售额是多少?亚马逊 2023 第二季度的总净销售额为 1344 亿美元。1344 亿134383 百万1343830 亿亚马逊的总部位于哪里?亚马逊的总部位于华盛顿州西雅图的 410 Terry Avenue North。410 Terry Avenue North截至 2023 年 6 月 30 日,亚马逊的运营收入为多少?截至 2023 年 6 月 30 日,亚马逊的运营收入为 125 亿美元。125 亿12455 百万124550 亿亚马逊何时收购了 One Medical?亚马逊于 2023 年 2 月 22 日以约 35 亿美元现金收购 One Medical。2023 年 2 月 22 日202302222 月 22 日 20232023 第二季度,亚马逊面临的主要挑战是什么?外汇汇率变动使亚马逊国际业务的净销售额减少了 18 亿美元。外汇汇率截至 2023 年 6 月 30 日,亚马逊的现金及现金等价物及受限现金总额是多少?截至 2023 年 6 月 30 日,亚马逊的现金及现金等价物及受限现金总额为 501 亿美元。501 亿50067 百万500670 亿2023 年第二季度,亚马逊 AWS 的销售额为多少?亚马逊 2023 第二季度的 AWS 销售额为 221 亿美元。221 亿22140 百万221400 亿22140 百万截至 2023 年 6 月 30 日,亚马逊持有多少 Rivian A 类普通股?截至 2023 年 6 月 30 日,亚马逊持有 158 亿股 Rivian A 类普通股。158 百万截至 2023 年 7 月 21 日,发行在外的普通股数量是多少?截至 2023 年 7 月 21 日,亚马逊发行在外的普通股数量为 10317750796 股。1031775079610317750796我们从三个匿名的生成型 AI RAG 流水线生成了响应分别标记为 Pipeline1、Pipeline2 和 Pipeline3,并根据黄金数据集计算了事实知识及问答准确度指标。三元组的事实键用于事实知识指标的 ground truth,答案键用于问答准确度指标的 ground truth。因此,事实知识是按照事实键进行衡量的,而理想的用户体验则通过问题答案对进行衡量。
生成型 AI 应用的问答评估
生成型 AI 流水线可以有多个子组件,例如 RAG 流水线。RAG 是一种提高 LLM 响应用户查询准确性的策略,通过检索并插入相关领域知识到语言模型的提示中。RAG 的质量取决于检索器分块、索引和生成器LLM 选择及超参数设置、提示的配置。调整检索器的分块和索引可确保 LLN 提示中包含正确内容,允许更高质量的生成。
当选择使用精调 LLM 或代理方式处理问答时,结果评估的方式可以类似地进行。在评估生成型 AI 问答流水线的最终回答时,可以使用黄金数据集和生成的答案,确保可以评估不同流水线架构的生成输出的影响。
尽管评估生成型 AI 流水线的每个子组件在开发和故障排除中都很重要,但商业决策需要有一个端到端的、并行的数据视图,以量化特定生成型 AI 流水线在用户体验方面的表现。这使商业利益相关者可以理解切换 LLM 时期望的质量变化,并遵循法律与合规要求。
FMEval 指标在生成型 AI 应用的问答中的应用
FMEval 的“事实知识”和“问答准确度”指标为根据 ground truth 评估自定义问答数据集提供了有效途径。有关 FMEval 的全部指标,请参考 SageMaker Clarify 中使用提示数据集和可用评估维度的模型评估作业。
事实知识事实知识指标评估生成响应是否包含 ground truth 答案中存在的事实信息。该指标基于字符串匹配,返回二进制0 或 1得分。对于每个黄金问题:
魔方加速器永久vip0 表示小写的事实 ground truth 不存在于模型响应中1 表示小写的事实 ground truth 存在于响应中问答准确度问答准确度指标通过比较生成答案与 ground truth 答案来评估模型的问答准确性。该指标通过计算真阳性、假阳性与假阴性词匹配的字符串来进行评估。它包括若干子指标:
召回率Recall Over Words 评分范围从 0最差到 1最佳,用于测量模型输出中包含的 QA ground truth 的比例。精准度Precision Over Words 评分范围从 0最差到 1最佳,用于测量模型输出中与 QA ground truth 匹配的词的数量。F1 分数F1 Over Words 精准率和召回率的调和平均数,提供从 0 到 1 的平衡得分。准确匹配Exact Match 二进制 0 或 1,指示模型输出是否与 QA ground truth 完全匹配。准准确匹配Quasi Exact Match 类似于准确匹配,但进行了一定的规范化小写和移除冠词。由于问答准确度指标基于精确匹配计算,它可能在答案可以以不同形式表达而不改变其含义的问题上相对不可靠。为此,我们建议结合使用事实知识评估事实正确性,并运用致力于表达简洁性和风格的问答准确度指标,以取得更好的评估结果。
最佳实践总结
在本节中,我们分享使用 FMEval 的问答系统的 ground truth 优化最佳实践。
理解事实知识指标计算
事实知识得分是二进制的判断,表示生成 AI 流水线是否正确检索了真实世界的事实。通过逻辑操作符如 OR 或 AND配置多个接受的答案,确保答案表述的明确性,避免生成虚假掌握。
解释事实知识得分
事实知识得分可以作为生成 AI 流水线中出现的幻觉和信息提取问题的信号。可以生成实际的报告以可视化每个流水线的质量。
策划准确的事实知识 ground truth
在策划 Factual Knowledge 的 ground truth 时,需考虑字符串匹配的影响。最佳策划实践包括使用更简洁的、独立于 QA 准确性的内容作为 fact 的基础。
理解 QA 准确度指标计算
对问答准确度指标的示例解释说明了如何计算 QA 准确度分数,并确立最佳实践方向。

解释 QA 准确度得分
对于 QA 准确度得分,召回率、精准度和 F1 等指标各自具有独特的意义。应保持警惕,以确保更高的得分质量。
文章结论
我们在本文中概述了使用 FMEval 评估生成性 AI 考问时的最佳实践。通过策划 ground truth 问答事实三元组,我们展示了如何在使用生成型 AI 地址的问答系统时进行有效的评估。通过质性与量性方法帮助商业决策,推动生成型 AI 发展。
上述内容提供了未来合规与效率提高的指导,尤其在测试生成型 AI 友好的决策辅助中。此外,我们鼓励您采用这些最佳实践,并借助 FMEval 工具包开始评估您的生成性 AI 问答流水线。
搜索
最新内容
集中化还是分散化? 云企业战略博客
迁移到AWS Cloud WAN多区域检查使用服务插入 网络与内容交付
生成式 AI 问答评估的真实情况策展与指标解读最佳实践 机器学习博客
支持加拿大的 CCCS PBHVA 覆盖合规性与 AWS 的着陆区加速器 安全博客