跳转到主要内容

如何使用 Astra 的自动化代理评估来部署可靠的 AI 代理

摘要

在 Astra 中创建 AI 代理时,系统不会仅生成代理就让您自行摸索。它会自动生成测试用例,帮助您从一开始就评估和改进代理。

本文将介绍自动化测试、提示优化和评估仪表板如何协同工作,帮助您以更少的手动操作,推出可靠、高性能的代理。

说明

自动化代理评估如何工作

代理创建后,Astra 会自动生成测试用例。这消除了手动设置测试的需求,并缩短了试错时间。

打开“评估”页面后,您将看到一组根据代理当前指令自动生成的测试用例。

这些测试用例建立了性能基线。它们有助于您了解代理在不同对话类型、边缘情况和风险场景下的响应情况。这些场景包括从标准查询到复杂问题。

如何运行评估并查看结果

您可以从列表中选择特定的测试用例来运行评估,或者单击“全部运行”一次性评估所有可用测试用例。

评估完成后,系统将实时显示代理的性能。这有助于您快速识别不清晰、不完整或冲突的指令。

您将看到“总体评估结果”,包括:

  • 效率得分 - AI 代理处理问题的能力。

  • 准确性 - AI 代理回复的正确程度。

  • 延迟 - AI 代理响应的速度。

您还可以在“评估摘要”中查看以下详细信息:

  • 问题 - 用于评估 AI 代理的测试问题。

  • 类别 - 问题类型,例如“标准查询”、“隐含问题”或“无关问题”。

  • 预期答案 - AI 代理应提供的回复。

  • AI 回复 - AI 代理生成的实际回复。

  • 指标 - 显示回复的效率得分

  • 状态 - 指示 AI 代理是否通过或未通过评估。

  • 备注 - 显示有关测试用例的其他信息,例如问题是否为自动生成通过 CSV 上传手动添加

您可以单击任何单个测试用例以查看详细结果,包括:

  • 评估摘要 - 代理响应情况及其通过或未通过的原因的明细。

  • 预期行为 - 代理应提供的正确或理想回复。

每个结果都包含代理如何解释用户输入以及是否正确响应的详细解释。这使得更容易发现差距并精确地完善您的指令。

您需要做的是:

  • 查看每个测试用例的结果。

  • 将代理的响应与评估摘要进行比较。

  • 检查响应是否与预期行为一致。

如何查看 AI 分析和建议

单击“分析结果”以查看评估结果。系统可能需要几分钟时间来处理分析。

分析完成后,单击“查看建议”以查看AI 驱动的优化建议

系统总结主要问题,并提供实际建议以提高代理的准确性和可靠性。

仔细审查高优先级建议。这些可能包括为某些请求添加明确的规则,或为诸如订单跟踪等复杂任务定义分步指令。

如何更新代理指令

审查完建议后,单击“更新指令”以自动应用改进。此功能有助于简化使用实际测试和分析的见解来完善代理的过程。这需要几分钟时间,然后会显示结果。

审查和应用更改

审查更新的指令”屏幕将显示拟议的更改。在这里,您可以查看新的规则和指南是如何添加到代理现有指令中的。

优化后:

  • 门户将突出显示拟议的更新。

  • 您可以清楚地看到哪些内容已修改以及原因。

  • 仔细审查建议的改进。

滚动浏览更新的指令,确保其符合您的要求。

确认 AI 建议符合您的品牌声音业务流程

单击“接受”以完成更新。

再次运行评估

保存更改后,再次单击“全部运行”以使用相同的测试用例重新评估代理。系统将使用更新后的指令运行评估。测试完成后,您应该会看到所有场景都已通过。

此过程展示了分析和建议功能如何帮助您迭代改进和优化 AI 代理的性能。

这是否解答了您的问题?