摘要

在 Astra 中创建 AI 代理时，系统不会仅生成代理就让您自行摸索。它会自动生成测试用例，帮助您从一开始就评估和改进代理。

本文将介绍自动化测试、提示优化和评估仪表板如何协同工作，帮助您以更少的手动操作，推出可靠、高性能的代理。

说明

代理创建后，Astra 会自动生成测试用例。这消除了手动设置测试的需求，并缩短了试错时间。

打开“评估”页面后，您将看到一组根据代理当前指令自动生成的测试用例。

这些测试用例建立了性能基线。它们有助于您了解代理在不同对话类型、边缘情况和风险场景下的响应情况。这些场景包括从标准查询到复杂问题。

您可以从列表中选择特定的测试用例来运行评估，或者单击“全部运行”一次性评估所有可用测试用例。

评估完成后，系统将实时显示代理的性能。这有助于您快速识别不清晰、不完整或冲突的指令。

您将看到“总体评估结果”，包括：

您还可以在“评估摘要”中查看以下详细信息：

您可以单击任何单个测试用例以查看详细结果，包括：

每个结果都包含代理如何解释用户输入以及是否正确响应的详细解释。这使得更容易发现差距并精确地完善您的指令。

您需要做的是：

单击“分析结果”以查看评估结果。系统可能需要几分钟时间来处理分析。

分析完成后，单击“查看建议”以查看AI 驱动的优化建议。

系统总结主要问题，并提供实际建议以提高代理的准确性和可靠性。

仔细审查高优先级建议。这些可能包括为某些请求添加明确的规则，或为诸如订单跟踪等复杂任务定义分步指令。

审查完建议后，单击“更新指令”以自动应用改进。此功能有助于简化使用实际测试和分析的见解来完善代理的过程。这需要几分钟时间，然后会显示结果。

“审查更新的指令”屏幕将显示拟议的更改。在这里，您可以查看新的规则和指南是如何添加到代理现有指令中的。

优化后：

滚动浏览更新的指令，确保其符合您的要求。

确认 AI 建议符合您的品牌声音和业务流程。

单击“接受”以完成更新。

保存更改后，再次单击“全部运行”以使用相同的测试用例重新评估代理。系统将使用更新后的指令运行评估。测试完成后，您应该会看到所有场景都已通过。

此过程展示了分析和建议功能如何帮助您迭代改进和优化 AI 代理的性能。