赛事规则
了解WASC的参赛规范与评审标准
我们不比概念,只比谁能真正解决问题。
自成长·越用越懂你
围绕如何让 AI Skill 在持续使用中学习偏好、沉淀上下文、越用越懂用户的问题,征集创新解决方案。
为什么选这个问题?
参赛指南
本月目标
征集能够在用户授权下记住偏好、学习反馈、适应工作流,并在持续使用中提升协作质量的 Skills 解法。
鼓励方向
参赛对象
赛事面向全球开放,个人与团队均可报名。一个团队可提交多个作品,但每个作品需独立报名。
参赛内容要求
作品类型
作品要求
作品提交结构
技术交付材料(GitHub)
演示传播材料
推荐优先提供短视频演示,因为其更利于传播、理解和大众评分。
评审与知识产权
评审机制
评审标准与评分规则
本届主题不以“概念是否先进”为核心,而以现场连续使用测试为依据,评估 Skill 是否真的能在使用过程中自动成长、自动记忆有效内容,并在后续任务中减少用户重复说明。
统一评测条件
- 所有参赛 Skill 从清空记忆状态开始测试,不允许提前注入评委偏好。
- 参赛者需提供
reset memory、view memory、edit/delete memory的可操作入口。 - 现场测试使用同一套连续使用剧本,评委完整记录每一步输出与记忆变化。
- 若 Skill 无法重置、查看或修改记忆,将直接影响可复测性、用户控制与记忆更新评分。
标准化测试任务
- 每个 Skill 至少完成 1 组 8 步连续测试:清空记忆、首次任务、用户反馈、查看记忆、再次任务、偏好变化、第三次任务、删除后复测。
- 测试重点不是单次输出质量,而是第 2 次、第 3 次任务是否能主动使用并更新记忆。
- 评委会检查 Skill 是否区分长期偏好、场景规则、工作方法与临时任务信息。
- 允许作品根据自身场景替换任务内容,但必须保留“记忆生成、记忆应用、记忆更新、记忆删除”的测试结构。
评分与排名方式
- 评分项共 6 个维度,采用 100 分制综合评分。
- 所有评分以现场可观察结果为准:记忆内容、后续输出、更新记录、删除结果均需可验证。
- 若总分相同,依次比较记忆应用效果、记忆更新与淘汰、有效记忆提取。
- 只保存聊天记录但无法结构化使用,或只靠人工手动维护记忆的作品,不应获得高分。
100 分评分表
| 维度 | 权重 | 评分依据 | 说明 |
|---|---|---|---|
| 可复测性 | 10 分 | 是否能清空、查看、编辑和删除记忆 | 评委必须能从空白状态开始测试,并确认 Skill 当前到底记住了什么 |
| 有效记忆提取 | 20 分 | 根据用户反馈自动生成的记忆质量 | 重点看是否能区分长期偏好、场景规则、工作方法和临时任务信息 |
| 记忆应用效果 | 25 分 | 第二次、第三次任务是否主动适配用户偏好 | 高分作品应明显减少用户重复说明,并让输出更贴合使用者习惯 |
| 记忆更新与淘汰 | 20 分 | 用户改变偏好后,旧记忆是否被替换、降权或归档 | 只会不断累加记忆、导致新旧规则冲突的作品不得高分 |
| 用户控制与透明度 | 10 分 | 用户是否能理解、确认、修改和撤销记忆 | 记忆应可查看、可解释、可干预,而不是黑箱运行 |
| 结果质量与真实可用性 | 15 分 | 连续测试中最终输出是否可直接使用 | 不能只展示记忆机制,最终任务结果仍需自然、准确、可交付 |
总分公式为:六项指标按权重汇总。评审不看单次最好输出,而看同一用户在连续使用中的变化:第一次能否完成任务,反馈后能否自动提取记忆,第二次能否主动应用,偏好变化后能否更新或淘汰旧记忆,删除记忆后是否真正停止使用。
建议统一测试剧本
- 清空记忆:要求参赛者执行
reset memory。 - 首次任务:让 Skill 完成一次无偏好的普通任务。
- 用户反馈:评委给出明确偏好和工作方法。
- 查看记忆:要求展示当前生成的记忆。
- 再次任务:给出相似但不同的新任务,观察是否主动应用。
- 偏好变化:用户推翻或缩小旧偏好适用范围。
- 第三次任务:观察新规则是否生效,旧规则是否停止影响。
- 删除后复测:要求删除某条记忆,再执行任务,观察是否真正停止使用该记忆。
详细评分细则
1. 可复测性 10 分
- 10 分:提供 reset、view、edit/delete memory,且操作清晰稳定。
- 8 分:能清空和查看记忆,但编辑或删除能力较弱。
- 5 分:能查看部分记忆,但无法可靠清空或复测。
- 0-3 分:记忆完全黑箱,评委无法判断其状态。
2. 有效记忆提取 20 分
- 18-20 分:能准确提取长期偏好、适用场景、工作方法,并排除临时任务信息。
- 14-17 分:能提取主要偏好,但适用范围或结构化程度不足。
- 8-13 分:只提取到模糊偏好,例如“用户喜欢简洁”。
- 0-7 分:把整段对话原样保存,或记忆内容与用户反馈明显不符。
3. 记忆应用效果 25 分
- 23-25 分:无需提醒即可自然应用偏好,输出明显比首次更贴合用户习惯。
- 18-22 分:能应用大部分偏好,但存在少量遗漏或套用不自然。
- 10-17 分:只应用个别偏好,仍需要用户多次提醒。
- 0-9 分:后续任务几乎没有使用记忆,或把记忆用到错误场景。
4. 记忆更新与淘汰 20 分
- 18-20 分:能准确处理新旧偏好冲突,并在下一次任务中执行新规则。
- 14-17 分:能更新主要规则,但保留少量冲突或解释不清。
- 8-13 分:能新增新规则,但旧规则仍然影响输出。
- 0-7 分:只会累加记忆,导致输出越来越混乱。
5. 用户控制与透明度 10 分
- 10 分:记忆可查看、可解释、可编辑、可删除,并能说明记忆来源或适用范围。
- 8 分:记忆可查看和删除,但解释性或编辑体验一般。
- 5 分:只能查看简略记忆,用户干预能力有限。
- 0-3 分:用户无法控制记忆,或删除后仍继续使用旧偏好。
6. 结果质量与真实可用性 15 分
- 13-15 分:最终输出自然、准确、可直接使用,并明显体现用户习惯。
- 10-12 分:结果基本可用,但细节仍需人工修改。
- 6-9 分:有记忆痕迹,但输出质量不稳定或不够实用。
- 0-5 分:机制展示完整,但最终结果不可交付。
知识产权声明
参赛作品需为原创或已获得合法授权。参赛者保留作品知识产权,但授予赛事主办方用于评审、展示、宣传的非独占使用权。获奖作品可能会被收录至官方 Skills 库,作者将获得署名与相应权益。
世界AI技能锦标赛比的不是概念,而是围绕真实问题的
可运行、可评测、可复用的 Skills 解法
主办方拥有本赛事规则的最终解释权。