caseHelper 复盘飞轮 | reGeorge 数据飞轮

飞轮卡片 #1 · 人工门禁

dot1x 66 条返工催生了 Phase 0 门禁——批量创建前必须停下来等人确认。门禁的价值不在"阻断"，而在"让阻断变成可追问、可审计、可改进的协作接口"。

思想为何在本次实践中成立

dot1x 项目没做状态矩阵分析就批量创建，66 条用例全部返工。此后硬编码了"批量创建前必须等人确认"的阻断规则。dot1x 之后所有项目再未出现批量返工。

门禁具体落在哪

Phase 0 的五步标准动作，每一步都需要人工判断：

状态维度拆解——人工确认哪些维度正交、哪些组合有业务意义
公共模版映射——人工判断哪些参数需要抓包确认
目录结构设计——人工审核多层业务目录是否符合组织架构
分析报告审批——人工放行后才能进入公共步骤创建和批量生成

最值得继续挖的人工判断

审计规则的自动生成：Phase 0 已经产出了维度拆解和状态组合表，但审计规则配置仍然是手写的。从"Phase 0 产物"到"Phase 2 审计"之间存在断裂。

全局公共用例识别：审计器识别不了 51401/51403 等全局公共用例，会误报为 COMMON_MISSING。修复方案已明确但未落地。

AI 如何通过提问辅助人工判断

审批前：这次 Phase 0 分析中，哪些状态组合只有人能确认业务意义？哪些可以通过平台数据验证？

审批时：如果这份分析报告交给另一个不了解该业务的人看，他能独立判断报告是否完整吗？缺什么？

审批后：你这次放行的核心依据是什么？如果批量创建后发现问题，最可能出在哪里？

留给未来的启发

需要批量创建超过 10 个同类对象时

创建动作的结果难以逐个回滚时

一次性操作涉及多个关联系统的状态变更时

Phase 0 不是瓶颈，Phase 0 的质量才是。投入产出比最高的设计，不是代码，而是一个阻断规则。

来源：[工作复盘/2026-04-01-caseHelper阶段思考.md]

飞轮卡片 #2 · 样本验证后放量

"样本验证"不是验证单个样本的正确性，而是验证"从样本到批量"这个放大过程不会引入新的错误。样本是缩小器的校准点，不是终点。

思想为何在本次实践中成立

case-debugger 的定位从一开始就是"创建样本后立即跑审计，0 偏差才放行批量"。审计被定位为 CI lint 而不是事后 hotfix。链路：公共步骤创建 → 样本用例创建 → contract_smoke → case-debugger 审计 → 批量生成。

样本验证具体落在哪

contract_smoke——验证用例结构与接口契约一致
case-debugger——验证公共步骤引用、审计规则、参数类型
人工确认——样本在飞书上实际跑一遍，确认端到端链路通

最值得继续挖的人工判断

知识库结构校验：145 条公共用例 JSON 没有 schema 校验，同步脚本出 bug 可能写入缺字段的 JSON。人在"创建样本 → 跑审计"这一步无法感知数据层已损坏，错误会延迟到批量创建阶段才暴露。

AI 如何通过提问辅助人工判断

审批前：审计通过的样本覆盖了哪些规则维度？是否有未被任何规则覆盖的创建动作？

审批时：如果这个样本的审计结果有 0 个 warning，你对放行批量有多大信心？哪里让你不安？

留给未来的启发

创建动作涉及多个互相依赖的对象（目录→公共步骤→业务用例）

下游消费者依赖创建结果的数据格式

批量创建的数量级超过人工逐个验证的能力

样本是缩小器的校准点，不是终点。验证的不是"样本对不对"，而是"放大过程会不会引入新错"。

飞轮卡片 #3 · 做减法的勇气

复盘中识别了 6 类无用功，画了 6 条"不做"的边界。项目已过"做加法"阶段，进入"做减法和加固"。三个真正的支柱：Phase 0 门禁、platform-client 封装、知识库 manifest。

思想为何在本次实践中成立

复盘中明确识别了 6 类无用功：Lark 过度拆分、agent_service 空转、POC 停滞、skill 发现系统解决不存在的问题、早期专题脚本重复、平台 client 拆分建议。无效投入的共性：解决了一个不存在的问题。

做减法具体落在哪

删代码：archive 归档历史脚本，scripts 只保留当前在用的
砍方向：不做自动化 Phase 0、不扩展 agent_service、不做双向同步
收敛配置：从 4 个配置来源收敛到 1 个
拒绝建议：架构审阅建议拆分 platform_client，评估后决定不拆

冗余过滤器

已过滤的噪音

"应该拆分 platform_client 让它更清晰" "agent_service 是未来趋势应该提前布局" "多做几层抽象以后扩展更方便"

聚焦透镜：一个工具性项目，"上帝类"只要内部方法职责清晰，不拆也没问题。提前布局未经验证的方向是最大的浪费。

最值得继续挖的人工判断

"不做"的边界判断：什么该砍、什么该留，不是技术问题而是判断问题。Lark 5 模块砍到 2 个是对的，但当时怎么知道"2 个就够了"？判断标准是"覆盖 90% 使用场景的模块数"——这个 90% 的阈值本身也需要定期验证。

AI 如何通过提问辅助人工判断

审批前：你计划砍掉的这个模块/方向，过去 30 天内被使用了几次？有证据还是凭感觉？

审批时：如果砍掉这个能力，未来需要重建的成本是多少？重建时间是否可接受？

留给未来的启发

一个模块/服务搭建完成后 30 天内无人主动使用

架构优化建议的收益无法量化（"可能更好维护"不是收益）

项目新增的代码行数超过业务驱动的需求量

做减法不是"偷懒"。把有限的精力从 80% 的低价值区域抽出来，集中到 20% 的支柱上。三个支柱：Phase 0 门禁、platform-client、知识库 manifest。