scientific-experiment-planner¶

Pack: research

科学实验设计与验证规划：围绕可检验假设、变量、baseline、ablation、评价指标、统计检验与复现要求生成experiment plan，回答“如何评估贡献”。Use when users ask “实验设计/experiment plan/实验方案/baseline/ablation/评价指标/metrics design/how to evaluate/benchmark plan”.

Compatibility: opencode

作用/Purpose¶

将研究想法转化为可验证、可复现、可审查的实验方案。该skill重点解决“如何证明贡献成立”而非“如何描述方法”，确保实验设计与论文主张一一对应。

触发场景/Trigger Scenarios¶

用户提出“怎么评估这个方法/系统”的问题，需要完整实验方案
需要明确 baseline、ablation、指标与统计检验，避免拍脑袋评估
需要从方法说明进入验证落地（实验步骤、数据集/工作负载、复现条件）
需要提前识别有效性威胁，减少投稿时“evaluation weak”的风险

输入/Input¶

research brief（研究目标、主张、约束）
methodology/design 草案（方法机制、预期贡献）
可用资源（算力、时间、数据、实验环境）
可选：evidence ledger、相关论文基线列表

输出/Output¶

experiment-plan.md（主实验计划）
benchmark-plan.md（基线与基准设计）
ablation-plan.md（消融实验设计）
validity-threats.md（有效性威胁与缓解策略）

工作流/Workflow¶

定义可检验假设 — 将贡献声明改写为可证伪、可量化的假设
确定变量结构 — 列出自变量、因变量、控制变量，避免隐含自由度
选择有意义baseline — 选择当前主流、强基线与简单基线，解释公平性设置
设计评价指标 — 指标必须直接回应主张（性能、准确率、开销、鲁棒性等）
选择数据集/工作负载 — 说明代表性、覆盖范围与边界条件
设计ablation — 每次移除一个贡献要素，验证其独立贡献
确定统计检验 — 按数据类型与样本量选择合适检验并报告效应量
定义复现要求 — 固定版本、随机种子、环境说明、运行脚本与报告格式
输出有效性威胁 — 至少覆盖内部、外部、构念、结论四类中的关键风险

质量门禁/Quality Gates¶

必须至少包含 1条可检验假设
必须至少指定 1个baseline
指标必须与主张匹配（不允许“主张A、指标测B”）
ablation必须至少隔离 1个明确贡献
必须识别 ≥2项有效性威胁 并给出缓解策略

Gotchas/注意事项¶

不要用 strawman baseline 伪造优势
不要把“更多实验”误当作“更强证据”，关键是实验与主张的对应关系
不要把统计显著性当作工程显著性，需同时报告效应量和实际影响
不要忽略失败结果与负面样本，它们通常决定结论边界
复现要求必须可执行，不能停留在“代码将开源”口号

关联资源¶

References: references/experiment-design-guide.md, references/benchmark-and-ablation-guide.md
Assets: assets/experiment-plan-template.md