MindStudio Probe
✨ 最新消息¶
🔹 [2026.03.28]:msprobe 仓库 ADump 模块日落下线通知
🔹 [2026.03.20]:上线大模型训练精度定位指南、大模型推理精度定位指南及常用框架工具使能指南
🔹 [2025.12.31]:MindStudio Probe 精度调试工具全面开源
ℹ️ 简介¶
MindStudio Probe(MindStudio 精度调试工具,msProbe)是针对昇腾 AI 处理器打造的全场景精度调试工具链,专为模型开发的精度调试环节设计,支持 PyTorch、MindSpore 等主流框架,可显著提升用户定位模型精度问题的效率。
⚙️ 功能介绍¶
| 使用场景 | 子模式/细分场景 | 功能项 | 功能说明 | 参考文档 |
|---|---|---|---|---|
| vLLM推理 | Eager/图模式 | 数据采集 | 完成msProbe精度数据采集操作 | 数据采集 |
| 数据比对 | 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 请参考分级可视化构图比对或精度比对 |
分级可视化构图比对 精度比对 |
||
| torchair | 数据采集 | 通过set_ge_dump_config接口完成精度数据采集操作 | 数据采集 | |
| 精度比对 | 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 | 精度比对 | ||
| 通用场景 | 推理异常检测 | 获取vLLM推理输出,感知异常问题 | 推理异常检测 | |
| SGLang推理 | eager模式 | 数据采集 | 完成msProbe精度数据采集操作 | 数据采集 |
| 数据比对 | 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 | 分级可视化构图比对 精度比对 |
||
| ATB推理 | - | 数据采集 | 通过在ATB模型运行前,加载ATB dump模块的方式,实现对ATB模型运行过程中的精度数据的采集 | 数据采集 |
| 精度比对 | 将ATB dump的精度数据进行精度比对,进而定位精度问题 | 精度比对 | ||
| 数据转换 | 将ATB dump的精度数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 | 数据转换 | ||
| 离线模型推理 | - | 数据采集 | 完成msProbe精度数据采集操作 | 数据采集 |
| 精度比对 | 提供一键式离线模型比对功能,仅需输入模型即可完成比对,无需提前采集数据,快速输出结果 | 精度比对 | ||
| 离线模型数据精度比对 | 提供离线模型数据比对功能,输入离线模型的dump数据进行精度比对 | 离线模型数据精度比对 | ||
| 数据转换 | 将离线模型的dump数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 | 数据转换 | ||
| PyTorch训练 | - | 训练前配置检查 | 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 | 训练前配置检查 |
| verl超参比对与关键超参校验 | verl训练过程中或结束后,比对两台不同服务器上训练日志中采集到的真实超参配置,或者校验配置是否与关键超参取值相同,辅助用户高效比对真实超参值配置,加速定位因配置差异所引发的训练精度问题 | verl超参比对与关键超参校验 | ||
| 数据采集 | 通过config.json配置,完成msProbe精度数据采集操作 | 数据采集 | ||
| 精度预检 | 在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 | 精度预检 | ||
| 分级可视化构图比对 | 将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 | 分级可视化构图比对 | ||
| 精度比对 | 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 | 精度比对 | ||
| 训练状态监测 | 收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 | 训练状态监测 | ||
| checkpoint比对 | 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 | checkpoint比对 | ||
| 整网首个溢出节点分析 | 多rank场景下通过dump数据找到首个出现Nan或Inf的节点 | 整网首个溢出节点分析 | ||
| 趋势可视化 | 将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 | 趋势可视化 | ||
| MindSpore训练 | - | 训练前配置检查 | 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 | 训练前配置检查 |
| 数据采集 | 通过config.json配置,完成msProbe精度数据采集操作 | 数据采集 | ||
| 精度预检 | 在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 | 精度预检 | ||
| 分级可视化构图比对 | 将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 | 分级可视化构图比对 | ||
| 精度比对 | 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 | 精度比对 | ||
| 训练状态监测 | 收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 | 训练状态监测 | ||
| 溢出检测与解析 | 溢出检测用于采集溢出API或模块的精度数据,而溢出解析则是通过对溢出数据的分析,进一步判断是否为正常溢出 推荐直接使用数据采集功能采集统计量信息,检测溢出问题,具体请参见数据采集 |
溢出检测与解析 数据采集 |
||
| checkpoint比对 | 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 | checkpoint比对 | ||
| 趋势可视化 | 将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 | 趋势可视化 | ||
| MSAdapter场景 | - | 数据采集 | 通过config.json配置,完成msProbe精度数据采集操作 | 数据采集 |
| checkpoint比对 | 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 | checkpoint比对 |
🚀 快速入门¶
通过一个可执行样例,快速上手精度数据采集和精度比对功能,请参见《PyTorch 场景精度调试工具快速入门》或《MindSpore 场景精度调试工具快速入门》。
📦 安装指南¶
msProbe 支持 PyPI 安装、WHL 安装、源码编译三种方式,具体请参见《msProbe 安装指南》。
📘 使用指南¶
msProbe 的功能覆盖训练和推理等多种场景。请根据您的实际使用场景,在上方功能介绍中选择对应的功能项,并参考相应文档进行配置和使用。
💡 典型案例¶
🔹 大模型训练精度定位指南
🔹 大模型推理精度定位指南
🔹 常用框架工具使能指南
📚 补充材料¶
🔹 PyTorch 场景的精度数据采集基线报告
🔹 MindSpore 场景的精度预检基线报告
🔹 MindSpore 场景的精度数据采集基线报告
🔹 训练状态监测工具标准性能基线报告
❓ FAQ¶
常见问题及解决方案汇总,请参见《FAQ》。
🌌 智能检索¶
为提升文档查阅效率,我们提供多种高效检索方式:
🔹 精确搜索(ReadTheDocs):关键词全文检索,直达接口、参数与报错等信息。
🔹 AI 问答(DeepWiki):自然语言问答,快速把握项目架构与模块关系。
🔹 AI 问答(ZRead):中文问答体验更优,精准定位功能用法与细节。
🛠️ 贡献指南¶
欢迎参与项目贡献,请参见《贡献指南》。
⚖️ 相关说明¶
🔹 《开发者指南》
🔹 《安全声明》
🔹 《免责声明》
🔹 《许可证声明》
🤝 建议与交流¶
欢迎大家为社区做贡献。如果有任何疑问或建议,请提交 Issues,我们会尽快回复。感谢您的支持。
| 即时互动(微信群) | 官方资讯(公众号) | 深度支持(助手/论坛) |
|---|---|---|
![]() 扫码加入技术交流群 |
![]() 扫码关注官方公众号 |
欢迎扫码关注技术交流群和官方公众号,直达 MindStudio 用户与开发者最快捷的交流平台: 快速提问: 与社区小伙伴即时探讨技术问题 掌握动态: 第一时间获取版本发布与功能更新通知 经验共享: 与广大开发者交流最佳实践与实战心得 更多支持渠道:👉 昇腾助手: |
🙏 致谢¶
本工具由华为公司的下列部门联合贡献:
🔹 昇腾计算 MindStudio 开发部
🔹 分布式并行计算实验室
感谢来自社区的每一个 PR,欢迎贡献 msProbe!

