跳转至

MindStudio Probe

昇腾 AI 全场景精度调试利器

快速入门 精确搜索 AI问答(DeepWiki) AI问答(ZRead) 昇腾社区 报告问题

✨ 最新消息

🔹 [2026.03.28]msprobe 仓库 ADump 模块日落下线通知
🔹 [2026.03.20]:上线大模型训练精度定位指南大模型推理精度定位指南常用框架工具使能指南
🔹 [2025.12.31]:MindStudio Probe 精度调试工具全面开源

ℹ️ 简介

MindStudio Probe(MindStudio 精度调试工具,msProbe)是针对昇腾 AI 处理器打造的全场景精度调试工具链,专为模型开发的精度调试环节设计,支持 PyTorch、MindSpore 等主流框架,可显著提升用户定位模型精度问题的效率。

⚙️ 功能介绍

使用场景 子模式/细分场景 功能项 功能说明 参考文档
vLLM推理 Eager/图模式 数据采集 完成msProbe精度数据采集操作 数据采集
数据比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题
请参考分级可视化构图比对或精度比对
分级可视化构图比对
精度比对
torchair 数据采集 通过set_ge_dump_config接口完成精度数据采集操作 数据采集
精度比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 精度比对
通用场景 推理异常检测 获取vLLM推理输出,感知异常问题 推理异常检测
SGLang推理 eager模式 数据采集 完成msProbe精度数据采集操作 数据采集
数据比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 分级可视化构图比对
精度比对
ATB推理 - 数据采集 通过在ATB模型运行前,加载ATB dump模块的方式,实现对ATB模型运行过程中的精度数据的采集 数据采集
精度比对 将ATB dump的精度数据进行精度比对,进而定位精度问题 精度比对
数据转换 将ATB dump的精度数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 数据转换
离线模型推理 - 数据采集 完成msProbe精度数据采集操作 数据采集
精度比对 提供一键式离线模型比对功能,仅需输入模型即可完成比对,无需提前采集数据,快速输出结果 精度比对
离线模型数据精度比对 提供离线模型数据比对功能,输入离线模型的dump数据进行精度比对 离线模型数据精度比对
数据转换 将离线模型的dump数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 数据转换
PyTorch训练 - 训练前配置检查 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 训练前配置检查
verl超参比对与关键超参校验 verl训练过程中或结束后,比对两台不同服务器上训练日志中采集到的真实超参配置,或者校验配置是否与关键超参取值相同,辅助用户高效比对真实超参值配置,加速定位因配置差异所引发的训练精度问题 verl超参比对与关键超参校验
数据采集 通过config.json配置,完成msProbe精度数据采集操作 数据采集
精度预检 在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 精度预检
分级可视化构图比对 将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 分级可视化构图比对
精度比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 精度比对
训练状态监测 收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 训练状态监测
checkpoint比对 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 checkpoint比对
整网首个溢出节点分析 多rank场景下通过dump数据找到首个出现Nan或Inf的节点 整网首个溢出节点分析
趋势可视化 将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 趋势可视化
MindSpore训练 - 训练前配置检查 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 训练前配置检查
数据采集 通过config.json配置,完成msProbe精度数据采集操作 数据采集
精度预检 在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 精度预检
分级可视化构图比对 将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 分级可视化构图比对
精度比对 将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 精度比对
训练状态监测 收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 训练状态监测
溢出检测与解析 溢出检测用于采集溢出API或模块的精度数据,而溢出解析则是通过对溢出数据的分析,进一步判断是否为正常溢出
推荐直接使用数据采集功能采集统计量信息,检测溢出问题,具体请参见数据采集
溢出检测与解析
数据采集
checkpoint比对 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 checkpoint比对
趋势可视化 将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 趋势可视化
MSAdapter场景 - 数据采集 通过config.json配置,完成msProbe精度数据采集操作 数据采集
checkpoint比对 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 checkpoint比对

🚀 快速入门

通过一个可执行样例,快速上手精度数据采集和精度比对功能,请参见《PyTorch 场景精度调试工具快速入门》或《MindSpore 场景精度调试工具快速入门》。

📦 安装指南

msProbe 支持 PyPI 安装、WHL 安装、源码编译三种方式,具体请参见《msProbe 安装指南》。

📘 使用指南

msProbe 的功能覆盖训练和推理等多种场景。请根据您的实际使用场景,在上方功能介绍中选择对应的功能项,并参考相应文档进行配置和使用。

💡 典型案例

🔹 大模型训练精度定位指南
🔹 大模型推理精度定位指南
🔹 常用框架工具使能指南

📚 补充材料

🔹 PyTorch 场景的精度数据采集基线报告
🔹 MindSpore 场景的精度预检基线报告
🔹 MindSpore 场景的精度数据采集基线报告
🔹 训练状态监测工具标准性能基线报告

❓ FAQ

常见问题及解决方案汇总,请参见《FAQ》。

🌌 智能检索

为提升文档查阅效率,我们提供多种高效检索方式:
🔹 精确搜索(ReadTheDocs):关键词全文检索,直达接口、参数与报错等信息。
🔹 AI 问答(DeepWiki):自然语言问答,快速把握项目架构与模块关系。
🔹 AI 问答(ZRead):中文问答体验更优,精准定位功能用法与细节。

🛠️ 贡献指南

欢迎参与项目贡献,请参见《贡献指南》。

⚖️ 相关说明

🔹 《开发者指南
🔹 《安全声明
🔹 《免责声明
🔹 《许可证声明

🤝 建议与交流

欢迎大家为社区做贡献。如果有任何疑问或建议,请提交 Issues,我们会尽快回复。感谢您的支持。

即时互动(微信群) 官方资讯(公众号) 深度支持(助手/论坛)

扫码加入技术交流群

扫码关注官方公众号
欢迎扫码关注技术交流群和官方公众号,直达 MindStudio 用户与开发者最快捷的交流平台:
快速提问: 与社区小伙伴即时探讨技术问题
掌握动态: 第一时间获取版本发布与功能更新通知
经验共享: 与广大开发者交流最佳实践与实战心得

更多支持渠道:👉 昇腾助手:WeChat 👉 昇腾论坛:Website

🙏 致谢

本工具由华为公司的下列部门联合贡献:
🔹 昇腾计算 MindStudio 开发部
🔹 分布式并行计算实验室

感谢来自社区的每一个 PR,欢迎贡献 msProbe!