HBM Predictor:厦门大学与华为联合开发的终极高带宽内存故障预测框架

📅 2026/7/2 20:50:43
HBM Predictor:厦门大学与华为联合开发的终极高带宽内存故障预测框架
HBM Predictor厦门大学与华为联合开发的终极高带宽内存故障预测框架【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor前往项目官网免费下载https://ar.openeuler.org/ar/在当今高性能计算和人工智能时代高带宽内存HBM已成为数据中心和AI训练系统的关键组件。然而HBM故障可能导致系统崩溃、数据丢失和昂贵的停机时间。HBM Predictor是厦门大学与华为2012庞加莱实验室联合开发的终极故障预测框架为HBM内存提供全方位的智能预测保护。 什么是HBM PredictorHBM Predictor是一个分层级、全方位、非侵入式的高带宽内存故障预测框架。该项目基于从19个数据中心收集的真实HBM故障数据通过机器学习算法构建了四个层级的预测模型服务器级预测器- 预测整个服务器的HBM故障风险Bank级预测器- 在bank层面识别潜在故障行级预测器- 精确到内存行的故障预测列级预测器- 精确到内存列的故障预测这个框架已经在USENIX ATC24顶级会议上发表论文《Removing Obstacles before Breaking Through the Memory Wall: A Close Look at HBM Errors in the Field》展示了其在工业环境中的实际应用价值。 核心数据集与特征工程HBM Predictor的核心优势在于其丰富的数据集和精细的特征工程。项目提供了两个层次的数据原始数据集位于data/raw_data/dataset(opensource).csv包含从19个数据中心收集的真实HBM错误信息错误发生的时间、位置和类型数据中心、服务器、堆栈、SID等标识信息Bank组、Bank阵列、列、行等详细位置信息错误类型CE、UER、UEO等处理后的特征数据位于data/processed_data/目录下包含四个层级的预测数据文件data_for_server-level_prediction.csv- 服务器级预测特征data_for_bank-level_prediction.csv- Bank级预测特征data_for_row-level_prediction.csv- 行级预测特征data_for_col-level_prediction.csv- 列级预测特征每个数据集包含峰值功率、平均功率、温度、各种错误类型的统计特征等18个特征维度为机器学习模型提供了丰富的输入信息。️ 快速安装与使用指南环境要求Python 3.6或更高版本基本的机器学习库依赖一键安装步骤# 克隆项目仓库 git clone https://gitcode.com/openeuler/hbm-predictor # 进入项目目录 cd hbm-predictor # 安装依赖包 pip3 install -r requirements.txt运行预测模型项目提供了完整的预测框架可以轻松运行不同层级的预测器# 进入预测目录 cd prediction # 运行预测性能测试 python3 prediction_performance.py运行后你将看到类似以下输出展示了不同层级预测器的性能指标Test1 for each predictor Results of row-level predictor (Precision, Recall, F1_score) RF with threshold0.55: 0.6979, 0.8816, 0.7791 Results of col-level predictor (Precision, Recall, F1_score) RF with threshold0.6: 0.7267, 0.8667, 0.7905 Results of bank-level predictor (Precision, Recall, F1_score) RF with threshold0.55: 0.6681, 0.7381, 0.7014 Results of server-level predictor (Precision, Recall, F1_score) RF with threshold0.6: 0.3326, 0.5675, 0.4194 深入分析功能HBM Predictor不仅仅是一个预测工具还提供了丰富的分析功能帮助理解HBM故障的特征和模式错误特征分析analyses/error_mode.py- 错误模式分析analyses/time_between_error.py- 错误时间间隔分析analyses/spatial_locality.py- 空间局部性分析环境因素影响分析analyses/power_impact.py- 功耗对错误的影响analyses/avg_temp_distribution.py- 平均温度分布analyses/max_temp_distribution.py- 最高温度分布analyses/structure_impact.py- 结构影响分析特殊现象研究analyses/ce_storm_machine.py- CE风暴机器分析analyses/dataset_analyze.py- 数据集综合分析 预测器配置与优化模型选择与参数调优项目支持多种机器学习模型的比较和优化prediction/diff_model.py- 不同模型的性能对比prediction/diff_observation_window.py- 观察窗口大小的影响prediction/diff_prediction_window.py- 预测窗口大小的优化最佳实践配置基于实验结果HBM Predictor推荐以下配置行级预测器使用阈值0.55的随机森林模型列级预测器使用阈值0.6的随机森林模型Bank级预测器使用阈值0.55的随机森林模型服务器级预测器使用阈值0.6的随机森林模型 实际应用场景数据中心运维HBM Predictor可以帮助数据中心运维团队提前预测HBM故障避免系统宕机优化维护计划减少非计划停机时间识别高风险服务器优先进行维护AI训练平台对于依赖GPU集群的AI训练平台预测HBM故障保护训练进度优化资源调度避免训练中断降低硬件维护成本硬件制造商硬件制造商可以使用HBM Predictor验证HBM设计的可靠性识别设计缺陷和改进方向提供更好的产品支持和保修服务 技术架构详解分层预测架构HBM Predictor采用分层预测架构从粗粒度到细粒度逐步精确定位故障服务器级筛选识别高风险服务器Bank级定位在服务器内定位问题Bank行列级精确定位在Bank内精确定位故障行列特征提取流程原始数据清洗处理缺失值和异常值特征工程提取功率、温度、错误统计等特征特征标准化归一化处理提高模型稳定性标签生成基于历史数据生成训练标签机器学习模型项目主要使用随机森林Random Forest算法具有以下优势处理高维特征能力强对异常值鲁棒性好提供特征重要性分析支持概率预测输出 快速开始教程第一步数据准备import numpy as np # 加载处理后的数据 data np.loadtxt(data/processed_data/data_for_row-level_prediction.csv, delimiter,, skiprows1, dtypestr) data data.astype(float) # 分离特征和标签 X data[:, :-1] # 特征 y data[:, -1] # 标签第二步模型训练from sklearn.ensemble import RandomForestClassifier # 创建随机森林分类器 rf_classifier RandomForestClassifier( n_estimators200, max_depth50, class_weightbalanced, criterionentropy, min_samples_leaf100, min_samples_split100 ) # 训练模型 rf_classifier.fit(X_train, y_train)第三步预测与评估# 预测概率 y_pred_prob rf_classifier.predict_proba(X_test) # 应用阈值 threshold 0.55 y_pred (y_pred_prob[:, 1] threshold).astype(int) # 计算性能指标 from sklearn.metrics import precision_score, recall_score, f1_score precision precision_score(y_test, y_pred) recall recall_score(y_test, y_pred) f1 f1_score(y_test, y_pred) 项目结构概览hbm-predictor/ ├── README.md # 中文说明文档 ├── README.en.md # 英文说明文档 ├── requirements.txt # Python依赖包列表 ├── data/ # 数据集目录 │ ├── processed_data/ # 处理后的特征数据 │ └── raw_data/ # 原始错误数据 ├── analyses/ # 分析脚本目录 │ ├── error_mode.py │ ├── power_impact.py │ └── ...共9个分析脚本 ├── prediction/ # 预测脚本目录 │ ├── prediction_performance.py │ ├── diff_model.py │ └── ...共4个预测脚本 ├── test/ # 测试脚本 └── license/ # 许可证文件 项目优势与特点1. 真实工业数据基于19个数据中心的真实HBM故障数据具有极高的实用价值。2. 分层预测架构从服务器级到行列级的精细预测满足不同粒度的需求。3. 非侵入式设计不需要修改硬件或操作系统部署简单方便。4. 开源开放代码和数据完全开源支持学术研究和工业应用。5. 高性能预测在多个层级上实现了高精度的故障预测。 未来发展方向HBM Predictor团队计划在未来版本中支持更多类型的HBM错误预测集成深度学习模型提高预测精度提供实时预测API接口开发图形化监控界面支持更多硬件平台和架构 社区贡献与支持如何贡献Fork项目仓库创建功能分支提交更改发起Pull Request问题反馈如果在使用过程中遇到问题可以通过以下方式反馈检查项目文档和示例查看已有的Issues提交新的Issue描述问题学术引用如果您在研究中使用了HBM Predictor的数据或代码请引用我们的论文inproceedings{298591, author {Ronglong Wu and Shuyue Zhou and Jiahao Lu and Zhirong Shen and Zikang Xu and Jiwu Shu and Kunlin Yang and Feilong Lin and Yiming Zhang}, title {Removing Obstacles before Breaking Through the Memory Wall: A Close Look at {HBM} Errors in the Field}, booktitle {2024 USENIX Annual Technical Conference (USENIX ATC 24)}, year {2024}, pages {851--867}, publisher {USENIX Association}, month jul } 总结HBM Predictor为高带宽内存故障预测提供了一个完整、可靠、易用的解决方案。无论你是数据中心运维工程师、AI平台开发者还是硬件研究人员这个框架都能帮助你更好地理解和预测HBM故障提高系统可靠性和运行效率。通过分层预测架构、丰富的特征工程和优化的机器学习模型HBM Predictor在多个预测层级上都展现了优秀的性能。项目的开源特性也为社区提供了宝贵的研究资源和实践参考。现在就开始使用HBM Predictor为你的HBM内存系统加上智能的故障预测保护吧【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考