hpcpilot错误排查手册:常见问题与解决方案大全

📅 2026/7/2 21:00:15
hpcpilot错误排查手册:常见问题与解决方案大全
hpcpilot错误排查手册常见问题与解决方案大全【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot前往项目官网免费下载https://ar.openeuler.org/ar/hpcpilot是openEuler社区推出的HPC交付工具集合涵盖系统配置、节点检查、性能测试和第三方服务安装等核心功能。本手册将帮助新手用户快速定位并解决使用过程中遇到的常见错误让HPC环境部署更顺畅。一、文件配置类错误1.1 关键配置文件缺失错误表现[${base_directory}/hostname.csv] file does not exist[${base_directory}/setting.ini] file does not exist[${base_directory}/users.json] file does not exist解决方案检查项目根目录下是否存在这些必要配置文件从模板文件复制并修改cp hpc_script/hostname.csv.template hpc_script/hostname.csv cp hpc_script/setting.ini.template hpc_script/setting.ini cp hpc_script/users.json.template hpc_script/users.json按照官方文档要求填写正确配置信息1.2 JSON文件解析错误错误表现Jq parsing ${users_json_file} error, checking configuration is correct解决方案安装jq工具yum install -y jq使用jq验证JSON格式jq . hpc_script/users.json修复JSON格式错误确保键值对使用双引号数组和对象结构正确二、依赖包管理错误2.1 Jq依赖缺失错误表现Jq dependency package doesnt exist, couldnt install jq解决方案检查yum源配置是否正确执行安装命令yum install -y jq若官方源无此包添加EPEL源后重试2.2 GCC-C依赖缺失错误表现gcc-c dependency package doesnt exist, couldnt install cuda_toolkit driver解决方案安装开发工具集yum groupinstall -y Development Tools单独安装gcc-cyum install -y gcc-c验证安装g --version三、服务安装类错误3.1 LDAP服务安装失败错误表现Failed to install the LDAP serviceBasic configuration of OpenLDAP is failedSlapd service is running abnormally解决方案检查防火墙状态systemctl status firewalld必要时关闭防火墙验证端口占用情况netstat -tulpn | grep 389查看详细日志journalctl -u slapd重新安装LDAP服务hpc_script/service_script/install_ldap_server.sh3.2 NFS服务配置错误错误表现Ip address of share storage is not configuredNFS server [${share_nfs_ip}] is not configured解决方案在setting.ini中正确配置共享存储IPshare_nfs_ip192.168.1.100验证NFS服务器可达性ping ${share_nfs_ip}检查NFS共享目录配置showmount -e ${share_nfs_ip}重新执行NFS配置脚本hpc_script/basic_script/cas_nfs.sh四、权限与环境类错误4.1 脚本执行权限不足错误表现脚本无法执行或提示权限被拒绝解决方案为所有脚本添加执行权限chmod x hpc_script/**/*.sh确保以root用户执行sudo su -检查SELinux状态getenforce必要时临时关闭setenforce 04.2 节点类型不匹配错误表现Current script needs to be executed on the om node, system exit解决方案确认当前节点角色cat /etc/hostname参考hostname.csv文件确保在正确的节点上执行对应脚本OM节点负责总体配置计算节点执行具体任务五、性能测试类错误5.1 HPL编译失败错误表现编译HPL时提示缺少MPI或数学库解决方案确保已安装HMPImodule load hmpi检查环境变量设置echo $LD_LIBRARY_PATH重新编译HPLhpc_script/benchmark_script/compile_hpl.sh查看编译日志cat hpc_script/benchmark_script/hpl_compile.log5.2 OSU测试执行错误错误表现MPI通信测试失败解决方案验证MPI环境mpirun --version检查网络配置确保节点间通信正常重新编译OSU测试hpc_script/benchmark_script/compile_osu.sh从简单测试开始mpirun -np 2 osu_bw六、错误排查工具与技巧6.1 日志查看方法hpcpilot的所有脚本都提供详细日志输出建议执行脚本时保存日志hpc_script/basic_script/auto_init_script.sh init.log 21关键日志位置系统日志/var/log/messages服务日志/var/log/hpcpilot/脚本执行日志各脚本目录下的*.log文件6.2 系统状态检查常用系统检查命令服务状态systemctl status slapd nfs chronyd网络状态ip addr和ping磁盘空间df -h内存使用free -m6.3 配置验证工具使用项目提供的检查脚本进行配置验证hpc_script/basic_script/auto_check_script.sh该脚本会自动检查必要文件是否存在依赖包是否安装网络配置是否正确服务状态是否正常通过本手册提供的解决方案大多数hpcpilot使用过程中的常见错误都能得到快速解决。如果遇到复杂问题建议先查看对应脚本的详细日志或在社区寻求帮助。记住排查错误的关键是耐心和细致逐步缩小问题范围定位根本原因。【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考