sysHAX API使用指南:如何通过RESTful接口调用异构推理服务

📅 2026/6/30 17:23:07
sysHAX API使用指南:如何通过RESTful接口调用异构推理服务
sysHAX API使用指南如何通过RESTful接口调用异构推理服务【免费下载链接】sysHAXsysHAX Heterogeneous collaborative acceleration runtime项目地址: https://gitcode.com/openeuler/sysHAX前往项目官网免费下载https://ar.openeuler.org/ar/sysHAX是一个开源的异构协作加速运行时系统能够智能地在CPU和GPU之间分配AI推理任务实现资源的高效利用和推理性能的优化。本文将详细介绍如何通过RESTful API接口调用sysHAX的异构推理服务让您轻松掌握这一强大的AI推理加速工具。 sysHAX系统架构概览sysHAX采用微服务架构设计通过智能调度算法在CPU和GPU之间动态分配推理任务。系统架构如下图所示sysHAX异构加速架构从图中可以看到sysHAX包含以下核心组件核心引擎(Engine)负责整体系统的生命周期管理调度器(Scheduler)智能调度决策分配任务到合适设备任务执行器(Runner)向CPU或GPU服务发送请求并处理响应系统监控器(SystemMonitor)实时监控系统资源使用情况指标服务(MetricsService)收集和报告任务执行性能数据 API接口快速入门基础配置准备在使用sysHAX API之前您需要确保系统正确部署。配置文件位于config/config.example.yaml您需要根据实际环境进行配置services: gpu: host: 0.0.0.0 port: 7001 cpu: host: 0.0.0.0 port: 7002 conductor: host: 0.0.0.0 port: 7010sysHAX主服务默认运行在7010端口您可以通过该端口访问所有API接口。核心API接口sysHAX提供了简洁的RESTful API接口主要包含两个核心端点1. 聊天补全接口/v1/chat/completions这是sysHAX最主要的API接口支持流式和非流式两种响应模式请求示例非流式curl -X POST http://localhost:7010/v1/chat/completions \ -H Content-Type: application/json \ -d { messages: [ {role: user, content: 你好请介绍一下openEuler操作系统} ], model: qwen2.5-7b, max_tokens: 1000 }请求示例流式响应curl -X POST http://localhost:7010/v1/chat/completions \ -H Content-Type: application/json \ -d { messages: [ {role: user, content: 你好请介绍一下openEuler操作系统} ], model: qwen2.5-7b, max_tokens: 1000, stream: true }2. 通用转发接口/{full_path:path}sysHAX还提供了通用转发接口可以将未识别的请求自动转发到GPU服务sysHAX部署架构该接口支持所有HTTP方法GET、POST、PUT、DELETE、PATCH、OPTIONS确保与现有AI服务API的兼容性。 API参数详解请求参数说明参数名类型必填说明messagesarray是对话消息数组modelstring是模型名称max_tokensinteger否最大生成token数temperaturefloat否温度参数0-2top_pfloat否核心采样参数0-1streamboolean否是否启用流式响应响应格式非流式响应示例{ id: chatcmpl-123, object: chat.completion, created: 1677652288, model: qwen2.5-7b, choices: [{ index: 0, message: { role: assistant, content: openEuler是一个开源的Linux发行版... }, finish_reason: stop }], usage: { prompt_tokens: 9, completion_tokens: 12, total_tokens: 21 } }流式响应示例data: {id:chatcmpl-123,object:chat.completion.chunk,created:1677652288,model:qwen2.5-7b,choices:[{index:0,delta:{content:open},finish_reason:null}]} data: {id:chatcmpl-123,object:chat.completion.chunk,created:1677652288,model:qwen2.5-7b,choices:[{index:0,delta:{content:Euler},finish_reason:null}]} data: [DONE]⚡ 智能调度特性sysHAX的核心优势在于其智能调度能力。系统会根据以下因素自动选择最佳推理设备1. 资源监控与负载均衡系统实时监控CPU和GPU的资源使用情况包括CPU/GPU利用率内存使用情况当前并发任务数响应延迟指标CPU架构示意图2. 自动PD解耦功能sysHAX支持自动Prefill-Decode解耦功能可根据任务特性智能优化Prefill阶段通常分配至GPU进行并行计算Decode阶段根据负载情况智能分配到CPU或GPUGPU与CPU协同架构3. 动态调度策略调度器位于src/core/scheduler.py采用多种调度策略基于资源利用率的负载均衡基于任务优先级的队列管理基于历史性能的自适应调度️ 高级配置选项配置自动PD解耦在config/config.example.yaml中您可以配置自动PD解耦功能decider: # 是否开启自动PD offload auto_pd_offload: true # CPU最大并发量 cpu_max_batch_size: 20超时设置系统支持自定义请求超时时间system: # 请求超时时间(秒) request_timeout: 600 性能监控与指标sysHAX提供了丰富的性能监控指标帮助您优化推理服务关键性能指标请求延迟端到端响应时间吞吐量单位时间处理的请求数资源利用率CPU/GPU使用率错误率请求失败比例系统CPU信息监控接口系统监控器位于src/core/monitor.py实时收集以下指标系统级资源使用情况服务级性能数据任务级执行统计 故障排除指南常见问题及解决方案API请求超时检查配置文件中的超时设置确认后端服务正常运行检查网络连接状态调度决策异常验证系统监控数据准确性检查资源使用情况查看调度器日志性能下降优化batch size配置调整自动PD解耦参数监控资源瓶颈日志查看sysHAX的日志系统位于src/utils/logger.py支持多级别日志记录INFO常规操作日志WARNING警告信息ERROR错误信息DEBUG调试信息需手动开启 最佳实践建议1. 合理的batch size配置根据您的硬件配置调整cpu_max_batch_size参数平衡并发性能和资源使用。2. 启用自动PD解耦对于长文本生成任务建议启用自动PD解耦功能可以显著提升推理效率。3. 监控系统指标定期查看系统监控数据根据实际负载调整调度策略。4. 渐进式部署在生产环境中建议先在小规模流量上测试sysHAX的调度效果逐步扩大部署规模。 性能优化技巧1. 模型选择优化轻量级模型适合CPU推理复杂模型优先使用GPU根据任务特性选择合适模型2. 请求批处理合理设置请求批处理大小利用sysHAX的智能调度能力平衡延迟和吞吐量NPU与CPU协同架构3. 资源预留策略为关键任务预留资源设置合理的资源使用阈值实现弹性伸缩机制 快速开始示例步骤1安装sysHAX# 克隆仓库 git clone https://gitcode.com/openeuler/sysHAX # 进入项目目录 cd sysHAX # 安装依赖 pip install -r requirements.txt步骤2配置服务复制配置文件并修改cp config/config.example.yaml config/config.yaml # 编辑config.yaml配置您的GPU和CPU服务地址步骤3启动sysHAXpython main.py步骤4测试API接口使用curl或Postman测试API接口# 测试聊天接口 curl -X POST http://localhost:7010/v1/chat/completions \ -H Content-Type: application/json \ -d {messages:[{role:user,content:Hello}],model:test-model} 总结sysHAX通过其智能的异构协作加速能力为AI推理服务提供了强大的性能优化方案。通过本文介绍的RESTful API接口您可以轻松地将sysHAX集成到现有的AI服务架构中享受自动化的资源调度和性能优化。无论您是AI服务开发者、系统管理员还是运维工程师掌握sysHAX API的使用都将帮助您构建更高效、更可靠的AI推理服务平台。现在就开始使用sysHAX体验智能异构加速带来的性能提升吧【免费下载链接】sysHAXsysHAX Heterogeneous collaborative acceleration runtime项目地址: https://gitcode.com/openeuler/sysHAX创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考