10 分钟搭好语音 AI Agent,LiveKit 凭什么成为 OpenAI 的基建选择

📅 2026/6/23 12:19:42
10 分钟搭好语音 AI Agent,LiveKit 凭什么成为 OpenAI 的基建选择
你有没有遇到过这个问题想给自己的 AI 产品加上语音对话结果发现光是处理音频流、管理 WebRTC 连接、接 STT、接 LLM、接 TTS 就已经让你焦头烂额还没开始写业务逻辑架构就已经乱成一锅粥。LiveKit 解决的正是这个问题。它给你一整套从实时媒体传输到 AI 模型调用的完整 pipeline让你专注在Agent 应该怎么说话、怎么反应而不是怎么把音频从 A 传到 B。LiveKit 是什么从 WebRTC 基建到 AI Agent 平台LiveKit 成立于 2021 年最初是一个高性能的开源 WebRTC 媒体服务器用 Go 编写在 GitHub 上已累计超过 19,000 star。它的核心livekit/livekit仓库处理音视频的实时传输、房间管理、SFUSelective Forwarding Unit路由等底层逻辑。2023 年之后AI 浪潮改变了它的方向。LiveKit 推出了livekit/agents框架11,000 star将自己从一个媒体服务器升级成了完整的 AI Agent 开发平台支持语音、视频和机器人三个方向。它的商业版 LiveKit Cloud 目前每年处理超过 25 亿次通话覆盖全球 18 个地区节点SOC 2 Type 2、HIPAA、GDPR 全部合规。客户名单里有 OpenAIChatGPT Advanced Voice 就跑在上面、xAI、Salesforce、Skydio 等。核心架构STT-LLM-TTS 三段流水线LiveKit Agents 的语音 AI 工作原理可以用一张图概括用户说话语音流通过 WebRTC 传到 AgentAgent 经过三个环节处理后把合成的语音回传给用户。用户麦克风 - WebRTC 流 - STT语音转文字- LLM推理决策- TTS文字转语音- 用户耳机三个环节都是可以自由替换的插件STT 支持 Deepgram、AssemblyAI、ElevenLabs Scribe 等LLM 支持 OpenAI GPT 系列、Google Gemini、xAI Grok、DeepSeek 等TTS 支持 Cartesia、ElevenLabs、Deepgram Aura 等。除了链式 pipelineLiveKit 还支持直接对接 OpenAI Realtime API 这种 speech-to-speech 的一体化模型。框架还内置了端点检测Turn Detection和打断处理Interruption Handling这两个细节决定了对话体验的自然程度是自己用 WebSocket 搭一套通常会踩坑最久的地方。10 分钟上手Python 快速集成先安装 LiveKit CLI它会帮你初始化项目、配置凭证、连接云端# macOSbrewinstalllivekit-cli# Linuxcurl-sSLhttps://get.livekit.io/cli|bash# 登录并关联你的 LiveKit Cloud 项目lk cloud auth然后一条命令创建 Python Agent 项目模板lk agent init my-agent--templateagent-starter-pythoncdmy-agent uvsyncuv run--modulelivekit.agents download-files模板生成的agent.py核心代码非常简洁业务逻辑全在instructions里fromlivekitimportagentsfromlivekit.agentsimportAgentServer,AgentSession,Agent,inferenceclassAssistant(Agent):def__init__(self)-None:super().__init__(instructions你是一个专业的客服助手。 回答简洁不要使用 Markdown 格式或 emoji。)serverAgentServer()server.rtc_session(agent_namemy-agent)asyncdefmy_agent(ctx:agents.JobContext):sessionAgentSession(# STT: 语音转文字sttinference.STT(modeldeepgram/nova-3,languagemulti),# LLM: 语言推理llminference.LLM(modelopenai/chat-latest),# TTS: 文字转语音ttsinference.TTS(modelcartesia/sonic-3),)awaitsession.start(roomctx.room,agentAssistant())awaitsession.generate_reply(instructions用中文问候用户并询问需要什么帮助。)if__name____main__:agents.cli.run_app(server)本地启动开发模式直接在终端就能和 Agent 说话# 开发模式支持热重载uv run src/agent.py dev# 部署到 LiveKit Cloudlk agent create如果你更偏向 Node.jsLiveKit 同样提供完整的 TypeScript SDK 和 starter 模板API 设计与 Python 版本几乎对称切换成本很低。后端生成 TokenPython 签发接口前端连接 LiveKit 需要一个 JWT Token必须由后端用 API Secret 签发绝对不能在前端生成否则会暴露密钥。安装服务端 SDKpipinstalllivekit-api fastapi uvicorn用 FastAPI 暴露一个 token 接口和之前的 Agent 共用同一套环境变量importos,timefromfastapiimportFastAPIfromlivekit.apiimportAccessToken,VideoGrants appFastAPI()app.get(/api/token)defget_token(room:strmy-room):token(AccessToken(api_keyos.environ[LIVEKIT_API_KEY],api_secretos.environ[LIVEKIT_API_SECRET],).with_identity(fuser-{int(time.time())}).with_grants(VideoGrants(room_joinTrue,roomroom)))return{token:token.to_jwt()}启动服务uvicorn main:app--reloadAgent 和 token 接口共用.env.local里的三个变量无需额外配置LIVEKIT_URLwss://your-project.livekit.cloudLIVEKIT_API_KEYyour_api_keyLIVEKIT_API_SECRETyour_api_secret前端接入Web SDK 接通 Agent前端调用上面的 token 接口拿到 JWT再通过 LiveKit Web SDK 接入。安装依赖npminstalllivekit/components-react livekit-clientuseVoiceAssistant()必须在LiveKitRoom的子组件内调用BarVisualizer是官方提供的音频波形组件两者配合就能实现带动画的对话 UIimport{useState,useEffect}fromreact;import{LiveKitRoom,RoomAudioRenderer,BarVisualizer,useVoiceAssistant}fromlivekit/components-react;// BarVisualizer 必须放在 LiveKitRoom 子组件内才能访问 Room contextfunctionAgentVisualizer(){const{state,audioTrack}useVoiceAssistant();returnBarVisualizer state{state}trackRef{audioTrack}/;}exportdefaultfunctionVoiceChat(){const[token,setToken]useStatestring();useEffect((){// 从后端获取 tokenroom 名与 Agent 一致fetch(/api/token?roommy-room).then(rr.json()).then(dsetToken(d.token));},[]);if(!token)returndivLoading.../div;return(LiveKitRoom serverUrl{process.env.NEXT_PUBLIC_LIVEKIT_URL}token{token}connect{true}RoomAudioRenderer/AgentVisualizer//LiveKitRoom);}前端和 Agent 加入同一个room这里是my-room连接建立后 Agent 会自动接管音频流整个 pipeline 就跑通了。除了 WebLiveKit 还提供 iOS、Android、Flutter、Unity 的原生 SDK以及 SIP/电话集成让你的 Agent 真正能接打电话。竞品横向对比选 LiveKit 还是别的做实时音视频 AI市面上绕不开以下几个选择维度LiveKitDaily.coAgoraTwilio定位AI Agent 平台 实时媒体视频通话 API实时音视频 SDK通信平台开源完全开源 Apache 2.0闭源SDK 部分开源闭源AI Agent 框架原生pipeline 内置Pipecat 集成Conversational AI SDK无原生框架模型生态30 模型依赖第三方OpenAI、Azure 为主需自行对接自托管支持不支持支持私有化不支持电话/SIP内置需额外配置支持原生最强免费额度1,000 分钟/月有限按并发峰值按分钟计费适合场景AI 语音 Agent、实时对话视频会议、在线教育直播互动、游戏语音呼叫中心、企业通信简单说如果你要构建的是 AI 语音助手、电话机器人、实时对话产品LiveKit 是当下生态最完整、开发体验最好的选择。Agora 在国内的延迟表现更好如果用户主要在中国大陆Agora 的网络基建更有优势。Twilio 的电话能力最强但 AI Agent 部分需要大量自行搭建。定价与选型建议LiveKit Cloud 的免费套餐Build 计划包含每月 1,000 分钟 Agent 会话、2.5 美元推理额度、1 个免费电话号码不需要信用卡足够个人项目和原型验证使用。语音 Agent 的综合成本约为每分钟 0.07 美元含 Agent session、WebRTC、STT、LLM、TTS、可观测性这个价格在同类产品中属于中等水平。Ship 计划每月 50 美元起适合正式上线的小团队Scale 计划每月 500 美元起提供 HIPAA 合规、Region Pinning 和推理折扣。对于想要完全控制成本和数据的团队LiveKit 的开源服务器livekit/livekit可以自托管Agents 框架也完全支持自行对接任意模型 API不依赖 LiveKit Cloud 的推理服务。真正的极客不会从零造轮子而是选对工具之后把时间花在真正有价值的地方。LiveKit 已经把实时音视频传输和 AI 模型接入这两件最繁琐的事情打包好了剩下的问题是你的 Agent 该说什么该怎么思考。那才是真正值得花时间的问题。仓库地址github.com/livekit/agents在线体验livekit.com有问题可以加官方 Slack 社区。我是 Yuguo软件设计师正在用 AI 重构自己的开发工作流。踩过的坑、跑通的方案、省下来的时间都记在绿泡泡Feed中。 一起把 AI 真正用起来。