一个人能做出什么开源项目？

📅 2026/7/2 7:46:22

前两天我在知乎刷到一个很有意思的问题“一个人能做出什么开源项目”看到这个问题我非常有感触因为今年我也做了一个开源项目不是那种awesome xxx或者skill类的项目深切地感受到了一个人做开源项目有多不容易即便是在有AI辅助的情况下仍然有诸多的阻碍需要开发者去克服。项目开源了2个多月目前在github获得了1.3K star。如果你也有做开源的打算不妨听听我的故事。一句话说明这个项目我做了一个开源实时数字人 Agent 框架只需要一张照片就可以生成一个能和你视频聊天的数字人。我知道很多人对“数字人”可能有点反感。但我这里说的数字人跟你想的可能会不太一样。缘起为什么想做实时数字人2026 年初迎来了 AI 视频生成大爆发当时我随手用小云雀生成了一段“蒂法”的视频我觉得效果非常惊艳。当时我心想要是有一天能够打破第四面墙和蒂法视频通话就好了。她能理解我生活的世界我也可以听她聊最终幻想设定之外的更多内容为此我还发了条朋友圈。开始动手事情的转机在 2 月份机缘巧合之下我发现了一个开源数字人模型——FlashTalk。这是一个音频驱动的数字人模型这个模型最吸引人的地方是它做到了比主流数字人模型更好的效果同时还能够进行实时推理。但这是有代价的想要做到实时推理需要 5 块 H200 显卡。巧的是我当时恰好有一个能借到 H200 显卡的朋友。于是乎我花了一段时间去研究这个模型我逐渐意识到我的愿望说不定真的能实现。朋友的显卡终归是要还的正在我苦于没有显卡可用时开源界又丢出了一个新的模型——FlashHead还是 FlashTalk 团队出品这是一个 1.3B 的模型这次不需要专业级显卡了5090 就能跑。虽然效果比不上 FlashTalk但是我终于玩得起了。于是乎我开始动手在 FlashHead 之上去构建一个应用。这个项目最核心的功能就是实现全双工端到端的实时视频通话。我在这个核心玩法的基础上拓展了其他一些更方便使用的功能例如好看的 UI 界面、角色管理、角色定义并且采用模块化设计数字人底座、TTS、ASR、LLM 全部采用插件化方式实现这样方便用户去定制一个数字人形象。然后是记忆模块如何让定制的角色更加生动、更加有个性、更有活人感推进从模型 Demo 做成完整应用经过将近 3 个月的迭代CyberVerse 现在已经集成了 FlashHead、LiveAct 这两个本地数字人模型以及百度曦灵、讯飞数字人。这四个模型是我目前能找到的开源和商用方案里效果最好的一批。同时CyberVerse 也集成了 OpenAI、千问、豆包等大模型作为数字人的耳朵、大脑和声音。受到 OpenClaw 和 Hermes Agent 的启发我开始尝试将数字人与 Agent 结合起来。这样数字人就不仅仅是一个只会陪你聊天的纸片人更是能够帮你干活的小帮手。在整个 Agent 的架构设计上我采用了主 Agent SubAgent 的两层设计。主 Agent 负责响应用户SubAgent 负责去做更复杂的一些任务。目前我采用了 pi Agent 作为 SubAgent 的核心我喜欢 pi Agent 的简洁性和高扩展性。最近我又加上了离线视频生成功能让 CyberVerse 更像一个一站式数字人工作台角色选择、角色编辑、离线生成和实时通话放在同一个系统里。只需要一张参考图就可以创建自己的角色如果不想要数字人形象也可以关闭数字人模块把它当作纯语音 Agent 使用。我一个人把它做到了什么程度角色选择进入 CyberVerse 后可以看到一个角色库。每张卡片对应一个数字人角色。注这里的角色仅用于 Demo 演示不会随 CyberVerse 内置提供也不用于商业用途。角色编辑角色编辑页可以设置形象来源、角色名称、角色描述、语音模型、人设风格等。Workspace / 离线生成CyberVerse 支持离线视频生成方便用户生成一些口播视频。离线视频生成最大的好处是不用考虑实时性这样就可以生成更高画质的视频支持文本驱动和语音驱动。实时通话最后的最后就是这个项目最重要的功能了——实时视频通话这个部分花了很多精力处理 WebRTC、音画同步、待机视频与说话片段衔接以及主 Agent 与 SubAgent 的协调。一个人做开源的真实体感项目更新了 2 个多月了基本是我一个人在做收到了社区贡献的 2 个 PR。一个人做项目是一种什么体验呢就像一个人安静地弹一首钢琴曲偶尔有人路过驻足观看一下也不用着急去演下一首一切从心。有时候我也挺想有人跟我一起开发每次发推文都说欢迎大家提 PR、提 issue现在我已不再说这句话就这么慢慢悠悠地一个人开发也挺好的。定个小目标吧把这个项目坚持更新一年。项目地址我放在评论区了有需要的朋友自取。

新闻详情

相关阅读

Coding Agent 规则管理：CLAUDE.md、Skills、Hooks、Subagents 到底怎么选？

浅谈CNAS/CMA软件实验室测试质量体系建设中的设备配置与设备管理

大模型应用开发学习路线：小白也能轻松掌握的AI转型指南（收藏必备！）

抖音无水印下载终极指南：三步解锁高清视频批量保存的完整方案

LTC6904与PIC18F45K22实现高精度可编程时钟源方案

掌握抖音无水印下载：构建高效批量下载工具的完整方案

企业 AI 智能体落地：数据、趋势与判断

构建AI浏览器自动化质量评估体系：从意图理解到生产部署

抖音音频提取神器：免费下载抖音热门背景音乐的全新指南

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！