FluidVoice:开源语音转文本应用,设备端 AI 增强带来极速听写体验!

📅 2026/6/30 16:29:24
FluidVoice:开源语音转文本应用,设备端 AI 增强带来极速听写体验!
FluidVoice适用于 macOS 的开源语音转文本听写应用FluidVoice 是一款专为 macOS 设计的开源语音转文本听写应用具备设备端 AI 增强功能。可通过 Homebrew 安装brew install --cask fluidvoice也能手动下载最新版本。重要提示本项目基于 GPLv3 协议完全免费且开源。若 FluidVoice 对你有帮助给项目仓库点个星有助于提高项目可见度推动开发工作持续进行。支持 FluidVoice若 FluidVoice 对你有帮助可在 GitHub Sponsors 上支持项目的持续开发以及未来 iOS 和 Windows 平台的适配工作。1.6.0 版本新特性**极速 Parakeet**重新构建了 Parakeet 实现语音输入与屏幕显示文字之间几乎零延迟。**Fluid Intelligence**采用完全本地化的 AI 模型用于设备端听写增强。无需云端服务、API 密钥数据不会离开 Mac。**优化主题**自适应亮/暗主题配备紧凑的工具栏切换器。**全新引导流程**以语言优先的语音引擎设置、真实听写试用和 AI 增强设置一步完成。警告根据早期反馈Fluid Intelligence 可能会让你放弃其他听写应用从而节省开支。Fluid IntelligenceFluidVoice 基于 GPLv3 协议完全开源。Fluid Intelligence 是独立的、由官方维护的本地 AI 运行时为设备端高级听写增强提供支持包括智能格式设置、上下文感知大小写和后处理等功能都在 Mac 本地运行。该应用搭配任何支持的语音模型和可选的云端 AI 提供商都能出色工作。Fluid Intelligence 为希望不将数据发送到任何地方的用户增加了完全本地、私密的 AI 层。目前将 Fluid Intelligence 设为私有以便持续免费提供核心听写体验未来可能改变。功能展示**命令模式演示**通过 FluidVoice 对 Mac 执行任何操作。[FluidVoice_1.5_cmd_mode.mp4](FluidVoice_1.5_cmd_mode.mp4)**写作模式**在任何应用的文本框中直接撰写或重写文本。[writemode_FluidVoice_1.5.mp4](writemode_FluidVoice_1.5.mp4)主要特性**Fluid Intelligence**设备端 AI 增强实现智能格式设置、上下文感知大小写和后处理操作均在本地 Mac 上运行数据不离开设备。**命令模式**通过语音控制 Mac如启动应用、运行快捷方式、触发系统操作和自动化工作流程无需键盘。**写作模式**在任何应用的文本字段中直接撰写或重写文本可选择文本重写或直接听写新内容。**实时预览**支持缺口屏的实时转录覆盖层说话时能看到文字实时出现。**多种语音模型**包括 Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3 v2、Cohere Transcribe、Apple Speech 和 Whisper。可根据语言和延迟需求选择合适模型。**AI 增强**可通过 OpenAI、Groq、自定义提供商或本地 Fluid Intelligence 进行可选后处理使转录结果更清晰、准确。**音频历史记录**可选的本地录音历史记录支持预算控制和 ZIP 导出无需云存储即可回顾过去的听写内容。**今日使用统计**通过统计信息标题卡片和工具栏药丸图标查看每日使用情况。**自适应主题**亮/暗主题随系统设置自动切换配备紧凑的工具栏切换器。**全局热键**随时随地一键启动语音捕捉无需切换应用。**智能输入**通过辅助功能 API 直接插入到任何应用中实现可靠的、与应用无关的文本输入。**菜单栏集成**从菜单栏快速访问、查看状态和进行设置。**自动更新**无缝更新可选加入测试版频道提前预览新功能。**应用特定配置**为不同应用分配不同的提示集使听写内容适应正在使用的应用。此功能可选。**适配缺口屏覆盖层**转录覆盖层可适配 MacBook 的缺口屏无缺口屏也可使用标准覆盖层。**本地优先**除非选择使用云端 AI 提供商否则语音和文本不离开设备。**Mac 上最快的 Parakeet**Parakeet 在 macOS 上的最快原生实现之一转录几乎即时完成延迟极低。**可配置覆盖层**可选择药丸形状到大型覆盖层大小显示实时预览也可选择极简模式。设置均可选。**一切可选**AI 增强、Fluid Intelligence、音频历史记录、分析和测试版构建均可选。核心听写体验无需配置授予权限和设置热键即可使用。支持的模型模型适用场景语言支持下载大小硬件要求Nemotron Speech 3.5超快速、低延迟、支持流式传输的多语言听写约 40 种语言约 670 MBApple SiliconNemotron 3.5 多语言高精度多语言听写约 40 种语言约 530 MBApple SiliconParakeet Flash测试版最低延迟的实时英语听写英语约 250 MBApple SiliconParakeet TDT v3快速默认多语言听写25 种语言约 500 MBApple SiliconParakeet TDT v2最快的纯英语听写英语约 500 MBApple SiliconCohere Transcribe高精度多语言听写14 种语言约 1.4 GBApple SiliconApple Speech零下载的原生 macOS 语音识别系统语言内置Apple Silicon IntelWhisper Tiny / Base / Small / Medium / Large广泛兼容包括 Intel Mac99 种语言约 75 MB 到约 2.9 GBApple Silicon IntelParakeet TDT v3 支持的语言保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语和乌克兰语。Parakeet TDT v2 支持的语言英语。Cohere Transcribe 支持的语言英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、普通话、日语、韩语、越南语和阿拉伯语。Apple Speech 支持的语言系统语言支持取决于 Mac 上可用的 macOS 语音识别语言。Whisper 语言支持Whisper 支持多达 99 种语言具体取决于选择的模型大小。快速开始**安装**通过 Homebrew 安装brew install --cask fluidvoice或下载最新版本。**授予权限**FluidVoice 会请求麦克风和辅助功能访问权限这两项对于听写和在其他应用中输入文本都是必需的。**设置热键**在设置中选择一个全局热键以便随时随地启动语音捕捉。**完成引导流程**根据语言和延迟需求选择语音模型模型范围从无需下载的 Apple Speech 到高精度的 Nemotron 和 Whisper。**可选启用 Fluid Intelligence**在引导流程中下载本地 AI 模型实现设备端听写增强。所有操作均在本地运行数据不会离开 Mac。**可选使用自定义 AI 提供商**添加 OpenAI、Groq 或自定义提供商的 API 密钥实现基于云端的增强。密钥安全存储在 macOS Keychain 中选择“始终允许”以访问密钥。**可选加入测试版**在“设置”→“自动更新”→“测试版发布”中选择加入提前体验新功能。系统要求macOS 15.0Sequoia或更高版本所有模型均需 Apple Silicon Mac从 1.5.1 版本开始Intel Mac 可通过 Whisper 模型支持约 1 GB 磁盘空间用于语音模型约 3.5 GB 磁盘空间用于 Fluid Intelligence 模型可选麦克风访问权限输入文本所需的辅助功能权限从源代码构建git clone https://github.com/altic-dev/FluidVoice.gitcd FluidVoiceopen Fluid.xcodeproj在 Xcode 中构建并运行。所有依赖项均通过 Swift Package Manager 管理。仅构建无需签名xcodebuild -project Fluid.xcodeproj -scheme Fluid -destination platformmacOS build CODE_SIGNING_ALLOWEDNO贡献代码欢迎贡献代码在提交拉取请求之前请先创建一个问题讨论重大更改。开发设置按照上述步骤克隆并在 Xcode 中打开项目。签名设置FluidVoice → Signing Capabilities → Automatically manage signing → 选择你的团队个人团队即可。设置存储在 xcuserdata/已在 .gitignore 中忽略。构建并运行SPM 会处理依赖项。可选预提交钩子防止意外提交团队 IDcp scripts/check-team-id.sh .git/hooks/pre-commitchmod x .git/hooks/pre-commit拉取请求指南每个 PR 只包含一个功能或修复保持更改的聚焦和原子性。先创建一个问题以便在审查前跟踪工作进度。在打开 PR 之前讨论非平凡的更改。遵循 PR 模板。在机器上进行彻底测试。切勿提交个人团队 ID 或 API 密钥。提交前检查 git diff。运行集成测试xcodebuild test -project Fluid.xcodeproj -scheme Fluid -destination platformmacOSCI 使用无签名构建xcodebuild test -project Fluid.xcodeproj -scheme Fluid -destination platformmacOS CODE_SIGNING_REQUIREDNO CODE_SIGNING_ALLOWEDNO隐私与分析FluidVoice 以本地优先为原则。除非明确选择使用云端 AI 提供商否则语音、音频和转录文本不会离开设备。收集内容可选默认启用匿名分析用于跟踪应用健康状况和功能使用情况。可随时在“设置”→“共享匿名分析”中禁用。收集的信息包括应用版本、构建版本、macOS 版本、低基数功能/配置标志如应用模式、主要设置、大致使用范围非精确值、高级成功/错误结果。不收集内容语音、原始音频或转录文本、选定文本、提示或 AI 响应、终端命令、窗口标题、文件路径、剪贴板或输入内容、任何个人或私人信息。社区加入 Discord在 X 上关注开发动态许可证从 2026 年 2 月 23 日起本项目采用 GNU 通用公共许可证 3.0 版GPLv3许可。在此日期之前发布的版本采用 Apache 许可证 2.0 版许可。那么FluidVoice 能否满足你的语音转文本需求呢