以下就是macbook系统中,利用 Ollama + AnythingLLM + DeepSeek 本地部署智能私有问答知识库 指南:
一、安装 Ollama(本地模型运行框架)
- 下载与安装
- 访问 Ollama 官网,下载 macOS 安装包(支持 M1/M2/M3 芯片)。
- 双击安装包,将 Ollama 拖入
Applications
文件夹。首次运行时若提示“无法验证开发者”,需在 系统设置 → 隐私与安全性 → 安全性 中允许运行。
- 验证安装
- 终端输入
ollama -v
,若显示版本号(如ollama version 0.1.20
)则成功。
- 终端输入
- 配置网络
launchctl setenv OLLAMA_HOST "127.0.0.1" # 仅允许本地访问
launchctl setenv OLLAMA_PORT "11434" # 建议保持默认端口
- 配置防火墙规则(关键)
macOS 系统
# 添加防火墙规则(允许本地访问,禁止公网)
sudo pfctl -a com.apple/24 -f - <<EOF
block drop inet proto tcp from any to any port 11434
pass inet proto tcp from 127.0.0.1 to any port 11434
EOF
sudo pfctl -a com.apple/24 -e # 启用规则
验证规则
sudo pfctl -s rules | grep 11434
二、下载并运行 DeepSeek 模型
- 选择模型版本
- 硬件适配建议(根据 MacBook 配置选择):
- M1/M2 入门款(16GB 内存):
deepseek-r1:1.5b
(1.1GB) - M2 Pro/Max(32GB 内存):
deepseek-r1:7b
(5GB) - M2 Ultra(64GB 内存):
deepseek-r1:14b
(12GB)。
- M1/M2 入门款(16GB 内存):
- 硬件适配建议(根据 MacBook 配置选择):
- 下载模型
- 终端执行命令(以 7B 版本为例):
- ollama中的deepseek-r1模型都是蒸馏版本,7B官网模型大小显示为 4.7GB
ollama pull deepseek-r1:7b --quantize q4_k_m #量化下载,使模型精度偏低,但是内存与硬盘占用量更小了
ollama run deepseek-r1:7b # 直接运行
首次运行会自动下载模型,耗时约 10-30 分钟(受网络影响)。
- 常用操作
- 启动模型:
ollama run deepseek-r1:7b
- 停止服务:
ollama stop deepseek-r1:7b
- 查看模型列表:
ollama list
。
- 启动模型:
三、部署 AnythingLLM(可视化交互与知识库)
-
下载与安装
- 访问 [ AnythingLLM 官网](https://anythingllm.com i), 下载 macOS 安装包并解压。
-
配置模型连接
- 打开 AnythingLLM,创建新工作区(Workspace)。
- 设置模型提供者:选择 Ollama,输入 API 地址
http://localhost:11434
。 - 选择模型:在下拉菜单中选择已下载的 DeepSeek 模型(如
deepseek-r1:7b
)。

- 上传文档:支持 PDF、TXT、DOCX 等格式。
- 设置向量数据库:默认使用 LanceDB(需确保本地存储路径可写)。
- 提问时,模型会结合本地文档生成回答。
四、性能优化与常见问题
- GPU 加速(仅限支持 Metal 的 Mac)
OLLAMA GPU LAYER=metal ollama run deepseek-r1:7b # 启用 Metal 加速
- 内存不足问题
- 降低模型版本(如从 14B 切换为 7B)。
- 关闭后台占用内存的程序。
- 模型下载失败
- 使用镜像源加速:
OLLAMA_MODELS=https://mirror.ghproxy.com ollama pull deepseek-r1:7b
五、完整部署架构
Ollama(模型管理) → DeepSeek(核心模型) → AnythingLLM(交互界面+知识库)
通过此架构,用户可在 MacBook 上实现本地私有化部署,保障数据安全,同时支持多模态输入与实时对话。
上面部署好了,可以再组合对接电脑与手机上Siri进行语音回答哦,Siri 接入 DeepSeek 指南
注意事项:
- 模型文件较大(7B 版本约 5GB),需预留充足存储空间。
- 若需远程访问,需配置防火墙规则开放
11434
端口。 - 更多高级功能(如流式响应、API 集成)可参考 Ollama 的 Python SDK 文档。