跳转到内容

Ollama - 开源琅嬛阁

精选

ollama/ollama

Get up and running with Kimi-K2.6, GLM-5.1, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.

3.5k
174,528
16.7k
github.com · ollama/ollama

项目介绍

Ollama 是在本机运行大语言模型的实用工具,提供命令行、后台服务和 OpenAI 兼容 API。它把模型下载、启动和调用压缩到很少的命令里,常被用作 Open WebUI、编辑器插件和自研 AI 应用的本地模型底座。

核心特性

  • 一条命令拉取并运行主流开源模型(Llama、Qwen、DeepSeek、Gemma 等)
  • 提供本地 HTTP API,便于应用与脚本集成
  • 支持 macOS、Windows、Linux 与 Docker 部署
  • 模型与版本管理简单,适合频繁切换与试验
  • 生态包含 Python、JavaScript 等官方客户端库

对用户价值

对开发者而言,Ollama 提供稳定的本地模型服务入口,可被聊天界面、编码助手或原型应用直接调用。对普通用户而言,它让「在自己电脑上跑模型」变得可理解、可重复,而不必手动处理权重文件与推理框架。

与替代方案

  • 相比 LM Studio 等图形化工具,Ollama 更偏命令行与 API,适合集成到自动化流程。
  • 相比直接调用 llama.cpp,Ollama 封装了模型管理与分发,上手更快。
  • 若需要多卡集群或极致吞吐,应评估 vLLM、TGI 等服务端方案。

适应人群

  • 想尝试本地大模型的个人用户。
  • 需要本地模型 API 的开发者。
  • 构建自托管 AI 工具链的团队。

如何使用

前置条件

  • 根据目标模型准备足够内存或显存(7B 模型通常需 8GB+ 内存)。
  • macOS / Windows / Linux 任一受支持平台,或已安装 Docker。

安装方式

ollama.com 下载对应平台安装包,或使用 Docker:

Terminal window
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

首次运行

Terminal window
ollama run llama3.2

首次执行会自动拉取模型权重,完成后即可在终端对话或通过 API 调用。

验证是否成功

在另一终端执行 ollama list 确认模型已安装,或访问 http://localhost:11434 检查服务是否响应。

常见坑 / 注意事项

  • 大模型对内存/显存敏感,选错规格会导致极慢或 OOM。
  • 企业环境注意模型许可证与数据出境策略。
  • API 默认监听本机,对外暴露时需自行加固网络与访问控制。