使用 ollama (一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM))搭建,主要是硬件方面要求,ollama 部署模型十分便捷,不光可以单单部署deepseek,包括qwen2.5、Liama3.3等
ollama可以分两种部署 第一是本地宿主机部署 第二是docker部署
硬件方面:自个搭着玩玩,用最小的轻量模型就可以 比如:DeepSeek-R1-1.5B
ollama模型的存储目录
默认情况下,ollama模型的存储目录如下:
macOS:~/.ollama/models
Linux:/usr/share/ollama/.ollama/models
Windows:C:Users<username>.ollama/models
根据自个本机系统,选择下载的包
如果是linux或ubuntu
下载很慢,可使用脚本下载:如下
1.下载ollama_install.sh并保存
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
2.使用github文件加速替换github下载地址(当前是v0.5.7 可以修改为最新版本)
sed -i 's|https://ollama.com/download/ollama-linux|https://gh.llkk.cc/https://github.com/ollama/ollama/releases/download/v0.5.7/ollama-linux|g' ollama_install.sh
3.替换后增加可执行权限
chmod +x ollama_install.sh
4.执行sh下载安装
sh ollama_install.sh
安装ollam 完毕之后
黑窗口输入:
ollama --version
如果输出版本号(例如ollama version is 0.5.7
),则说明安装成功
1、拉取模型 ollama pull xxxx 如:拉取deepseek-r1:7b
ollama pull deepseek-r1:7b
2.运行
ollama run deepseek-r1:7b
注意:Ollama 没有用户界面,在后台运行,并且绑定的本地网络ip 127.0.0.1 本地打开浏览器,输入 “http://localhost:11434/”,显示 “Ollama is running”。
Ollama 使用常见的指令:
ollama serve #启动ollama
ollama create #从模型文件创建模型ollama ps #查看模型运行状态
ollama show #显示模型信息
ollama run #运行模型
ollama pull #从注册表中拉取模型
ollama push #将模型推送到注册表
ollama list #列出模型
ollama cp #复制模型
ollama rm #删除模型
ollama help #获取有关任何命令的帮助信息
如果是linux或ubuntu 系统 推荐systemctl 启停方式,并写入/etc/systemed 随机自启
systemctl start ollama #启动
systemctl stop ollama #停止
systemctl status ollama #查看状态
systemctl enable ollama #加入随机自启动
注意:docker 的镜像源修改为国内的镜像源
1、显卡GPU 国内dhub.kubesre.xyz 加速
sudo docker run -d --gpus=all --restart=always -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama dhub.kubesre.xyz/ollama/ollama
2.显卡CPU 国内dhub.kubesre.xyz 加速
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama dhub.kubesre.xyz/ollama/ollama
官方的慢一些 如果用官方的 将上面两行命令 最后面 dhub.kubesre.xyz/ 去掉就行了
docker ps -a
打开浏览器,输入 “http://xx:11434/”,显示 “Ollama is running”。 则成功
命令查看所有 所有的模型
docker exec -it ollama ollama list
下载并运行模型
docker exec -it ollama ollama run deepseek-r1:7b
等待完成就完了
默认ollama绑定在127.0.0.1的11434端口,修改/etc/systemd/system/ollama.service,在[Service]下添加如下内容,使ollama绑定到0.0.0.0的11434端口
Environment="OLLAMA_HOST=0.0.0.0"
使配置生效
sudo systemctl daemon-reload sudo systemctl restart ollama
实际就是调用的ollama的接口 如下
啥都行,自个满意就可以了,只是个盒 用于人机交互而已,或者自个开发个 web都行
比如:anything、chatbox、maxkb 等等,五花八门的玩意儿
在没被调用时,ollama默认在显存中驻留5min,如果两次调用大于5min,模型会被释放,再次调用时重新加载,影响体验
ollama 提供了很多的环境变量,我们可以修改这些环境变量来实现
此处的环境变量为: keep_alive 可以控制模型驻留的时间:
该参数可以设置为:
方法一:预加载模型,并永远驻留在显存
curl http://localhost:11434/api/generate -d '{"model":"llama2","keep_alive”: -1}
方法二:修改/etc/systemd/system/ollama.service 在[Service]下添加如下内容
Environment="OLLAMA_KEEP_ALIVE=-1"
使配置生效
sudo systemctl daemon-reload sudo systemctl restart ollama
如果是docker 启动的ollama 命令中增加 OLLAMA_KEEP_ALIVE=-1
docker run -d --gpus=all -e OLLAMA_KEEP_ALIVE=-1 --restart=always -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
- OLLAMA_DEBUG显示其他调试信息(例如 OLLAMA_DEBUG=1)
- OLLAMA_HOSTollama 服务器的 IP 地址(默认 127.0.0.1:11434)
- OLLAMA_KEEP_ALIVE模型在内存中保持加载状态的持续时间(默认“5 分钟”)
- OLLAMA_MAX_LOADED_MODELS每个 GPU 加载的最大模型数量
- OLLAMA_MAX_QUEUE排队请求的最大数量
- OLLAMA_MODELS模型目录的路径
- OLLAMA_NUM_PARALLEL并行请求的最大数量
- OLLAMA_NOPRUNE启动时不修剪模型 blob
- OLLAMA_ORIGINS允许来源的逗号分隔列表
- OLLAMA_TMPDIR临时文件的位置
- OLLAMA_FLASH_ATTENTION启用闪存注意
- OLLAMA_LLM_LIBRARY设置 LLM 库以绕过自动检测
原文链接:https://blog.csdn.net/lvtu_rain/article/details/145529590?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522c2efefe7028a8aa23f30a2fa6a647e2c%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=c2efefe7028a8aa23f30a2fa6a647e2c&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-16-145529590-null-null.nonecase&utm_term=deepseek%E4%BD%BF%E7%94%A8