1.下载ollama_install.sh并保存
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
2.使用github文件加速替换github下载地址（当前是v0.5.7 可以修改为最新版本）
sed -i 's|https://ollama.com/download/ollama-linux|https://gh.llkk.cc/https://github.com/ollama/ollama/releases/download/v0.5.7/ollama-linux|g' ollama_install.sh
3.替换后增加可执行权限
chmod +x ollama_install.sh
4.执行sh下载安装
sh ollama_install.sh

安装ollam 完毕之后

黑窗口输入：

ollama --version

如果输出版本号（例如ollama version is 0.5.7），则说明安装成功

1、拉取模型 ollama pull xxxx 如：拉取deepseek-r1:7b

ollama pull deepseek-r1:7b

2.运行

ollama run deepseek-r1:7b

注意：Ollama 没有用户界面，在后台运行，并且绑定的本地网络ip 127.0.0.1 本地打开浏览器，输入 “http://localhost:11434/”，显示 “Ollama is running”。

Ollama 使用常见的指令：

ollama serve #启动ollama
ollama create #从模型文件创建模型

ollama ps #查看模型运行状态
ollama show #显示模型信息
ollama run #运行模型
ollama pull #从注册表中拉取模型
ollama push #将模型推送到注册表
ollama list #列出模型
ollama cp #复制模型
ollama rm #删除模型
ollama help #获取有关任何命令的帮助信息

如果是linux或ubuntu 系统推荐systemctl 启停方式，并写入/etc/systemed 随机自启

systemctl start ollama #启动

systemctl stop ollama #停止

systemctl status ollama #查看状态

systemctl enable ollama #加入随机自启动

注意：docker 的镜像源修改为国内的镜像源

1、显卡GPU 国内dhub.kubesre.xyz 加速

sudo docker run -d --gpus=all --restart=always -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama dhub.kubesre.xyz/ollama/ollama

2.显卡CPU 国内dhub.kubesre.xyz 加速

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama dhub.kubesre.xyz/ollama/ollama

官方的慢一些如果用官方的将上面两行命令最后面 dhub.kubesre.xyz/ 去掉就行了

docker ps -a

打开浏览器，输入 “http://xx:11434/”，显示 “Ollama is running”。则成功

命令查看所有所有的模型

docker exec -it ollama ollama list

下载并运行模型

docker exec -it ollama ollama run deepseek-r1:7b

等待完成就完了

默认ollama绑定在127.0.0.1的11434端口，修改/etc/systemd/system/ollama.service，在[Service]下添加如下内容，使ollama绑定到0.0.0.0的11434端口

Environment="OLLAMA_HOST=0.0.0.0"

使配置生效

sudo systemctl daemon-reload sudo systemctl restart ollama

实际就是调用的ollama的接口如下

啥都行，自个满意就可以了，只是个盒用于人机交互而已，或者自个开发个 web都行

比如：anything、chatbox、maxkb 等等，五花八门的玩意儿

在没被调用时，ollama默认在显存中驻留5min，如果两次调用大于5min，模型会被释放，再次调用时重新加载，影响体验

ollama 提供了很多的环境变量，我们可以修改这些环境变量来实现

此处的环境变量为: keep_alive 可以控制模型驻留的时间：

该参数可以设置为:

方法一：预加载模型,并永远驻留在显存

curl http://localhost:11434/api/generate -d '{"model":"llama2","keep_alive”: -1}

方法二：修改/etc/systemd/system/ollama.service 在[Service]下添加如下内容

Environment="OLLAMA_KEEP_ALIVE=-1"

使配置生效

sudo systemctl daemon-reload sudo systemctl restart ollama

如果是docker 启动的ollama 命令中增加 OLLAMA_KEEP_ALIVE=-1

docker run -d --gpus=all -e OLLAMA_KEEP_ALIVE=-1 --restart=always -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

OLLAMA_DEBUG显示其他调试信息（例如 OLLAMA_DEBUG=1）
OLLAMA_HOSTollama 服务器的 IP 地址（默认 127.0.0.1:11434）
OLLAMA_KEEP_ALIVE模型在内存中保持加载状态的持续时间（默认“5 分钟”）
OLLAMA_MAX_LOADED_MODELS每个 GPU 加载的最大模型数量
OLLAMA_MAX_QUEUE排队请求的最大数量
OLLAMA_MODELS模型目录的路径
OLLAMA_NUM_PARALLEL并行请求的最大数量
OLLAMA_NOPRUNE启动时不修剪模型 blob
OLLAMA_ORIGINS允许来源的逗号分隔列表
OLLAMA_TMPDIR临时文件的位置
OLLAMA_FLASH_ATTENTION启用闪存注意
OLLAMA_LLM_LIBRARY设置 LLM 库以绕过自动检测

原文链接：https://blog.csdn.net/lvtu_rain/article/details/145529590?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522c2efefe7028a8aa23f30a2fa6a647e2c%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=c2efefe7028a8aa23f30a2fa6a647e2c&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-16-145529590-null-null.nonecase&utm_term=deepseek%E4%BD%BF%E7%94%A8

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 本地部署deepseek等大模型以及api访问

本地部署deepseek等大模型以及api访问

相关推荐

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签