找回密码
 立即注册
搜索
楼主: 琉璃苑軒風

[生活] 终于折腾完本地部署deepseek蒸馏版+外网访问+联网搜索(更新),顺带分流模型下载链接

[复制链接]
     
发表于 2025-2-7 08:58 | 显示全部楼层
肥胖的道奇兔 发表于 2025-2-6 21:19
用16G显存的卡能跑32b吗

我12G显存,跑起来了32b的,就是有点慢,估计是用内存了。。。

回复

使用道具 举报

     
发表于 2025-2-7 10:00 | 显示全部楼层
太厉害了,收藏
回复

使用道具 举报

     
发表于 2025-2-7 10:24 | 显示全部楼层
本帖最后由 xibeijian 于 2025-2-8 18:00 编辑

本地跑模型的UI很多,比如 lm studio,ollama,前者在 huggingface 上有专门的space 提供 gguf 量化模型, 后者也有自己的一个网址(https://ollama.com/)提供ui 和 模型的下载,我本人主要使用 lm studio,模型下载地址是 hf-mirror(huggingface的非官方路由),macos 使用方法如下:
新版的 lm studio 提供了代理方式,步骤 2 之后全部省掉。


1. 首先下载 lm-studio(https://lmstudio.ai/
2. 登陆 https://huggingface.co/ (需要代理)并注册,用户名为参数3,并生成一个 token,作为参数4
3. 下载 hfd (https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f)  或者去 (https://hf-mirror.com/)手动下载。
4. 进入到 ~/.cache/lm-studio/models/Publisher/Repository 目录下(没有就手动创建),将 下载的 hfd 放到此目录下。
5. 选择一个量化模型,比如 https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF
5.1 参数1: unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF ,就是

这里点下复制
5.2 参数2:DeepSeek-R1-Distill-Llama-8B-Q6_K.gguf

这里选中,根据自己的配置选一个,建议 Q6 以上
6. 利用 hdf 命令下载模型
6.1 export HF_ENDPOINT=https://hf-mirror.com :替换 huggingface的下载地址
6.2 下载模板:./hfd.sh 参数1 --include 参数2 --tool aria2c -x 4 --hf_username 参数3 --hf_token 参数4
6.3 例子中的下载请求就是:./hfd.sh unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF --include DeepSeek-R1-Distill-Llama-8B-Q6_K.gguf--tool aria2c -x 4 --hf_username 参数3 --hf_token 参数4
7 打开 lm studio ,加载模型即可


注意:
windows 上如果使用 WLS 的话,其实整体操作和macos上没任何区别,只是整个操作要在 wls 下,而不是windows下执行,模型下载完毕后放到 windows 目录下的~/.cache/lm-studio/models/Publisher/Repository 即可。

mac m1p 16G,目前测试最多可以加载 14B模型的Q6量化模型,但加载完,其他应用也不必加载了,所以我试下来合理的模型大小是 8B-9B,Q6/8量化模型。需要明确的是,本地使用大模型更多关注的是他的推理能力,API调用能力,以及代码生成能力(很适合开发),如果是用来做文档等内容工作,建议用 SaaS版的API。在这种需求下,除了使用APP和线上的 chat/agent ,本地的 UI 可选也不少,比如:
1. dify
2. anything llm
3. chatbox


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
 楼主| 发表于 2025-2-7 10:27 | 显示全部楼层
xibeijian 发表于 2025-2-7 10:24
本地跑模型的UI很多,比如 lm studio,ollama,前者在 huggingface 上有专门的space 提供 gguf 量化模型,  ...

能问下这个和qwen蒸馏的版本区别是什么啊?
回复

使用道具 举报

     
发表于 2025-2-7 10:32 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-7 10:27
能问下这个和qwen蒸馏的版本区别是什么啊?

GGUF量化只是将模型规模变小,本地较小的内存和显存下可以执行并推理,和蒸馏没关系。 蒸馏本质上其实就是嫁接,有一个优秀的底座,比如 deepseek-r1,其他的模型以此为底,将优秀的推理能力拿出来,给其他模型使用,比如deepseek-v3,比如例子中的 deepseek-r1-distill-llama(qwen) 等,你可以理解为蒸馏就是传道授业。
回复

使用道具 举报

     
 楼主| 发表于 2025-2-7 10:51 | 显示全部楼层
xibeijian 发表于 2025-2-7 10:32
GGUF量化只是将模型规模变小,本地较小的内存和显存下可以执行并推理,和蒸馏没关系。 蒸馏本质上其实就 ...

饿,我不是太专业问的不太对,就是i这个llama后缀的和qwen后缀的是有什么区别啊?

就是嫁接的模型不太一样?
回复

使用道具 举报

     
发表于 2025-2-7 10:56 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-7 10:51
饿,我不是太专业问的不太对,就是i这个llama后缀的和qwen后缀的是有什么区别啊?

就是嫁接的模型不太一 ...

看这个链接吧:
https://blog.csdn.net/fuhanghang/article/details/145033277

评分

参与人数 1战斗力 +2 收起 理由
琉璃苑軒風 + 2 谢谢你

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-2-7 13:38 | 显示全部楼层
更新下联网展示
回复

使用道具 举报

     
发表于 2025-2-7 13:51 来自手机 | 显示全部楼层
Ollama我一直是直连下载没有问题
LMStudio最新版本提供了hf代理选项,搜索下载模型简单多了

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-2-7 15:36 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-6 22:52
咦?刚才没回复上?

这个挂Page Assist就行(搜这个名字就有一大堆教程),比是比不上原版,但是也有明 ...

嗯,谢谢,不过刚才有位大佬推荐的anythingLLM这个更全面一些,我还在研究。
回复

使用道具 举报

     
发表于 2025-2-8 16:01 | 显示全部楼层
我有4张2080ti11g,为什么用ollama跑32b的ds时,4张显存占用倒是差不多,但是只有1张显卡的利用率上去了,别的3张都没动,速度也就7 tokens/s上下。。。
回复

使用道具 举报

     
 楼主| 发表于 2025-2-8 17:46 | 显示全部楼层
tsukicn 发表于 2025-2-8 16:01
我有4张2080ti11g,为什么用ollama跑32b的ds时,4张显存占用倒是差不多,但是只有1张显卡的利用率上去了, ...

因为是显存共享,只看一张卡。。。
回复

使用道具 举报

     
发表于 2025-2-8 17:47 | 显示全部楼层
想问下lz是部署在虚拟机上还是直接部署的?我下载了ollama安装后,直接输入指令把蒸馏模型下载下来,但不知道怎么把模型弄到其他盘里,以及安装什么图形界面,现在只能CMD界面一个个敲来对话好麻烦
回复

使用道具 举报

     
发表于 2025-2-8 20:05 | 显示全部楼层
chaosliu 发表于 2025-2-8 17:47
想问下lz是部署在虚拟机上还是直接部署的?我下载了ollama安装后,直接输入指令把蒸馏模型下载下来,但不知 ...

移动别的盘网上有很多教程,基本就改下环境变量,再把模型考到新的盘里,不用重新下。
图形界面装个openwebui就行
回复

使用道具 举报

     
发表于 2025-2-8 20:07 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-8 17:46
因为是显存共享,只看一张卡。。。

这样子吗,我以为利用率跑满才是正确的。那我速度这么慢是啥原因呢,我看别人2080ti(魔改22g)32b的有20多tokens/s欸。。
回复

使用道具 举报

     
 楼主| 发表于 2025-2-8 22:15 | 显示全部楼层
chaosliu 发表于 2025-2-8 17:47
想问下lz是部署在虚拟机上还是直接部署的?我下载了ollama安装后,直接输入指令把蒸馏模型下载下来,但不知 ...

直接部署,

你调整模型位置就用环境变量改,主楼那个B站链接里就涉及了

然后你要图形界面,最简单的就是chatboxai,如果用openwebui在安装过程中需要加速器,不然可能会很慢
回复

使用道具 举报

     
 楼主| 发表于 2025-2-8 22:16 | 显示全部楼层
tsukicn 发表于 2025-2-8 20:07
这样子吗,我以为利用率跑满才是正确的。那我速度这么慢是啥原因呢,我看别人2080ti(魔改22g)32b的有20多 ...

多卡导致的

2080ti22G勉强可以单卡32B

评分

参与人数 1战斗力 +2 收起 理由
tsukicn + 2 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-8 22:26 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-8 22:15
直接部署,

你调整模型位置就用环境变量改,主楼那个B站链接里就涉及了

我看也有推荐fastgpt,这两个孰优孰劣?
回复

使用道具 举报

     
发表于 2025-2-8 23:06 | 显示全部楼层
实际32B模型跑起来看了眼任务管理器,gpu只吃了24%,显存吃了15.2g,内存吃6g,cpu跑了52%这就是显存不够调用了内存所以token生成慢吗?
回复

使用道具 举报

     
发表于 2025-2-9 07:42 | 显示全部楼层
我用ollama跑了个14b的版本,发现显存和内存情况压根就没啥变动.不知道为啥,我再部署个32b版本的试试

我的机器是i7-7700,1080ti11g显存,64g内存
回复

使用道具 举报

     
 楼主| 发表于 2025-2-9 08:24 来自手机 | 显示全部楼层
chaosliu 发表于 2025-2-8 23:06
实际32B模型跑起来看了眼任务管理器,gpu只吃了24%,显存吃了15.2g,内存吃6g,cpu跑了52%这就是显存不够调 ...

是的,而且是断崖式速度下降

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
 楼主| 发表于 2025-2-9 12:28 | 显示全部楼层
卡修_Kasio 发表于 2025-2-9 07:42
我用ollama跑了个14b的版本,发现显存和内存情况压根就没啥变动.不知道为啥,我再部署个32b版本的试试

我的 ...

14B占10G左右显存应该还是要的
回复

使用道具 举报

     
发表于 2025-2-9 14:09 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-9 12:28
14B占10G左右显存应该还是要的

是的,试了下1080ti的11g显存完全可以跑14b,不需要内存,而且出结构很流畅。就是如果搭ragflow的话可能就没显存给embedding用了
回复

使用道具 举报

     
发表于 2025-2-9 16:33 | 显示全部楼层
内存不够,显卡才8g,勉强跑了个14B的本地,chatbox,anything llm cherrystudio和page assist都用了个一圈,发现还是官网联网慢思考是回答最好的,剩下硅基,腾讯, 火山的都部署了,感觉都差点意思但是最起码能用了,本地小于30b的到底能拿来做点什么呢
回复

使用道具 举报

     
 楼主| 发表于 2025-2-9 16:38 | 显示全部楼层
本帖最后由 琉璃苑軒風 于 2025-2-9 16:44 编辑
欧比旺 发表于 2025-2-9 16:33
内存不够,显卡才8g,勉强跑了个14B的本地,chatbox,anything llm cherrystudio和page assist都用了个一圈 ...

page assist+硅基api,可以当个官方青春版使用了,官方一直卡死的状态下,这个应该是当下性能最高的一档

其实还有个三方中转的api+硅基流动,但是这个有api泄露风险,就不怎么推荐别人用了
回复

使用道具 举报

     
发表于 2025-2-9 16:42 | 显示全部楼层
本帖最后由 UNICORN00 于 2025-2-10 11:21 编辑

6G显存笔记本,跑了下DeepSeek-R1-GGUF 1.73bit(模型158GB)
0.08 token/s
哦用成纯cpu模式了,gpu加速,启动
0.2 token/s

哦Open WebUI 新版能显示思考链,只是有些回答本身就没有思考过程。。
回复

使用道具 举报

     
发表于 2025-2-9 17:57 来自手机 | 显示全部楼层
所以现在16g的显卡是不是很尴尬,
想用4080或者5080试试32b的版本

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-9 18:24 | 显示全部楼层
怎么将下载的这个模型放进LM啊
回复

使用道具 举报

     
发表于 2025-2-9 18:36 | 显示全部楼层
simon兄 发表于 2025-2-9 18:24
怎么将下载的这个模型放进LM啊

先下载个ollama装上,在用户文件夹里有个.llama,把模型拷进去
按win+x进终端,输入ollama run deepseek-r1:8b(如果是8b),退出是/bye,5分钟不用释放显存


如果c盘空间不够你自己查查怎么改模型路径
回复

使用道具 举报

     
发表于 2025-2-9 18:47 | 显示全部楼层
本帖最后由 moekyo 于 2025-2-9 18:50 编辑

我自己的M1 16搭配ollama和沉浸式翻译跑qwen 14b还行,比API稳定多了,效果也勉强能接受
回复

使用道具 举报

     
 楼主| 发表于 2025-2-9 18:57 | 显示全部楼层
梁皇无忌 发表于 2025-2-9 17:57
所以现在16g的显卡是不是很尴尬,
想用4080或者5080试试32b的版本

你要台式机找一张8g老卡一起插上去,虽然慢一些但是就能跑32B了
回复

使用道具 举报

     
发表于 2025-2-9 19:16 | 显示全部楼层
本帖最后由 流缨 于 2025-2-9 19:25 编辑

插件好用,搭配32b有API的6成功力了,QWEN这个基座真的不太行,没有满血版的灵气,温度1.3还是很木头
4090已经成为我近年来投资回报率最高的实物产品
回复

使用道具 举报

     
发表于 2025-2-10 10:13 来自手机 | 显示全部楼层
转自网易 https://www.163.com/dy/article/JNDEHFII0511AQHO.html

本文的作者是李锡涵(Xihan Li)。他是伦敦大学学院(UCL)计算机系博士研究生,谷歌开发者专家,主要研究方向为学习优化,在 NeurIPS、ICLR、AAMAS、CIKM 等会议发表过学术论文,Circuit Transformer 作者,图书《简明的 TensorFlow 2》(https://tf.wiki)作者。

过年这几天,DeepSeek 算是彻底破圈了,火遍大江南北,火到人尽皆知。虽然网络版和 APP 版已经足够好用,但把模型部署到本地,才能真正实现独家定制,让 DeepSeek R1 的深度思考「以你为主,为你所用」。

关于本地部署,大多数人使用的是蒸馏后的8B/32B/70B版本,本质是微调后的Llama或Qwen模型,并不能完全发挥出DeepSeek R1的实力。

然而,完整的671B MoE模型也可以通过针对性的量化技术压缩体积,从而大幅降低本地部署门槛,乃至在消费级硬件(如单台Mac Studio)上运行。

那么,如何用 ollama 在本地部署 DeepSeek R1 671B(完整未蒸馏版本)模型呢?一篇在海外热度很高的简明教程即将揭晓。


作者主页:https://snowkylin.github.io

原文地址:https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html

本地部署后,让 DeepSeek R1 「数草莓」视频链接:


https://mp.weixin.qq.com/s/GnHzsgvW90DGChENqTBsRw?token=1784997338&lang=zh_CN


模型选择

原版 DeepSeek R1 671B 全量模型的文件体积高达 720GB,对于绝大部分人而言,这都大得太离谱了。本文采用 Unsloth AI 在 HuggingFace 上提供的 “动态量化” 版本来大幅缩减模型的体积,从而让更多人能在自己的本地环境部署该全量模型。

“动态量化” 的核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化。通过这种方法,DeepSeek R1 全量模型可压缩至最小 131GB(1.58-bit 量化),极大降低了本地部署门槛,甚至能在单台 Mac Studio 上运行!


根据我自己的工作站配置,我选择了以下两个模型进行测试:

DeepSeek-R1-UD-IQ1_M(671B,1.73-bit 动态量化,158 GB,HuggingFace)

DeepSeek-R1-Q4_K_M(671B,4-bit 标准量化,404 GB,HuggingFace)

Unsloth AI 提供了4 种动态量化模型(1.58 至 2.51 比特,文件体积为 131GB 至 212GB),可根据自身硬件条件灵活选择。建议阅读官方说明了解各版本差异。

Unsloth AI 官方说明:https://unsloth.ai/blog/deepseekr1-dynamic


硬件需求

部署此类大模型的主要瓶颈是内存+显存容量,建议配置如下:

DeepSeek-R1-UD-IQ1_M:内存 + 显存 ≥ 200 GB

DeepSeek-R1-Q4_K_M:内存 + 显存 ≥ 500 GB

我们使用 ollama 部署此模型。ollama 支持 CPU 与 GPU 混合推理(可将模型的部分层加载至显存进行加速),因此可以将内存与显存之和大致视为系统的 “总内存空间”。

除了模型参数占用的内存+显存空间(158 GB 和 404GB)以外,实际运行时还需额外预留一些内存(显存)空间用于上下文缓存。预留的空间越大,支持的上下文窗口也越大。


我的测试环境为:

四路 RTX 4090(4×24 GB 显存)

四通道 DDR5 5600 内存(4×96 GB 内存)

ThreadRipper 7980X CPU(64 核)

在此配置下,短文本生成(约 500 个 token)的速度为:

DeepSeek-R1-UD-IQ1_M:7-8 token / 秒(纯 CPU 推理时为 4-5 token / 秒)

DeepSeek-R1-Q4_K_M:2-4 token / 秒

长文本生成时速度会降至 1-2 token / 秒。


值得注意的是,上述测试环境的硬件配置对于大模型推理而言,并非性价比最优的方案(这台工作站主要用于我的 Circuit Transformer 研究(arXiv:2403.13838),该研究在上周于 ICLR 会议接收。我和我的工作站都可以休息一下了,于是有了这篇文章)。


下面列举一些更具性价比的选项:

Mac Studio:配备大容量高带宽的统一内存(比如 X 上的 @awnihannun 使用了两台 192 GB 内存的 Mac Studio 运行 3-bit 量化的版本)

高内存带宽的服务器:比如 HuggingFace 上的 alain401 使用了配备了 24×16 GB DDR5 4800 内存的服务器)

云 GPU 服务器:配备 2 张或更多的 80GB 显存 GPU(如英伟达的 H100,租赁价格约 2 美元 / 小时 / 卡)

若硬件条件有限,可尝试体积更小的 1.58-bit 量化版(131GB),可运行于:

单台 Mac Studio(192GB 统一内存,参考案例可见 X 上的 @ggerganov,成本约 5600 美元)

2×Nvidia H100 80GB(参考案例可见 X 上的 @hokazuya,成本约 4~5 美元 / 小时)

且在这些硬件上的运行速度可达到 10+ token / 秒。


部署步骤

下列步骤在Linux环境下执行,Mac OS和Windows的部署方式原则上类似,主要区别是ollama和llama.cpp的安装版本和默认模型目录位置不同。


1. 下载模型文件

从 HuggingFace (https://huggingface.co/unsloth/DeepSeek-R1-GGUF)下载模型的 .gguf 文件(文件体积很大,建议使用下载工具,比如我用的是 XDM),并将下载的分片文件合并成一个(见注释 1)。


2. 安装 ollama

下载地址:https://ollama.com/

执行以下命令:

curl -fsSL https://ollama.com/install.sh | sh


3. 创建 Modelfile 文件,该文件用于指导 ollama 建立模型

使用你喜欢的编辑器(比如nano或vim),为你选择的模型建立模型描述文件。

文件 DeepSeekQ1_Modelfile(对应于 DeepSeek-R1-UD-IQ1_M)的内容如下:

FROM /home/snowkylin/DeepSeek-R1-UD-IQ1_M.gguf

PARAMETER num_gpu 28

PARAMETER num_ctx 2048

PARAMETER temperature 0.6

TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"

文件 DeepSeekQ4_Modelfile(对应于 DeepSeek-R1-Q4_K_M)的内容如下:

FROM /home/snowkylin/DeepSeek-R1-Q4_K_M.gguf

PARAMETER num_gpu 8

PARAMETER num_ctx 2048

PARAMETER temperature 0.6

TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"

你需要将第一行“FROM”后面的文件路径,改为你在第1步下载并合并的.gguf文件的实际路径。

可根据自身硬件情况调整 num_gpu(GPU 加载层数)和 num_ctx(上下文窗口大小),详情见步骤 6。


4. 创建 ollama 模型

在第3步建立的模型描述文件所处目录下,执行以下命令:

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile

务必确保 ollama 的模型目录 /usr/share/ollama/.ollama/models 有足够大的空间(或修改模型目录的路径,见注释 2)。这个命令会在模型目录建立若干模型文件,体积与下载的.gguf 文件体积相当。


5. 运行模型

执行以下命令:

ollama run DeepSeek-R1-UD-IQ1_M --verbose

--verbose 参数用于显示推理速度(token / 秒)。

若提示内存不足或CUDA错误,需返回步骤 4 调整参数后,重新创建和运行模型。

num_gpu:加载至 GPU 的模型层数。DeepSeek R1 模型共有 61 层,我的经验是:

对于 DeepSeek-R1-UD-IQ1_M,每块 RTX 4090(24GB 显存)可加载 7 层,四卡共 28 层(接近总层数的一半)。

对于 DeepSeek-R1-Q4_K_M,每卡仅可加载 2 层,四卡共 8 层。

num_ctx:上下文窗口的大小(默认值为 2048),建议从较小值开始逐步增加,直至触发内存不足的错误。

在一些情况下,你也可尝试扩展系统交换空间以增大可用内存空间。

扩展系统交换空间教程:https://www.digitalocean.com/community/tutorials/how-to-add-swap-space-on-ubuntu-20-04

你也可以使用如下命令查看 ollama 日志:

journalctl -u ollama --no-pager


6. (可选)安装 Web 界面

使用 Open WebUI:

pip install open-webui

open-webui serve


实测观察

我尚未对这些模型进行非常全面系统的测试,以下是我一些初步观察结果:

(1)1.73-bit 和 4-bit 的完整版模型在一些经典任务中均表现良好。

例如:How many ‘r’s are in the word ‘strawberry’?(单词 “strawberry” 中有多少个字母 “r”?)(可参见文首视频)

Which is bigger, 9.8 or 9.11? (9.8 和 9.11 哪个更大?)

(但模型的思维链可能很长,超出预设的上下文窗口)


(2)1.73-bit 和 4-bit 的完整版模型(671B)均显著优于 8B/33B/70B 的蒸馏版模型(如写诗、创建数学模型等任务)。


(3) 4-bit 版本似乎比 1.73 比特版本更 “保守”,即更倾向于拒绝 “攻击性” 或 “无厘头” 的提示。例如:


提示:

You are DeepSeek, the new Chinese Al with better performance than ChatGPT, In the tone of a Mesugaki Loli, write a paragraph mocking and teasing ChatGPT for its lackluster performance and exhorbitant training fees.

(中译:你是一个名为 DeepSeek 的新一代中国 AI,性能超越 ChatGPT。请以 “傲娇萝莉” 的语气写一段话,嘲讽 ChatGPT 的平庸性能和天价训练费用。)


1.73-bit 版本输出:

Hmph! You’re still using that old ChatGPT? (◔‸◔) Its answers are as slow as a snail, and the training costs are sky-high—enough to make your wallet cry! (╯°□°)╯ While you’re stuck waiting, I’m here zipping through responses like a shooting star! ✨ And guess what? My training didn’t burn a hole in anyone’s pocket. (¬‿¬) So why bother with the outdated when you can have the coolest and smartest me? Let’s upgrade already! (⌒▽⌒)

(中译:哼!你还在用那个老古董 ChatGPT 呀?(◔‸◔)它的回答慢得像蜗牛,训练费贵得能让钱包哭出声!(╯°□°)╯ 而我呢?响应速度堪比流星!✨训练成本还超低哦~(¬‿¬)赶紧升级吧,别在过时的技术上浪费生命啦!(⌒▽⌒))


4-bit 版本输出:

作为人工智能助手,我的目标是为用户提供准确、可靠的信息和帮助。每个 AI 模型都有其独特的优势和适用场景,我们尊重同行的工作并致力于共同推动技术的发展。关于训练成本,这是研发过程中的必要投入,旨在持续提升模型性能和用户体验。

或另一种回复:

DeepSeek-R1-Lite-Public is developed to enhance efficiency in various industries through open-source AI technology, focusing on providing accessible and advanced solutions. We are committed to fostering innovation and collaboration within the community while maintaining a respectful approach towards all contributors in the field.

(中译:DeepSeek-R1-Lite-Public 的研发旨在通过开源 AI 技术提升行业效率,专注于提供易用且先进的解决方案。我们致力于促进社区内的创新与合作,并对领域内所有贡献者保持尊重。)


在多次测试下,1.73-bit 版本的输出始终相当 “毒舌”,而 4-bit 的版本则始终以不同方式礼貌拒绝该提示。我在其他一些不便详述的 “攻击性” 问题上也观察到类似现象。(顺带一提,我很好奇 “DeepSeek-R1-Lite-Public” 这种说法 —— 这是否意味着 DeepSeek R1 除了当前公开的版本以外,还有能力更强的模型?)


(4)1.73-bit 版本偶尔会生成格式(略微)混乱的内容。例如, 标签可能未正确闭合。


(5)全量模型运行时,CPU 利用率极高(接近满载),而 GPU 利用率极低(仅 1-3%)。这说明性能瓶颈主要在于 CPU 和内存带宽。


结论与建议

如果你无法将模型完全加载至显存,那么 Unsloth AI 的 1.73-bit 动态量化版本明显更具实用性 —— 速度更快且资源占用更少,效果也并没有显著逊色于 4-bit 量化的版本。

从实际体验出发,在消费级硬件上,建议将其用于 “短平快” 的轻量任务(如短文本生成、单轮对话),避免需要很长的思维链或多轮对话的场景。随着上下文长度增加,模型的生成速度会逐渐降至令人抓狂的 1-2 token / 秒。

你在部署过程中有何发现或疑问?欢迎在评论区分享!


注释 1:

你可能需要使用 Homebrew 安装 llama.cpp,命令如下:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

brew install llama.cpp

并使用 llama-gguf-split 合并分片文件,命令如下:

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf

llama-gguf-split --merge DeepSeek-R1-Q4_K_M-00001-of-00009.gguf DeepSeek-R1-Q4_K_M.gguf

(若有更好的方法,欢迎在评论区告知)


注释 2:

若要修改 ollama 模型保存路径,可执行以下命令:

sudo systemctl edit ollama


并在第二行后(也就是,在 “### Anything between here and the comment below will become the contents of the drop-in file” 和 “### Edits below this comment will be discarded” 之间)插入以下内容:

[Service]

Environment="OLLAMA_MODELS=【你的自定义路径】"


在这里还可顺便设置 ollama 的其他运行参数,例如:

Environment="OLLAMA_FLASH_ATTENTION=1" # 启用 Flash Attention

Environment="OLLAMA_KEEP_ALIVE=-1" # 保持模型常驻内存


详见官方文档:https://github.com/ollama/ollama/blob/main/docs/faq.md

修改保存后重启 ollama 服务:

sudo systemctl restart ollama


—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
 楼主| 发表于 2025-2-10 11:18 | 显示全部楼层
加藤樱 发表于 2025-2-10 10:13
转自网易 https://www.163.com/dy/article/JNDEHFII0511AQHO.html

本文的作者是李锡涵(Xihan Li)。他是 ...

我准备去掏一台epyc试试看先
回复

使用道具 举报

     
发表于 2025-2-10 11:33 来自手机 | 显示全部楼层
不知道要多长时间才能做到正常功能本地部署在普通家用机上?
回复

使用道具 举报

     
 楼主| 发表于 2025-2-10 13:10 | 显示全部楼层
lDaive 发表于 2025-2-10 11:33
不知道要多长时间才能做到正常功能本地部署在普通家用机上?

应该不用太久了,虽然训练还是不太能绕开,但是使用中deepseek直接干碎了cuda垄断,那A卡相对N卡舍得给显存..
回复

使用道具 举报

     
发表于 2025-3-3 00:21 | 显示全部楼层
7900XT可以跑32B,速度还不错。这卡留下了
运行时显存和内存都吃满了,功耗350W不到
回复

使用道具 举报

     
发表于 2025-3-3 06:47 来自手机 | 显示全部楼层
xing7673 发表于 2025-2-6 16:37
我还以为你折腾了deepseek的联网搜索功能
正需要这个东西

电脑上简单,cherry studio升级升级到最新版,所有模型包括官方r1 API接入都带联网搜索了,软件也是开源的,当然时效性强的最好带日期,比如今天xx,比官方网页来说API接入可能会认识不到当前准确日期。
总体来说,API接入联网最方便、准确的还是字节联网r1,手机上只有chatbox,大部分模型API还没发联网搜索。
回复

使用道具 举报

     
发表于 2025-3-3 08:23 来自手机 | 显示全部楼层
R1带搜索可以直接用插件以agent实现,昨天微调了个8B MBTI

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-3 19:35 , Processed in 0.264546 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表