找回密码
 立即注册
搜索
查看: 16766|回复: 78

[生活] 终于折腾完本地部署deepseek蒸馏版+外网访问+联网搜索(更新),顺带分流模型下载链接

[复制链接]
     
发表于 2025-2-6 15:03 | 显示全部楼层 |阅读模式
本帖最后由 琉璃苑軒風 于 2025-2-7 13:38 编辑

看各路教程拼拼凑凑,我在实操中感觉其他其实都没什么卡点,但是最麻烦的反倒是模型的下载,动不动速度就掉到就几MB到几百KB,

所以我既然下完了,就分流一下ollama的默认精度(8B 14B 32B)少一个被下载模型的折腾都好,拷贝到目录里就行,这个反正跑前都要核验过MD5的不用担心

32B(能满足比较基础的要求,需要22-24显存,除了基础占用还有开始输入输出的额外占用,不能卡太死,可多卡凑一起,但是会慢点)
链接:https://pan.baidu.com/s/1SvweXjREmcxplOkqj-uBkw?pwd=DEEP
提取码:DEEP

14B(大概能有点用,需要10-12g显存)
链接:https://pan.baidu.com/s/1CUUvIlmWMbqy2tW7TxJZDQ?pwd=DEEP
提取码:DEEP

8B(8g显存左右的卡都能跑,能回话,其他不要想太多)
链接:https://pan.baidu.com/s/1KM0-p_XXafeZiETeidxfxA?pwd=DEEP
提取码:DEEP

有其他问题要问我能回答我都回答,折腾了一会终于有点明白了,还躺了不少雷

如果能帮忙传个硅基流动的火也谢谢你,毕竟蒸馏就是服务器过载时候能用,肯定比不上完整部署的671B
https://cloud.siliconflow.cn/i/erfbHC4B

联网可以尝试用Page Assist插件(需要加速器)
chrome商店搜索Page Assist,也是类似chatboxai配置的傻瓜式操作 参考https://www.bilibili.com/opus/1030404105077522451

实际效果举例

















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 3战斗力 +4 收起 理由
429 + 2 好评加鹅
Horla + 1 好评加鹅
a4ac7 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-2-6 15:04 | 显示全部楼层
显存不够可以用内存凑吗
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 15:06 | 显示全部楼层
我被骗了五块钱 发表于 2025-2-6 15:04
显存不够可以用内存凑吗

可以,但是非常非常慢,70B我跑起来first token latency等到我没耐心了

我是四通道D4,可能12通道D5的epyc能好一些
回复

使用道具 举报

     
发表于 2025-2-6 15:06 | 显示全部楼层
我被骗了五块钱 发表于 2025-2-6 15:04
显存不够可以用内存凑吗

可以,我试过24显存+32内存跑70B
很卡,也没比32B强很多
回复

使用道具 举报

     
发表于 2025-2-6 15:14 | 显示全部楼层
目前对普通人来说本地部署依旧看不到性价比
回复

使用道具 举报

     
发表于 2025-2-6 15:14 | 显示全部楼层
我被骗了五块钱 发表于 2025-2-6 15:04
显存不够可以用内存凑吗

显存不够的时候gpu好像不工作的,是cpu在跑。

我68xt跑14b,全用显存的速度大概30token/s,跑更大模型16g显存不够用,走cpu运算直接崩到2token/s
回复

使用道具 举报

     
发表于 2025-2-6 15:19 来自手机 | 显示全部楼层
袄_偶滴小乔 发表于 2025-2-6 15:14
显存不够的时候gpu好像不工作的,是cpu在跑。

我68xt跑14b,全用显存的速度大概30token/s,跑更大模型16 ...

好吧,我也16g显存,看来不能用更大的

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 15:25 | 显示全部楼层
claymorep 发表于 2025-2-6 15:19
好吧,我也16g显存,看来不能用更大的

—— 来自 鹅球 v3.3.96-alpha

意外之喜是可以多卡,我all in booom上本来想把8g那张卡卖掉的,结果误打误撞可以当24g的卡用了
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 15:27 | 显示全部楼层
天地一机成化育 发表于 2025-2-6 15:14
目前对普通人来说本地部署依旧看不到性价比

等迭代吧,我看评分,现在ds R1蒸馏出来的14B都比早先的的32B甚至70B强了
回复

使用道具 举报

     
发表于 2025-2-6 15:49 来自手机 | 显示全部楼层
请问4070的笔记本能不能跑起来8B或者再小一点的模型有点好奇,想折腾玩玩看
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 15:51 | 显示全部楼层
makourisu-2 发表于 2025-2-6 15:49
请问4070的笔记本能不能跑起来8B或者再小一点的模型有点好奇,想折腾玩玩看 ...

可以8B以及以下,就是效果真就图一乐了
回复

使用道具 举报

     
发表于 2025-2-6 15:56 | 显示全部楼层
有没有70b的,直接下太慢了。。。
回复

使用道具 举报

     
发表于 2025-2-6 15:59 | 显示全部楼层
我看nga上一个帖子,说8g显存+32g内存就能跑32b q4的蒸馏模型?
回复

使用道具 举报

     
发表于 2025-2-6 16:00 | 显示全部楼层
本地跑可以写刘备文了吗
回复

使用道具 举报

     
发表于 2025-2-6 16:12 | 显示全部楼层
国内不是有这个对标的分发网站吗
https://modelscope.cn/models
回复

使用道具 举报

     
发表于 2025-2-6 16:16 | 显示全部楼层
sese199 发表于 2025-2-6 15:59
我看nga上一个帖子,说8g显存+32g内存就能跑32b q4的蒸馏模型?

4g显存+32g内存就可以
回复

使用道具 举报

     
发表于 2025-2-6 16:17 | 显示全部楼层
子虚乌有 发表于 2025-2-6 16:00
本地跑可以写刘备文了吗

写出来的是地摊文学级别
70B消融以后会变成弱智
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 16:20 | 显示全部楼层
sese199 发表于 2025-2-6 15:59
我看nga上一个帖子,说8g显存+32g内存就能跑32b q4的蒸馏模型?

速度正常么?我四通道D4反正拉稀的一塌糊涂。
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 16:21 | 显示全部楼层
本帖最后由 琉璃苑軒風 于 2025-2-6 16:26 编辑
子虚乌有 发表于 2025-2-6 16:00
本地跑可以写刘备文了吗

没试过,看攻略是破防容易,但是本地的精度,写出来很是不好看
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 16:24 | 显示全部楼层
moekyo 发表于 2025-2-6 16:12
国内不是有这个对标的分发网站吗
https://modelscope.cn/models

没有合适的网络,这个也不快
回复

使用道具 举报

     
发表于 2025-2-6 16:30 | 显示全部楼层
琉璃苑軒風 发表于 2025-2-6 16:24
没有合适的网络,这个也不快

我又搜到了这两个,当然我也没试过就是了
https://hf-mirror.com/
https://aifasthub.com/
回复

使用道具 举报

     
发表于 2025-2-6 16:35 | 显示全部楼层
我用4070tis也能部署32B的蒸馏模型,token的生成速度也可以接受
回复

使用道具 举报

     
发表于 2025-2-6 16:37 | 显示全部楼层
我还以为你折腾了deepseek的联网搜索功能
正需要这个东西
回复

使用道具 举报

     
发表于 2025-2-6 16:43 来自手机 | 显示全部楼层
但是个人使用本地部署真的没啥意义
api就足够了

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-6 16:44 来自手机 | 显示全部楼层
chaosliu 发表于 2025-2-6 16:35
我用4070tis也能部署32B的蒸馏模型,token的生成速度也可以接受

同显卡
那速度我不能忍受

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-2-6 16:50 | 显示全部楼层
模型下好了,是直接覆盖到我之前的文件夹里面吗
回复

使用道具 举报

     
发表于 2025-2-6 16:50 | 显示全部楼层
xing7673 发表于 2025-2-6 16:37
我还以为你折腾了deepseek的联网搜索功能
正需要这个东西

用anything llm就可以了,有比较基础的搜索。
回复

使用道具 举报

     
发表于 2025-2-6 16:50 | 显示全部楼层
要本地部署满血版需要什么配置
回复

使用道具 举报

发表于 2025-2-6 16:50 | 显示全部楼层
可以写涩涩吗?
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 16:55 | 显示全部楼层
kira1988 发表于 2025-2-6 16:50
要本地部署满血版需要什么配置

1342g基础显存+额外输入输出显存,别说个人,中小企业都很难有这个配置
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 16:56 | 显示全部楼层
zhao25 发表于 2025-2-6 16:50
模型下好了,是直接覆盖到我之前的文件夹里面吗

是的
。zsbd
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 19:19 | 显示全部楼层
王苍幻 发表于 2025-2-6 16:43
但是个人使用本地部署真的没啥意义
api就足够了

我主楼已经有提到了,“毕竟蒸馏就是服务器过载时候能用,肯定比不上完整部署的671B”

api能正常用不抽风,那肯定比本地好阿,但是现在这个ds日常抽风,硅基间歇抽风的前提下

本地部署是决定了下限,而非上限



回复

使用道具 举报

     
发表于 2025-2-6 19:28 | 显示全部楼层
海底铁锚 发表于 2025-2-6 16:50
用anything llm就可以了,有比较基础的搜索。

效果怎么样,能有kimi的水平吗
回复

使用道具 举报

     
发表于 2025-2-6 20:47 | 显示全部楼层
kira1988 发表于 2025-2-6 16:50
要本地部署满血版需要什么配置

https://www.bilibili.com/video/BV1REPqeFE6d/
从这个视频看的话,4B量化版本,用cpu跑,用400g左右的内存可以
成本50000
回复

使用道具 举报

发表于 2025-2-6 20:49 来自手机 | 显示全部楼层
量化了么?

要是量化的话用的是多少量化?
回复

使用道具 举报

     
发表于 2025-2-6 21:19 | 显示全部楼层
我被骗了五块钱 发表于 2025-2-6 15:04
显存不够可以用内存凑吗

用16G显存的卡能跑32b吗
回复

使用道具 举报

     
发表于 2025-2-6 21:32 | 显示全部楼层
本地部署有啥教程没?包括联网搜索的
回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 22:10 | 显示全部楼层
darktide 发表于 2025-2-6 21:32
本地部署有啥教程没?包括联网搜索的

这个一大堆,我就是东拼西凑发现没有卡点,除了下模型下的要死要活,所以做了下分流

评分

参与人数 1战斗力 +2 收起 理由
darktide + 2 好的,谢谢

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-2-6 22:52 | 显示全部楼层
xing7673 发表于 2025-2-6 16:37
我还以为你折腾了deepseek的联网搜索功能
正需要这个东西

咦?刚才没回复上?

这个挂Page Assist就行(搜这个名字就有一大堆教程),比是比不上原版,但是也有明显改善结果
回复

使用道具 举报

     
发表于 2025-2-7 08:20 | 显示全部楼层
makourisu-2 发表于 2025-2-6 15:49
请问4070的笔记本能不能跑起来8B或者再小一点的模型有点好奇,想折腾玩玩看 ...

内存够大就行 跑GGUF可以
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-3 20:12 , Processed in 0.249519 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表