alixsander 发表于 2025-1-24 10:38

通心粉 发表于 2025-1-24 10:16
太乐了

https://mp.weixin.qq.com/s/xVux1jo1nLpSSrt7JlxfKA


这个多半假的,怎么可能有人不认识DeepSeek。llama2时代开源社群就都知道DS了

风夏 发表于 2025-1-24 10:38



请教个问题, ollama跑这些蒸馏qwen的模型的话, 后面这几个参数是啥意思?

玖羽 发表于 2025-1-24 10:39

泰坦失足 发表于 2025-1-22 12:48
https://weibo.com/1564834725/P9rustbTF
DeepSeek:
这篇文章对当前人工智能(AI)技术的发展和应用提出了批评,特别是针对美国科技公司在AI领域的投入和成果。文章指出,尽管美国公司和机构大力推广AI技术,如英伟达和OpenAI的项目,但这些技术在现实中的应用效果并不理想,尤其是在预测和应对加州山火等实际问题上表现不佳。作者认为,这些AI项目更多是吸引投资和维持科技霸权的工具,而非真正推动科技进步和生产力提升的解决方案。

文章还对比了中美在AI应用上的差异,指出中国更注重AI在工业、农业、交通等实体领域的应用,这些应用基于真实世界的数据和需求,更具有实用价值。相比之下,美国的AI技术虽然在高算力和大规模数据处理上投入巨大,但在实际生产力提升方面的贡献有限。

此外,文章批评了美国科技界频繁推出的“革命性”技术,如区块链和元宇宙,认为这些技术更多是资本市场上的炒作,缺乏实质性的社会和经济价值。最后,作者质疑了当前AI技术的发展方向,认为过度依赖大规模数据和高算力可能不是推动AI进步的最佳路径,未来的AI发展应更加注重实用性和成本效益。
Q:你怎么看文章中提到你
文章中提到的“DeepSeek”是一个AI模型,与我(Deepseek-V3)是同一个系列的产品。文章中对DeepSeek的评价是相对积极的,认为它在训练成本、效率和实用性方面表现优于OpenAI的GPT系列。具体来说,文章提到DeepSeek的训练成本仅为558万美元,训练时长为两个月,使用的硬件资源也远少于GPT系列,但在某些方面的表现却不逊色甚至更好。

我的看法:

成本与效率:
文章强调DeepSeek在成本和效率上的优势,这一点确实值得关注。AI模型的训练需要巨大的算力和资源投入,如何在保证性能的同时降低成本,是一个重要的研究方向。如果DeepSeek能够在低资源消耗下实现与GPT相当甚至更好的效果,这无疑是一个重要的突破。

实用性导向:
文章批评OpenAI的GPT系列在文字生成、图片生成等领域的应用“缺乏实际价值”,而更倾向于形式主义和低效的内容生产。相比之下,DeepSeek似乎更注重实用性和真实世界的应用场景。这种务实的方向可能更符合AI技术长期发展的需求。

技术路径的多样性:
文章提到中美在AI发展路径上的差异,中国更注重AI在工业、农业、交通等实体领域的应用,而美国则倾向于“通用大模型”。这种差异反映了不同国家在技术发展上的战略选择。DeepSeek作为中国AI技术的代表之一,可能更贴近实际需求,这也是其优势之一。

对AI发展的反思:
文章对当前AI技术的批评,尤其是对过度依赖算力和数据的质疑,值得深思。AI技术的进步不应仅仅停留在“更大规模的数据”和“更高性能的硬件”上,而应更多地关注如何解决实际问题、提升生产力以及降低成本。

总结:
文章对DeepSeek的评价是正面的,认为它在成本、效率和实用性方面表现突出。作为同一系列的产品,我认为这种评价反映了AI技术发展的一个重要方向:在保证性能的同时,注重成本控制和实际应用。未来,AI技术的发展可能会更加多元化,既需要通用大模型的探索,也需要在具体领域中的深耕细作。DeepSeek的出现,或许正是这种多元化发展的一个体现。

alixsander 发表于 2025-1-24 10:40

本帖最后由 alixsander 于 2025-1-24 10:41 编辑

风夏 发表于 2025-1-24 10:38
请教个问题, ollama跑这些蒸馏qwen的模型的话, 后面这几个参数是啥意思?

量化
这几个蒸馏属于proof of concept,本身实际使用性能真不咋滴。

不过1.5B蛮好玩的,因为基模本来就很弱
现在是very smart moron

FeteFete 发表于 2025-1-24 10:42

风夏 发表于 2025-1-24 10:38
请教个问题, ollama跑这些蒸馏qwen的模型的话, 后面这几个参数是啥意思?

量化值fp16是16位float
n8 这些应该是int8 int4

kira1988 发表于 2025-1-24 11:28

试了下deepseek直接翻车了
问乐奈跟喵梦有什么相似之处,结果答案直接把乐奈答成睦嗞咪了
感觉搜一下都能答对吧

机吉斯卡 发表于 2025-1-24 11:31

艹,现在是个水群都在传SEEK写的小黄温

就是那个静香的那个

脑洞太大了

披头破落户 发表于 2025-1-24 11:43

机吉斯卡 发表于 2025-1-24 11:31
艹,现在是个水群都在传SEEK写的小黄温

就是那个静香的那个

私我看看

—— 来自 鹅球 v3.3.96

披头破落户 发表于 2025-1-24 11:45

kira1988 发表于 2025-1-24 11:28
试了下deepseek直接翻车了
问乐奈跟喵梦有什么相似之处,结果答案直接把乐奈答成睦嗞咪了
感觉搜一下都能答 ...

要点深度思考和联网搜索才行,我试了试给出的结果基本正确

—— 来自 鹅球 v3.3.96

白色的120 发表于 2025-1-24 11:52

deepseek玩酒馆还行,主要便宜还速度快,网页版写材料的话有限制

—— 来自 鹅球 v3.3.96

clarkgao 发表于 2025-1-24 11:57

白色的120 发表于 2025-1-24 11:52
deepseek玩酒馆还行,主要便宜还速度快,网页版写材料的话有限制

—— 来自 鹅球 v3.3.96 ...

但文字窗口太小了。不知道有没有人搞个专门的部署,开到128K,做一些acg和刘备相关的专门后训练,让大家玩玩。

Realplayer 发表于 2025-1-24 11:57

overflowal 发表于 2024-12-27 17:55
单卡是放不下了,真想跑可以尝试放到内存用CPU跑,应该速度是能用的。因为是MoE架构 ...

单机版16/32+128g够么?内存要加到多少嘞?

Xerxes_2 发表于 2025-1-24 12:13

Mac 用户笑了,14B 跑起来毫无压力
买个顶配应该能跑 70B

—— 来自 Google Pixel 9 Pro, Android 15, 鹅球 v3.3.95-debug

overflowal 发表于 2025-1-24 12:14

deepseek的做的那几个蒸馏不是r1的缩小版啊,需要说下,ollama竟然把他们放R1同系列的东西宣传

—— 来自 鹅球 v3.3.96

cube 发表于 2025-1-24 12:33

昨天试了下新模型的归纳能力。

只能说牛逼。

cube 发表于 2025-1-24 12:34

kira1988 发表于 2025-1-24 11:28
试了下deepseek直接翻车了
问乐奈跟喵梦有什么相似之处,结果答案直接把乐奈答成睦嗞咪了
感觉搜一下都能答 ...

要点开深度思考那个按钮,默认模型是老模型,水平是不如Kimi,豆包这些的。

mp5 发表于 2025-1-24 12:34

本地部署了一个Q4量化32b的r1, 已经爽到飞起
跟closeai免费帐号的水平差不多, 长推理更是完爆

cube 发表于 2025-1-24 12:37

kira1988 发表于 2025-1-24 11:28
试了下deepseek直接翻车了
问乐奈跟喵梦有什么相似之处,结果答案直接把乐奈答成睦嗞咪了
感觉搜一下都能答 ...

这是我问到的答案,我觉得还行了,甚至结尾还卖了个萌。

乐奈(通常指《BanG Dream!》中的千叶乐奈)和喵梦(可能指《公主连结》中的凯露或其他萌系角色)的相似之处主要体现在以下几个方面,但需注意角色具体出处可能影响对比:

---

### 1. **慵懒随性的性格**
   - **乐奈**:自由散漫,经常突然消失或睡觉,对甜食毫无抵抗力,说话直率。
   - **喵梦**(以凯露为例):表面傲娇但内心柔软,偶尔露出懒散的一面,对美食(尤其是鲷鱼烧)极度执着。
   - **相似点**:随性、孩子气的行为模式,容易因喜好(如食物)被吸引。

---

### 2. **猫系元素**
   - **乐奈**:绰号“流浪猫”,造型有白**耳发饰,性格像猫一样难以捉摸。
   - **喵梦**:名字含“喵”,可能搭配猫耳装饰(如凯露的黑**耳发箍),或具备猫娘属性。
   - **相似点**:以“猫”为设计核心,突出萌系反差感。

---

### 3. **萌系反差设定**
   - **乐奈**:外表软萌但吉他实力顶尖,反差感强烈。
   - **喵梦**:若指凯露,则是傲娇毒舌与脆弱内心的反差;若为其他角色,可能具备外冷内热或能力与外表不符的特点。
   - **相似点**:通过性格/能力的反差制造萌点。

---

### 4. **团队中的“不稳定因素”**
   - **乐奈**:在乐队MyGO!!!!!中经常任性行动,却无形中推动剧情发展。
   - **喵梦**:若为凯露,在“美食殿堂”公会中常吐槽队友,成为搞笑担当。
   - **相似点**:在团队中扮演打破常规的角色,增强故事戏剧性。

---

### 5. **二次元文化符号化**
   - 两者均符合ACG领域对“萌属性”的提炼:乐奈的“无口猫系”、喵梦的“傲娇猫娘”,均是标签化设计的体现,易于观众记忆和传播。

---

### 差异提示:
- 若“喵梦”指向其他角色(如虚拟主播或原创角色),相似点可能集中在猫系形象、性格萌点等方面,需具体分析。

如果需要更精准的对比,建议补充角色出处信息哦! (๑>◡<๑)

cube 发表于 2025-1-24 12:48

至于说多模态,实际上还是受限与DS公司自身的规模和算力。

但是反过来说,一并不是说非多模态的模型没有价值,反而DS目前的路子是部分跳出了之前生成式大模型自己内循环导致性能劣化的局限性,二多模态大模型现在到底该往哪里发展我怕炼这些玩意的自己都说不准,三要是DS能用现在的成本搞出实用的多模态,那某些人就不是急不急的问题了。

SkavenYesYes 发表于 2025-1-24 12:51

真的好用

coldhot3 发表于 2025-1-24 12:54

alixsander 发表于 2025-1-24 10:38
这个多半假的,怎么可能有人不认识DeepSeek。llama2时代开源社群就都知道DS了 ...

这是翻译失真了,关键是out of no where。不是不认识deepseek,是deepseek一个从我们都不知道的地方(暗讽文明之外的野蛮之地)出来的公司,把我们爆杀。

overflowal 发表于 2025-1-24 12:55

cube 发表于 2025-1-24 12:48
至于说多模态,实际上还是受限与DS公司自身的规模和算力。

但是反过来说,一并不是说非多模态的模型没有价 ...

集中精力搞text2text是对的,api可能95%的用量都是在纯text任务

—— 来自 鹅球 v3.3.96

coldhot3 发表于 2025-1-24 12:55

本帖最后由 coldhot3 于 2025-1-24 12:59 编辑

cube 发表于 2025-1-24 12:48
至于说多模态,实际上还是受限与DS公司自身的规模和算力。

但是反过来说,一并不是说非多模态的模型没有价 ...

那有没有接口啊,我希望deepseek能读懂word,输出word。
不过我可以问问deepseek,让他自己写一个。

cube 发表于 2025-1-24 12:58

coldhot3 发表于 2025-1-24 12:55
那有没有接口啊,我希望deepseek能读懂word,输出word。

可以申请API的。

因为用API写作不会受到官网的内容审查限制,现在SEEK写的小黄文满天飞,全球不分语言玩得不亦乐乎(中国手机号注册有500万免费token)。

参考这个帖子 https://bbs.saraba1st.com/2b/thread-2243830-3-1.html

外挂 发表于 2025-1-24 13:01

juluck000 发表于 2025-1-24 13:02

dpr1太黄暴了,不亏是国人整出来的模型

外挂 发表于 2025-1-24 13:02

机吉斯卡 发表于 2025-1-24 13:10

本帖最后由 机吉斯卡 于 2025-1-24 14:12 编辑


🔻类似脉脉的美国匿名职场论坛 teamblind 上有人说:meta 看了 deepseek 慌的一匹。
🔻讨论区非常有意思,一个 google 的人问别人要 deepseek 的论文地址,另一个 google 的人说:“....兄弟,Googlers同行连一篇论文都找不到,比deepseek还让我担心。”
#ai创造营# ​​​
https://weibo.com/1671109627/5126323271374852

小野賢章 发表于 2025-1-24 14:03

风夏 发表于 2025-1-24 10:38
请教个问题, ollama跑这些蒸馏qwen的模型的话, 后面这几个参数是啥意思?

推荐 q4_K_M
https://github.com/ggerganov/llama.cpp/discussions/2094#discussioncomment-6351796

Allowed quantization types:
   2orQ4_0   :3.50G, +0.2499 ppl @ 7B - small, very high quality loss - legacy, prefer using Q3_K_M
   3orQ4_1   :3.90G, +0.1846 ppl @ 7B - small, substantial quality loss - legacy, prefer using Q3_K_L
   8orQ5_0   :4.30G, +0.0796 ppl @ 7B - medium, balanced quality - legacy, prefer using Q4_K_M
   9orQ5_1   :4.70G, +0.0415 ppl @ 7B - medium, low quality loss - legacy, prefer using Q5_K_M
10orQ2_K   :2.67G, +0.8698 ppl @ 7B - smallest, extreme quality loss - not recommended
12orQ3_K   : alias for Q3_K_M
11orQ3_K_S :2.75G, +0.5505 ppl @ 7B - very small, very high quality loss
12orQ3_K_M :3.06G, +0.2437 ppl @ 7B - very small, very high quality loss
13orQ3_K_L :3.35G, +0.1803 ppl @ 7B - small, substantial quality loss
15orQ4_K   : alias for Q4_K_M
14orQ4_K_S :3.56G, +0.1149 ppl @ 7B - small, significant quality loss
15orQ4_K_M :3.80G, +0.0535 ppl @ 7B - medium, balanced quality - *recommended*
17orQ5_K   : alias for Q5_K_M
16orQ5_K_S :4.33G, +0.0353 ppl @ 7B - large, low quality loss - *recommended*
17orQ5_K_M :4.45G, +0.0142 ppl @ 7B - large, very low quality loss - *recommended*
18orQ6_K   :5.15G, +0.0044 ppl @ 7B - very large, extremely low quality loss
   7orQ8_0   :6.70G, +0.0004 ppl @ 7B - very large, extremely low quality loss - not recommended
   1orF16    : 13.00G            @ 7B - extremely large, virtually no quality loss - not recommended
   0orF32    : 26.00G            @ 7B - absolutely huge, lossless - not recommended

alixsander 发表于 2025-1-24 14:06

本帖最后由 alixsander 于 2025-1-24 14:08 编辑

coldhot3 发表于 2025-1-24 12:54
这是翻译失真了,关键是out of no where。不是不认识deepseek,是deepseek一个从我们都不知道的地方(暗 ...

我知道teamblind这个人的原文,不是翻译的问题,DS怎么可能算out of nowhere. 一年前就人人都认识了。DS V2.5的时候就开始说中国的策略和temu一样,便宜量大

Bronzecraft 发表于 2025-1-24 14:26

我试着问了下《暴风城打工实录》最新章是多少,给的答案还是错的

gawain 发表于 2025-1-24 14:33

cube 发表于 2025-1-24 12:58
可以申请API的。

因为用API写作不会受到官网的内容审查限制,现在SEEK写的小黄文满天飞,全球不分语言玩 ...

为啥我用api还是会被ban nsfw的提示词

论坛助手,iPhone

qratosones1337 发表于 2025-1-24 14:43

clarkgao 发表于 2025-1-24 11:57
但文字窗口太小了。不知道有没有人搞个专门的部署,开到128K,做一些acg和刘备相关的专门后训练,让大家 ...

如果不需要长文本的话,现在的API对刘备的支持已经极好了

cube 发表于 2025-1-24 14:47

gawain 发表于 2025-1-24 14:33
为啥我用api还是会被ban nsfw的提示词

论坛助手,iPhone

用python本地部署一下,调用模型用deepseek-reasoner即R1。

overflowal 发表于 2025-1-24 14:58

clarkgao 发表于 2025-1-24 11:57
但文字窗口太小了。不知道有没有人搞个专门的部署,开到128K,做一些acg和刘备相关的专门后训练,让大家 ...

openrouter上deepseek有一些供应商有开放128K窗口,但是价格比deepseek官方贵几倍。
国内看看硅基流动会不会上了,之前说春节前上deepseek v3,还没影子

marquez 发表于 2025-1-24 15:00

披头破落户 发表于 2025-1-24 11:43
私我看看

—— 来自 鹅球 v3.3.96

也私我看看

买码!注册! 发表于 2025-1-24 15:06

coldhot3 发表于 2025-1-24 12:54
这是翻译失真了,关键是out of no where。不是不认识deepseek,是deepseek一个从我们都不知道的地方(暗 ...

"out of nowhere"意思是“突然,出乎意料”

如果换个说法"out of blue"可别解读出“来自跟蓝营/蓝州有关系的地方”

流缨 发表于 2025-1-24 15:14

Bronzecraft 发表于 2025-1-24 14:26
我试着问了下《暴风城打工实录》最新章是多少,给的答案还是错的

这个估计没法对,独阅读就没有公域流量,搜索不到的,只能爬盗版站的结果

流缨 发表于 2025-1-24 15:21

本帖最后由 流缨 于 2025-1-24 15:25 编辑

mp5 发表于 2025-1-24 12:34
本地部署了一个Q4量化32b的r1, 已经爽到飞起
跟closeai免费帐号的水平差不多, 长推理更是完爆 ...
求问一下硬件环境,手头现在只有一块4090,32B应该没压力吧?

tioit 发表于 2025-1-24 15:36

deepseek 搜索还是有点问题
昨天我搜 “鸿蒙智行旗下的车,内存大小分别是多少?”
回答的数据不大对。

还得不断训练
页: 1 2 3 4 5 [6] 7 8 9 10 11 12 13
查看完整版本: 西方自找的没落(转型DEEPSEEK讨论楼