找回密码
 立即注册
搜索
查看: 14100|回复: 46

[科技] 就在刚刚,deepseek发布多模态llm Janus-Pro-7B

[复制链接]
     
发表于 2025-1-28 00:59 来自手机 | 显示全部楼层 |阅读模式
https://hf-mirror.com/deepseek-ai/Janus-Pro-7B/tree/main

评分

参与人数 7战斗力 +8 收起 理由
哥伦布蛋 + 1
偽物 + 1 好评加鹅
船见 + 1 好评加鹅
溴麝香草酚蓝 + 1
SkavenYesYes + 1 欢乐多
INDIASH + 2 欢乐多
黄泉川此方 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-28 01:00 | 显示全部楼层
会给网页版本使用吗?
回复

使用道具 举报

发表于 2025-1-28 01:01 | 显示全部楼层


答案:丰川祥子

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-28 01:10 来自手机 | 显示全部楼层
回复

使用道具 举报

发表于 2025-1-28 01:19 来自手机 | 显示全部楼层
卧槽老钟也太坏了怎么这个点发
回复

使用道具 举报

     
发表于 2025-1-28 01:23 | 显示全部楼层
祆天发育不良 发表于 2025-1-28 01:19
卧槽老钟也太坏了怎么这个点发

道指还是红的呢,问题还不严重

评分

参与人数 1战斗力 +1 收起 理由
偽物 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-28 01:30 来自手机 | 显示全部楼层
太坏了太坏了,向世界展示下什么叫真正的金融科技

—— 来自 鹅球 v3.3.96

评分

参与人数 1战斗力 +1 收起 理由
偽物 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-28 01:33 来自手机 | 显示全部楼层
据说可以生成图像?

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-28 01:34 | 显示全部楼层
可以生成也可以理解图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-1-28 01:37 | 显示全部楼层
本帖最后由 d2loader 于 2025-1-28 01:39 编辑
披头破落户 发表于 2025-1-28 01:33
据说可以生成图像?

—— 来自 鹅球 v3.3.96

因为AI绘图实质上你可以理解成用语言描述类似"在屏幕的某个位置画一些什么样的像素" 然后降噪的过程, 所以用LLM加强这是一种常见的路径

幻方这个模型就是底层换了自己LLM, 然后生成的图片比SD系更加精确
回复

使用道具 举报

发表于 2025-1-28 01:47 | 显示全部楼层
一个猜想不一定对:他们为了在金融市场赚钱顺便做了个ai
回复

使用道具 举报

发表于 2025-1-28 01:52 来自手机 | 显示全部楼层
这特么明显先做了空单才发布的吧

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-28 01:58 | 显示全部楼层
画二次元色图的能力怎么样?
回复

使用道具 举报

     
发表于 2025-1-28 02:00 | 显示全部楼层
《为什么要开源》
回复

使用道具 举报

     
发表于 2025-1-28 02:04 | 显示全部楼层
现在DeepSeek一直被挤爆,好着急
回复

使用道具 举报

     
发表于 2025-1-28 02:04 来自手机 | 显示全部楼层
d2loader 发表于 2025-1-28 01:37
因为AI绘图实质上你可以理解成用语言描述类似"在屏幕的某个位置画一些什么样的像素" 然后降噪的过程, 所以 ...

但是它应该还是缝合的SigLIP和SDXL系,最主要的工作是编码器和LLM对齐吧。
回复

使用道具 举报

发表于 2025-1-28 02:05 来自手机 | 显示全部楼层
对美股的一声新年快乐,motherf***er
回复

使用道具 举报

     
发表于 2025-1-28 02:09 来自手机 | 显示全部楼层
570898 发表于 2025-1-28 01:01
答案:丰川祥子


《是的,睦!》《对的,初华!》《牛的,喵梦!》《卧槽里的,丰川翔子!》
回复

使用道具 举报

     
发表于 2025-1-28 02:15 来自手机 | 显示全部楼层
盘中放新模型的消息?还有高手?

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-28 02:19 来自手机 | 显示全部楼层
deepseek:千问,在你整活之前,我已经整了。
回复

使用道具 举报

     
发表于 2025-1-28 02:21 | 显示全部楼层
大半夜的一堆中国科技工作者不睡觉不休假给美国股民送去中国新年的问候,多么令人感动。
回复

使用道具 举报

     
发表于 2025-1-28 02:31 | 显示全部楼层
美股市值一万亿美元放了炮仗了 牛逼
回复

使用道具 举报

     
发表于 2025-1-28 02:44 | 显示全部楼层
毕竟综合模型,图像质量不如flux,但似乎对输入图片的理解能力十分强大。结论:可作为图片打标器使用
回复

使用道具 举报

     
发表于 2025-1-28 02:45 来自手机 | 显示全部楼层
这个是老的技术路线了,同等规模下应该是打不过diffusion模型的。

当然要是一觉醒来被打脸了可就太好了。

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-28 03:00 | 显示全部楼层
本帖最后由 泰坦失足 于 2025-1-28 03:50 编辑
tonyunreal 发表于 2025-1-28 02:45
这个是老的技术路线了,同等规模下应该是打不过diffusion模型的。

当然要是一觉醒来被打脸了可就太好了。

看到图片理解能力的对比实验时候我挺奇怪的,llava不是老东西了吗?qwen vl也是1不是2。看了下qwen vl 2报告。同等尺寸下qwen 2 vl的MMLU更好。一般都是和大厂出品对比吧,比如gpt 4o mini这种,就看到个谷歌丢人的gemini nano。当然具体如何,今天应该就能出其他结果。那个r1一看对比实验的表格就牛逼。
回复

使用道具 举报

     
发表于 2025-1-28 03:02 | 显示全部楼层
量化终极思路:自己先做多/做空,然后放模型
回复

使用道具 举报

     
发表于 2025-1-28 03:18 | 显示全部楼层
这摆明了是金融战了啊,真TMD的蛇年快乐
回复

使用道具 举报

     
发表于 2025-1-28 03:19 | 显示全部楼层
tonyunreal 发表于 2025-1-28 02:45
这个是老的技术路线了,同等规模下应该是打不过diffusion模型的。

当然要是一觉醒来被打脸了可就太好了。

diffusion也就是扩散模型,优势就是占用低,成了是第一批可以用户本地部署自定义的图像生成式ai,其他的优点并不突出。
回复

使用道具 举报

     
发表于 2025-1-28 03:46 来自手机 | 显示全部楼层
猪突猛进R 发表于 2025-1-28 01:47
一个猜想不一定对:他们为了在金融市场赚钱顺便做了个ai

应该是做量化模型的过程中做出了牛逼的ai模型
然后发现有机会做空巨无霸公司
然后精心准备了一场商战
估计是赌上了公司全部资金,为了赢的彻底,所以直接开源,而且准备了多个模型

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-1-28 03:55 | 显示全部楼层
我只想要一个能随便画色图的模型啊你们在干什么

论坛助手,iPhone

评分

参与人数 1战斗力 +1 收起 理由
cot90 + 1 欢乐多

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-28 04:13 来自手机 | 显示全部楼层
王苍幻 发表于 2025-1-28 03:46
应该是做量化模型的过程中做出了牛逼的ai模型
然后发现有机会做空巨无霸公司
然后精心准备了一场商战

真服了,赢起来什么乱七八糟的都能扯了
回复

使用道具 举报

发表于 2025-1-28 04:21 | 显示全部楼层
有人试着生成二次元图了,基本是鬼图,不过似乎图片识别功能还挺好用的
回复

使用道具 举报

     
发表于 2025-1-28 06:44 来自手机 | 显示全部楼层
本帖最后由 pf67 于 2025-1-28 06:49 编辑
d2loader 发表于 2025-1-28 01:37
因为AI绘图实质上你可以理解成用语言描述类似"在屏幕的某个位置画一些什么样的像素" 然后降噪的过程, 所以 ...

完全不是这样……
传统的diffusion的是降噪来一步步预测下一个噪声,从而实现图像还原,语言编码进去只是辅助降噪,你换llm基本没啥用

现在一个新方向是用自回归的transform来做端到端,是基于序列元素预测下一个序列元素(还记得字节跳动那个给大模型下毒的实习生么,他的获奖论文就是这个方向的)

ds这个多模态也是这个方向的

我的看法,虽然这些自回归模型全都号称效果超过diffusion,但是工程化和数据治理上,diffusion模型已经走的太远了,实践上自回归一时半会不可能赶上

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-28 06:50 来自手机 | 显示全部楼层
王苍幻 发表于 2025-1-28 03:46
应该是做量化模型的过程中做出了牛逼的ai模型
然后发现有机会做空巨无霸公司
然后精心准备了一场商战

但人家其实11月也开源了上一个版本的模型框架,只是根本没人关注

—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2025-1-28 07:02 来自手机 | 显示全部楼层
这玩意需要 22G 显存,随便玩玩的跑不起来

diffusion 好处的地方也是普惠,后面社区加了很多方案让生成更稳定,算是开源社区通力协作的典范之一。反正路线都可以尝试,但长期投入未必不是不行。只是看起来图像输出更像顺手的产出,主要还是多模态的探索
回复

使用道具 举报

     
发表于 2025-1-28 08:03 来自手机 | 显示全部楼层
tonyshva 发表于 2025-1-28 03:55
我只想要一个能随便画色图的模型啊你们在干什么

论坛助手,iPhone

“我是来看色图的,你们要干什么?!”然后大吼一声,朝梁文锋扑过去……
回复

使用道具 举报

     
发表于 2025-1-28 08:06 | 显示全部楼层
这个看起来比r1震撼度差远了啊
回复

使用道具 举报

     
发表于 2025-1-28 08:11 | 显示全部楼层
没有发推更新,他家的多模态还得再等吧
回复

使用道具 举报

     
发表于 2025-1-28 08:18 | 显示全部楼层
RandomDictator 发表于 2025-1-28 08:06
这个看起来比r1震撼度差远了啊

是没有那种震撼。刚看到新闻还以为是二连击,直接连多模态也走通了。草草看了一遍后,发现如果敢冲的话完全可以趁着大家以为是R1同等重量级模型时候抄底,然后等反应过来不是那种重量级发明时候卖出。反正我不敢。
回复

使用道具 举报

     
发表于 2025-1-28 08:23 | 显示全部楼层

这也行啊。DS内部有博人传的情报自来也-那个果心居士,先知道怎么训练是对的,再行动?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 01:30 , Processed in 0.224696 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表