就在刚刚,deepseek发布多模态llm Janus-Pro-7B
https://hf-mirror.com/deepseek-ai/Janus-Pro-7B/tree/main 会给网页版本使用吗?答案:丰川祥子 https://p.sda1.dev/21/57875c7fc7eb08fb6f58dd0948e14cf1/CMP_20250128010946849.jpg 卧槽老钟也太坏了怎么这个点发 祆天发育不良 发表于 2025-1-28 01:19
卧槽老钟也太坏了怎么这个点发
道指还是红的呢,问题还不严重 太坏了太坏了,向世界展示下什么叫真正的金融科技
—— 来自 鹅球 v3.3.96 据说可以生成图像?
—— 来自 鹅球 v3.3.96 可以生成也可以理解图
本帖最后由 d2loader 于 2025-1-28 01:39 编辑
披头破落户 发表于 2025-1-28 01:33
据说可以生成图像?
—— 来自 鹅球 v3.3.96
因为AI绘图实质上你可以理解成用语言描述类似"在屏幕的某个位置画一些什么样的像素" 然后降噪的过程, 所以用LLM加强这是一种常见的路径
幻方这个模型就是底层换了自己LLM, 然后生成的图片比SD系更加精确 一个猜想不一定对:他们为了在金融市场赚钱顺便做了个ai 这特么明显先做了空单才发布的吧
—— 来自 鹅球 v3.3.96 画二次元色图的能力怎么样? 《为什么要开源》 现在DeepSeek一直被挤爆,好着急 d2loader 发表于 2025-1-28 01:37
因为AI绘图实质上你可以理解成用语言描述类似"在屏幕的某个位置画一些什么样的像素" 然后降噪的过程, 所以 ...
但是它应该还是缝合的SigLIP和SDXL系,最主要的工作是编码器和LLM对齐吧。 对美股的一声新年快乐,motherf***er 570898 发表于 2025-1-28 01:01
答案:丰川祥子
《是的,睦!》《对的,初华!》《牛的,喵梦!》《卧槽里的,丰川翔子!》 盘中放新模型的消息?还有高手?
—— 来自 鹅球 v3.3.96 deepseek:千问,在你整活之前,我已经整了。 大半夜的一堆中国科技工作者不睡觉不休假给美国股民送去中国新年的问候,多么令人感动。 美股市值一万亿美元放了炮仗了 牛逼 毕竟综合模型,图像质量不如flux,但似乎对输入图片的理解能力十分强大。结论:可作为图片打标器使用 这个是老的技术路线了,同等规模下应该是打不过diffusion模型的。
当然要是一觉醒来被打脸了可就太好了。
—— 来自 鹅球 v3.3.96 本帖最后由 泰坦失足 于 2025-1-28 03:50 编辑
tonyunreal 发表于 2025-1-28 02:45
这个是老的技术路线了,同等规模下应该是打不过diffusion模型的。
当然要是一觉醒来被打脸了可就太好了。
看到图片理解能力的对比实验时候我挺奇怪的,llava不是老东西了吗?qwen vl也是1不是2。看了下qwen vl 2报告。同等尺寸下qwen 2 vl的MMLU更好。一般都是和大厂出品对比吧,比如gpt 4o mini这种,就看到个谷歌丢人的gemini nano。当然具体如何,今天应该就能出其他结果。那个r1一看对比实验的表格就牛逼。 量化终极思路:自己先做多/做空,然后放模型 这摆明了是金融战了啊,真TMD的蛇年快乐 tonyunreal 发表于 2025-1-28 02:45
这个是老的技术路线了,同等规模下应该是打不过diffusion模型的。
当然要是一觉醒来被打脸了可就太好了。
diffusion也就是扩散模型,优势就是占用低,成了是第一批可以用户本地部署自定义的图像生成式ai,其他的优点并不突出。 猪突猛进R 发表于 2025-1-28 01:47
一个猜想不一定对:他们为了在金融市场赚钱顺便做了个ai
应该是做量化模型的过程中做出了牛逼的ai模型
然后发现有机会做空巨无霸公司
然后精心准备了一场商战
估计是赌上了公司全部资金,为了赢的彻底,所以直接开源,而且准备了多个模型
—— 来自 鹅球 v3.3.96-alpha 我只想要一个能随便画色图的模型啊你们在干什么
论坛助手,iPhone 王苍幻 发表于 2025-1-28 03:46
应该是做量化模型的过程中做出了牛逼的ai模型
然后发现有机会做空巨无霸公司
然后精心准备了一场商战
真服了,赢起来什么乱七八糟的都能扯了 有人试着生成二次元图了,基本是鬼图,不过似乎图片识别功能还挺好用的 本帖最后由 pf67 于 2025-1-28 06:49 编辑
d2loader 发表于 2025-1-28 01:37
因为AI绘图实质上你可以理解成用语言描述类似"在屏幕的某个位置画一些什么样的像素" 然后降噪的过程, 所以 ...
完全不是这样……
传统的diffusion的是降噪来一步步预测下一个噪声,从而实现图像还原,语言编码进去只是辅助降噪,你换llm基本没啥用
现在一个新方向是用自回归的transform来做端到端,是基于序列元素预测下一个序列元素(还记得字节跳动那个给大模型下毒的实习生么,他的获奖论文就是这个方向的)
ds这个多模态也是这个方向的
我的看法,虽然这些自回归模型全都号称效果超过diffusion,但是工程化和数据治理上,diffusion模型已经走的太远了,实践上自回归一时半会不可能赶上
—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4 王苍幻 发表于 2025-1-28 03:46
应该是做量化模型的过程中做出了牛逼的ai模型
然后发现有机会做空巨无霸公司
然后精心准备了一场商战
但人家其实11月也开源了上一个版本的模型框架,只是根本没人关注
—— 来自 OPPO PCLM10, Android 12上的 S1Next-鹅版 v2.5.4 这玩意需要 22G 显存,随便玩玩的跑不起来
diffusion 好处的地方也是普惠,后面社区加了很多方案让生成更稳定,算是开源社区通力协作的典范之一。反正路线都可以尝试,但长期投入未必不是不行。只是看起来图像输出更像顺手的产出,主要还是多模态的探索 tonyshva 发表于 2025-1-28 03:55
我只想要一个能随便画色图的模型啊你们在干什么
论坛助手,iPhone
“我是来看色图的,你们要干什么?!”然后大吼一声,朝梁文锋扑过去…… 这个看起来比r1震撼度差远了啊 没有发推更新,他家的多模态还得再等吧 RandomDictator 发表于 2025-1-28 08:06
这个看起来比r1震撼度差远了啊
是没有那种震撼。刚看到新闻还以为是二连击,直接连多模态也走通了。草草看了一遍后,发现如果敢冲的话完全可以趁着大家以为是R1同等重量级模型时候抄底,然后等反应过来不是那种重量级发明时候卖出。反正我不敢。
这也行啊。DS内部有博人传的情报自来也-那个果心居士,先知道怎么训练是对的,再行动?
页:
[1]
2