找回密码
 立即注册
搜索
查看: 9581|回复: 35

[软件] M1 Pro 测试 MochiDiffusion AI画图的功耗和性能

[复制链接]
头像被屏蔽
发表于 2023-1-20 15:30 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-20 15:53 | 显示全部楼层
mbp的显存实在是可怜,确实毫无优势
回复

使用道具 举报

发表于 2023-1-20 17:19 | 显示全部楼层
买个32g的mbp是不是显存能用到16g?
回复

使用道具 举报

头像被屏蔽
 楼主| 发表于 2023-1-20 17:38 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-20 17:38 | 显示全部楼层
功耗低的离谱
回复

使用道具 举报

     
发表于 2023-1-20 17:39 | 显示全部楼层
感觉速度优势不是很明显 但是这个显存(内存)优势很大
回复

使用道具 举报

     
发表于 2023-1-20 17:52 | 显示全部楼层
M系列本来特色就是
能做到的事情基本上都能以非常夸张的能耗比在一个相对合理的时间里给你完成掉....
回复

使用道具 举报

发表于 2023-1-20 18:12 | 显示全部楼层
chaucerling 发表于 2023-1-20 17:38
理论上是动态分配的,内存和显存不爆32g就行,内存还能转成虚拟内存,m1 max更高的内存带宽在这种情况也 ...

这显存使用方式很棒啊。。只能512x512不应该啊。等app完善后就没老黄什么事了
回复

使用道具 举报

     
发表于 2023-1-20 20:37 来自手机 | 显示全部楼层
等一个发展,不能干掉老黄,给一个第二选择也是好的
回复

使用道具 举报

     
发表于 2023-1-20 21:23 | 显示全部楼层
试了下,相比DiffusionBee速度提升太多,太牛了。
回复

使用道具 举报

     
发表于 2023-1-21 01:42 | 显示全部楼层
PalmTiger 发表于 2023-1-20 18:12
这显存使用方式很棒啊。。只能512x512不应该啊。等app完善后就没老黄什么事了 ...

巴不得马上干碎老黄,可惜现在还是差得远

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2023-1-21 07:53 来自手机 | 显示全部楼层
将普通模型转成coreML 模型的过程是谁做的?恐怕这个过程本身也对模型做了优化吧.现在ai画图的模型本身就是训练出来后没有重新写推理的,开销当然大
回复

使用道具 举报

头像被屏蔽
 楼主| 发表于 2023-1-21 08:59 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2023-1-21 10:09 | 显示全部楼层
测试了下,体验很好
M2 MacBook Air, Activity Monitor里头看就占了3G Memory,step调到48也就半分钟左右一张

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-1-24 14:30 | 显示全部楼层
为什么AAPL总喜欢把新功能和系统绑定
各种系统App更新也是这样
回复

使用道具 举报

发表于 2023-1-24 15:15 | 显示全部楼层
8G内存的mac mini可以用吗?
大概率去买一个mac mini m2丐版
回复

使用道具 举报

头像被屏蔽
 楼主| 发表于 2023-1-24 16:03 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-24 18:52 | 显示全部楼层
本帖最后由 Cairetina 于 2023-1-24 18:56 编辑

其实去年 11 月就有 MPS + Swift 的 Stable Diffusion 实现了啊,不知道为啥这么久了还有在提 diffusionbee 的

https://apps.apple.com/jp/app/dr ... ration/id6444050820

上架 App Store 支持 iOS/iPadOS/macOS

使用 2-3 GB 统一内存在 M1 设备上达到512x512 <1s/step,同时也支持使用 CoreML 在 ANE/GPU/CPU 间并行以进一步提升速度

功能上支持各类模型和自定义模型(内置 Swift 实现的转换器),混合模型(包括 vae),inpaint,img2img,project,内置 ESRGAN 等 upscaler 模型整合,自定义画布分辨率这种最基础的就不多说了

早就不用电脑跑了,手机上跑了几个月了

评分

参与人数 1战斗力 +1 收起 理由
PalmTiger + 1 感谢推荐

查看全部评分

回复

使用道具 举报

     
发表于 2023-1-24 22:05 | 显示全部楼层
apple silicon可以选32G甚至64G的,虽然比PC的内存贵,但是比老黄那边便宜多了
这波是Apple的黄金内存性价比暴涨了
回复

使用道具 举报

发表于 2023-1-24 22:53 | 显示全部楼层
其实M系列我觉得最好的就是这个统一内存,毕竟传统的CPU-内存-GPU结构(应该叫IBM PC结构?)在异构计算时,瓶颈大概率就是PCIE带宽

这时想起来,新一代主机也是统一内存架构吧,也许PS5/XSX如果能跑AI画图,效率会意外地高

现在以CPU和内存为核心的架构,是在机械软硬盘极慢,GPU尚未发展起来时就确立的
根据现在SSD外存和高速GPU的发展程度,结合AI、游戏等现实需求,感觉现有的系统结构也该改变一下了

或许这样也能在死气沉沉的PC市场搞出点新的增长点?说不定也可能真的实现大家干掉老黄的愿望
回复

使用道具 举报

     
发表于 2023-1-25 00:43 | 显示全部楼层
citrus 发表于 2023-1-24 22:53
其实M系列我觉得最好的就是这个统一内存,毕竟传统的CPU-内存-GPU结构(应该叫IBM PC结构?)在异构计算时 ...

实际上至少跑stable diffusion的时候,RAM和VRAM之间并没有那么多交互,pcie控制器并不是瓶颈,瓶颈还是在显卡的IMC上
倒是希望苹果可以把老黄阉割显存容量和带宽的这点干掉。这么多年主流显卡的显存带宽似乎都没什么提升
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-25 01:27 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-25 10:34 来自手机 | 显示全部楼层
饼大飞砖,水果有钱的优势

—— 来自 Xiaomi M2102K1C, Android 12上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-1-25 10:53 来自手机 | 显示全部楼层
citrus 发表于 2023-1-24 22:53
其实M系列我觉得最好的就是这个统一内存,毕竟传统的CPU-内存-GPU结构(应该叫IBM PC结构?)在异构计算时 ...

任何一个正经的模型在运行的时候都不会在cpu上进行任何计算,和ram的交互也仅限于input和output

—— 来自 Xiaomi M2007J3SC, Android 11上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-1-25 10:58 来自手机 | 显示全部楼层
本帖最后由 Cairetina 于 2023-1-25 11:00 编辑
ls2021 发表于 2023-1-25 00:43
实际上至少跑stable diffusion的时候,RAM和VRAM之间并没有那么多交互,pcie控制器并不是瓶颈,瓶颈还是 ...

有一些区别

1.所有参与的异构核心 ANE/GPU/CPU(AMX) 都是 peers,zero copy,只有读写结构化的方式上有区别,而传统结构的问题发生在推理前,要么将模型驻留于 VRAM 中,要么就需要进行一次拷贝

2.异构核心均可以进行 page in/out,以更低的实际内存容量大小应对异构核心中更高的突发性内存使用

此外
1.对这类结构,谈 “显存容量” 这个概念没什么意义
2.现有情况下高带宽会带来能耗上的问题,苹果目前采用 TBDR + cHSR 来降低带宽压力,代价是损失一些峰值性能和旧管线兼容,换来能效与延迟(主要依靠堆8/16/32 通道 DDR 而不采用 GDDR)上的优势,同时也得到一些在 CPU 单核心高带宽利用率上的好处,因此不太可能看到带宽高过 N 卡的情况出现


—— 来自 Google Pixel 6 Pro, Android 13上的 S1Next-鹅版 v2.5.2-play

评分

参与人数 1战斗力 +2 收起 理由
citrus + 2

查看全部评分

回复

使用道具 举报

     
发表于 2023-1-25 11:06 来自手机 | 显示全部楼层
本帖最后由 Cairetina 于 2023-1-25 11:07 编辑
灰流うらら 发表于 2023-1-25 10:53
任何一个正经的模型在运行的时候都不会在cpu上进行任何计算,和ram的交互也仅限于input和output

—— 来 ...

在推理中往往是可以但没必要,而不是一定不,但在 ASi 上常常有多个异构核心与 CPU 并行的情况

—— 来自 Google Pixel 6 Pro, Android 13上的 S1Next-鹅版 v2.5.2-play
回复

使用道具 举报

发表于 2023-1-25 11:32 | 显示全部楼层
灰流うらら 发表于 2023-1-25 10:53
任何一个正经的模型在运行的时候都不会在cpu上进行任何计算,和ram的交互也仅限于input和output

—— 来 ...

我也写过类似的东西(虽然是科学计算而不是ML推理)
可以在CPU上进行计算,但完成CUDA部分已经够累了,感觉再把CPU部分完成,还得手搓一个异步调度,GPU和CPU的算力分别是4xV100和2x12c至强,感觉工作量大收益不大,就直接摆了只用GPU跑,效果也不错

相信很多AI模型也是这样。但商业化的科学计算软件,我接触到的一般就是CPU+GPU全部占满的

回复

使用道具 举报

     
发表于 2023-1-25 14:28 | 显示全部楼层
感慨一下,什么时候有人在摩尔线程沐曦寒武纪的芯片上移植SD成功了,国产GPU就算真正走上竞技场了吧。
回复

使用道具 举报

     
发表于 2023-1-25 16:59 来自手机 | 显示全部楼层
看来m2有意义
回复

使用道具 举报

     
发表于 2023-1-25 17:08 来自手机 | 显示全部楼层
本帖最后由 御坂MKII 于 2023-1-25 17:24 编辑
燕山雪 发表于 2023-1-25 14:28
感慨一下,什么时候有人在摩尔线程沐曦寒武纪的芯片上移植SD成功了,国产GPU就算真正走上竞技场了吧。 ...

国产gpu几家靠谱的都不做民用部分,会兼容cuda,但是不做gui接口,卖也是面向数据中心

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-1-25 17:16 来自手机 | 显示全部楼层
御坂MKII 发表于 2023-1-25 17:08
国产gpu几家靠谱的都不做民用部分

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4 ...

不做民用的只有骗补贴机器和慢性死亡两种结局
回复

使用道具 举报

     
发表于 2023-1-25 17:26 来自手机 | 显示全部楼层
本帖最后由 御坂MKII 于 2023-1-25 17:40 编辑
燕山雪 发表于 2023-1-25 17:16
不做民用的只有骗补贴机器和慢性死亡两种结局

diy/pc死路一条啊 反而是数据中心比老黄性价比高多了

amd的驱动都一直破烂,你真要创业公司除了做cuda还要再找人做win api和directx去卷吗

以及 之前美国的算力限制,就是这几家做机器学习卡的公司流片的算力设计爬坡爬出来的。几乎所有的公司都改了下一代流片的设计,因为全超了限制

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-1-25 17:52 | 显示全部楼层
本帖最后由 燕山雪 于 2023-1-25 18:08 编辑
御坂MKII 发表于 2023-1-25 17:26
diy/pc死路一条啊 反而是数据中心比老黄性价比高多了

amd的驱动都一直破烂,你真要创业公司除了 ...

数据中心不算民用?高校跑AI和数值计算不算民用?

另外Cuda闭源的怎么兼容,OPENCL/ROCM还差不多。如果pytorch2.0的primtorch也支持不好,就不要怪别人没给机会了~
回复

使用道具 举报

     
发表于 2023-1-25 18:03 | 显示全部楼层
御坂MKII 发表于 2023-1-25 17:26
diy/pc死路一条啊 反而是数据中心比老黄性价比高多了

amd的驱动都一直破烂,你真要创业公司除了 ...

老美那个算力限制本身很扯淡,这几年的GPGPU初创公司被算力军备竞赛完全带歪了,锁算力上限,让大家把注意力从MAC数量转回良率兼容性和能效比上来,说是拨乱反正都不为过。真正卡脖子的是其它条款
回复

使用道具 举报

     
发表于 2023-1-25 18:51 来自手机 | 显示全部楼层
本帖最后由 御坂MKII 于 2023-1-25 18:54 编辑
燕山雪 发表于 2023-1-25 17:52
数据中心不算民用?高校跑AI和数值计算不算民用?

另外Cuda闭源的怎么兼容,OPENCL/ROCM还差不多。如果py ...

那没事儿了。专做军政的你认为的非民用那肯定是看都不看。提市场我都默认个人用图形卡和计算卡两边,所以个人用就是民用,计算卡是商用

个人用的卡和计算卡之前自然是先做计算卡好。具体兼容策略没问过,但是他们提过迁移成本肯定是很低的。后面再问问好了

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-1-25 22:22 来自手机 | 显示全部楼层
御坂MKII 发表于 2023-1-25 18:51
那没事儿了。专做军政的你认为的非民用那肯定是看都不看。提市场我都默认个人用图形卡和计算卡两 ...

国产这些家的策略基本都是自己搞一套软件栈,直接读onnx

—— 来自 Xiaomi M2007J3SC, Android 11上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 23:59 , Processed in 0.139177 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表