找回密码
 立即注册
搜索
楼主: nemo_snowman

[硬件] 龙芯6600架构超越Zen3

[复制链接]
     
发表于 2024-3-26 02:03 | 显示全部楼层
卖哥 发表于 2024-3-25 14:26
龙架构指令集里有800条是拿来提高转译效率的。

翻译指令200条不到
700多条128位向量指令+700多条256位向量指令
回复

使用道具 举报

     
发表于 2024-3-26 02:09 | 显示全部楼层
Midnight.Coup 发表于 2024-3-22 23:33
龙芯的SPEC06成绩不是定向优化的嘛

定向优化个啥啊,造谣0成本么
gcc上游已经合并一年多了,复现成绩发出来的人两只手指都数不过来了
3a6000我都用了快一年了,以龙芯的舆论环境,真要是有啥巨大差异,早被刷了几百万次头条了

回复

使用道具 举报

     
发表于 2024-3-26 02:19 | 显示全部楼层
kuleisite1992 发表于 2024-3-23 09:57
3A6000那个SPEC17分数帖子还是我转的。

问题是20分,我看有些人还要吹22分/G

3a6000其实还是有些地方搓烂了的
比如hardware page walker,烂了
现在卖的3a6000这项功能都是固件关闭的
向量指令有些延迟和吞吐比i/a还有差距,load/store 超线程环境下性能下降

就这样还有17/GHz, 而且穷逼龙芯为了省钱,这些都不修,就直接卖了(修还得重新流片)

老胡自己说的是20分,但是最新ppt显示老胡又打算省钱了
老胡又搓了一个8发射的la864内核,就是不知道是3b6600 流片两种,还是 4+4(4xla664改+4xla864)

回复

使用道具 举报

     
发表于 2024-3-26 08:17 | 显示全部楼层

是我消息落后了
回复

使用道具 举报

     
发表于 2024-3-26 09:04 来自手机 | 显示全部楼层

印象里邮件列表还在搞编译服务器,这就已经成了?
回复

使用道具 举报

头像被屏蔽
     
发表于 2024-3-26 09:24 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2024-3-26 09:48 | 显示全部楼层
geeky_kappa 发表于 2024-3-26 09:04
印象里邮件列表还在搞编译服务器,这就已经成了?

debian现在
amd64/arm64/rv64/loong64 包数量分别是
174xx/172xx/163xx/153xx

rv64比loong64先搞了好几年呢
回复

使用道具 举报

     
发表于 2024-3-26 09:50 | 显示全部楼层
7776169 发表于 2024-3-26 09:24
所以很想问一下
现在到底水平如何?
以后可以的话打算买一个放客厅里当机顶盒看b站用

目前不适合当机顶盒,因为集显没搓出来解码ip
得挂一个 a卡或者 intel的卡

回复

使用道具 举报

     
发表于 2024-3-26 10:29 | 显示全部楼层
phorcys02 发表于 2024-3-26 02:09
定向优化个啥啊,造谣0成本么
gcc上游已经合并一年多了,复现成绩发出来的人两只手指都数不过来了
3a6000 ...

这个官方说的怎么就是我造谣了
774e8e4f2235492986abb8829f5e5b66~noop.png
回复

使用道具 举报

发表于 2024-3-26 10:50 | 显示全部楼层
Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

编译器增加了新指令集支持所以分数提高了,很正常啊,这是常规优化。
回复

使用道具 举报

     
发表于 2024-3-26 10:56 | 显示全部楼层
Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

定向优化是指这个编译器只有spec提高了。
你证明一下
回复

使用道具 举报

     
发表于 2024-3-26 10:59 | 显示全部楼层
本帖最后由 Midnight.Coup 于 2024-3-26 11:00 编辑
卖哥 发表于 2024-3-26 10:56
定向优化是指这个编译器只有spec提高了。
你证明一下

你说的这叫“只对spec06定向优化”,怎么比隔壁海军果粉还魔怔人
回复

使用道具 举报

     
发表于 2024-3-26 11:05 | 显示全部楼层
本帖最后由 卖哥 于 2024-3-26 11:10 编辑
Midnight.Coup 发表于 2024-3-26 10:59
你说的这叫“只对spec06定向优化”,怎么比隔壁海军果粉还魔怔人

很奇怪么,这事情又不少见。
https://news.mydrivers.com/1/963/963773.htm

英特尔往编译器里塞了预先写好了一些二进制代码,在编译SPEC cpu2017的523.xalancbmk_r、623.xalancbmk_s项目时不走流程直接用现成的。
回复

使用道具 举报

     
发表于 2024-3-26 11:14 | 显示全部楼层
本帖最后由 Midnight.Coup 于 2024-3-26 11:15 编辑

我看了下这个 oneAPI DPC++/C++ Compiler 就是 ICC 的后继版本,ICC 作弊这么多年了大家都知道,但真有需要的用 IU 也会去 ICC 编译,虽然问题一大堆,而且同为 x86 的 AU 都吃不到这个加成
回复

使用道具 举报

     
发表于 2024-3-26 11:17 | 显示全部楼层
Midnight.Coup 发表于 2024-3-26 11:14
我看了下这个 oneAPI DPC++/C++ Compiler 就是 ICC 的后继版本,ICC 作弊这么多年了大家都知道,但真有需 ...

被封不是性能优化无法应用于AU,是
The compiler used for this result was performing a compilation that specifically improves the performance of the 523.xalancbmk_r / 623.xalancbmk_s benchmarks using a priori knowledge

而是针对特定源代码内置了预先写好的二进制代码,估计是英特尔老师傅手搓优化的。
回复

使用道具 举报

     
发表于 2024-3-26 11:51 | 显示全部楼层
卖哥 发表于 2024-3-26 11:17
被封不是性能优化无法应用于AU,是

而是针对特定源代码内置了预先写好的二进制代码,估计是英特尔老师傅 ...

只能说 Sapphire Rapids-SP 这代实在太拉了,后面的 Emerald Rapids-SP 就没有这个问题
回复

使用道具 举报

     
发表于 2024-3-26 11:53 | 显示全部楼层
Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

"定向优化“
像icc或者掏钱买几个对spec有加成的库,叫做”定向优化“

龙芯无论新旧世界,gcc代码都是公开的
只有全面优化,没有”定向优化“
你关注gcc maillist就会发现每周每月都在慢慢修

甚至现在的优化程度和自动向量化,还不配给x86提鞋
但就这垃圾gcc,也有17分/GHz了

回复

使用道具 举报

     
发表于 2024-3-26 12:26 | 显示全部楼层
本帖最后由 Midnight.Coup 于 2024-3-26 12:34 编辑
phorcys02 发表于 2024-3-26 11:53
"定向优化“
像icc或者掏钱买几个对spec有加成的库,叫做”定向优化“

https://zhuanlan.zhihu.com/p/654721485
Loongnix 的 GCC 8.3.0 其实是开源的,可以从源里面下载源码(http://www.loongnix.cn/zh/toolchain/GNU/),但里面是一堆 patch,很多修改没有贡献到上游。
现在这些 patch 已经上游化了?龙芯官方微信号上那些成绩是在新世界还是旧世界上跑出来的
回复

使用道具 举报

     
发表于 2024-3-26 12:38 | 显示全部楼层
Midnight.Coup 发表于 2024-3-26 12:26
https://zhuanlan.zhihu.com/p/654721485
现在这些 patch 已经上游化了?龙芯官方微信号上那些成绩是在新 ...

官方成绩是loongnix跑的
新世界的成绩也很多,比官方的低10%(去年),5%(今年),你用的gcc越新,成绩越高
那些patch正在慢慢上游化,毕竟gcc review还是很严格的
不像龙芯自己搓的时候爱怎么写都行

回复

使用道具 举报

     
发表于 2024-3-26 12:44 来自手机 | 显示全部楼层
卖哥 发表于 2024-3-26 11:17
被封不是性能优化无法应用于AU,是

而是针对特定源代码内置了预先写好的二进制代码,估计是英特尔老师傅 ...

不是预制二进制代码,而是改了benchmark代码里的buffer size。
回复

使用道具 举报

     
发表于 2024-3-26 12:53 | 显示全部楼层
W.K0n9 发表于 2024-3-25 13:25
龙芯要进消费级市场,性能反倒是影响最小的那一环吧LoongArch架构下只能用Linux系统就足够劝退很大 ...

现在有liblol (loongarch on loongarch)

旧世界应用 直接拿过来二进制新世界就能无痛无损耗跑
迁移不迁移其实短期内已经不重要了
回复

使用道具 举报

     
发表于 2024-3-26 13:28 | 显示全部楼层
本帖最后由 Midnight.Coup 于 2024-3-26 13:30 编辑
phorcys02 发表于 2024-3-26 12:53
现在有liblol (loongarch on loongarch)

旧世界应用 直接拿过来二进制新世界就能无痛无损耗跑
为何新世界程序加载旧世界库不可实现?
由于 libLoL 打包的 glibc 并未替换新世界系统的 glibc, 新世界的可执行程序与库都完全没有必要,也不会感知到 libLoL 的存在。 因此,新世界的可执行程序无法载入旧世界提供的动态链接库:宿主系统的 libc 不存在旧世界的 ELF 符号版本。
该需求较为罕见,但存在一种典型场景:输入法。 按照目前 Linux 常见的输入法支持架构,应用程序支持输入法的方式是由其图形界面工具库(GUI toolkit), 如 GTK、Qt 等,按照一定规则,搜索并加载由输入法软件提供的动态链接库。 因此对于旧世界的输入法软件,其提供的动态链接库是旧世界的,无法被新世界的应用程序载入。 由于 libLoL 采用非侵入宿主系统的设计,无法支持在新世界系统上使用旧世界的输入法; 只能呼吁相关厂商适配新世界。
libLoL 运行时的发行目前,libLoL 项目的运行时部分实质上是 patchelf 工具和 glibc 的补丁合集。在构建时,首先构建 glibc,然后构建修改版的 patchelf,最后以此 patchelf 给编译出的glibc 的动态链接库文件进行后处理。这一构建过程较为复杂,并且难以用发行版无关的方式描述,因此 libLoL 项目难以简单地被打包到其它发行版中,用户也很难自行构建。目前,libLoL 项目提供适配 AOSC OS 和 Debian 的发行包。其他需要打包 libLoL 的发行版开发人员需要根据本发行版对 glibc 的处理方式,以及目录布局等相关情况,按照上述基本流程为本发行版定制 libLoL 构建方式。

截至 2024 年 2 月,已经发售的龙芯 3A5000 和龙芯 3A6000 系列等龙架构办公终端类产品,出厂或交付时默认搭载的都是「旧世界」的操作系统和软件。如果您使用过这类终端,相信您很可能使用过 WPS、腾讯会议、微信、QQ、炒股软件、龙芯浏览器等软件。您的组织也可能为其购买或开发了一些商业软件。到目前为止,这些都是基于「旧世界」的软件。「新世界」是龙架构发布后,龙芯中科与社区协作开发的软件生态。目前已经有社区支持的「新世界」操作系统,但是尚未有商业操作系统迁移至「新世界」。

https://areweloongyet.com/docs/world-compat-details/liblol/
这个方案也不是那么万能的,龙芯官方能早日迁移还是早日迁移吧,旧世界反正已经不再会有大的更新了,系统库要更新到最新主流版本也比较麻烦
WP7 当年走过路的,就不要再走了一遍了。其实龙芯完全可以把 loongnix 做成基于 BSD 全部自己开发的一个完整的系统,然后社区版从这个系统的开源版本上改,类似 AOSP 的玩法
回复

使用道具 举报

     
发表于 2024-3-26 13:33 | 显示全部楼层
Midnight.Coup 发表于 2024-3-26 13:28
https://areweloongyet.com/docs/world-compat-details/liblol/
能早日迁移还是早日迁移吧,旧世界反正已 ...

和wp7 迁移差别还是很大的
基本上绝大部分应用只是需要重新make一下就行,有部分需要升级下三方库版本

旧版本可以不用管直接用liblol运行
等龙芯/uos/deepin 发布新版系统以后,在新版系统上额外构建一次就行了

wp7当年变动可太大了,简直翻天覆地,新旧世界 只有 几个syscall 和 sig_t的变动,还有glibc封了一层
对于绝大部分软件来说基本无感
回复

使用道具 举报

     
发表于 2024-7-24 17:51 | 显示全部楼层
image.png
image.png

今天的ppt, 3b6600 大概确定用 la864了 依旧14/12nm 制程,(la664e 和 la864e的 测试应该是回来了,864实际跑分也出来了)
IPC按30%算大概 22-23/GHz(spec cpu2006)  ,ppt写 20分+/GHz
IPC 30%, 频率估计20%,合计约56%  单核2006大概65分左右,编译器再努努力能摸到70分

回复

使用道具 举报

     
发表于 2024-10-17 16:12 | 显示全部楼层
phorcys02 发表于 2024-7-24 17:51
今天的ppt, 3b6600 大概确定用 la864了 依旧14/12nm 制程,(la664e 和 la864e的 测试应该是回来了,86 ...

昨天龙芯工业大会上,老胡 ppt里已经是 >22分/GHz了
说保底也有22/GHz,争取可以 24/GHz
回复

使用道具 举报

     
发表于 2024-10-17 16:19 来自手机 | 显示全部楼层
7776169 发表于 2024-3-26 09:24
所以很想问一下
现在到底水平如何?
以后可以的话打算买一个放客厅里当机顶盒看b站用

你要是想搞个电视盒子还是推荐 intel tiger lake 起的产品,支持 av1 和 hevc 的硬件解码。。

—— 来自 鹅球 v3.2.91
回复

使用道具 举报

     
发表于 2024-10-17 16:50 | 显示全部楼层
本帖最后由 Midnight.Coup 于 2024-10-17 16:55 编辑

今天举办的龙芯工业生态大会上,龙芯中科官方披露了其首款自研显卡芯片“龙芯 9A9100”。官方称之为 GPGPU,也就是通用目的 GPU,支持终端 AI 运算
龙芯 9A1000 预计 2025 年上半年完成流片并拿到样片,性能预计可以达到 AMD 2017 年 4 月份发布的 RX 550 水平,大概相当于 NVIDIA GTX 650 Ti Boost
据官方介绍,龙芯 9A1000 支持 PCIe 4.0,搭配 128bit LPDDR4X 显存,支持 OpenGL 4.0、OpenCL 3.0 等标准 API,集成视频处理模块可硬解 H.264、H.265,支持输出 HDMI 2.1、DisplayPort 1.4、VGA
计算核心数量、显存容量、频率、功耗等暂未披露,而从架构简图上可以看到八组计算阵列,还有片上网络、二级缓存等
性能方面,像素填充率 16GP/s,纹理填充率 32GT/s,算力为 FP32 1TFlops、FP64 64GFlops、INT8 32TFlops

此外,龙芯已经在研究设计下一代“龙芯 9A2000”,性能将大幅提升 8-10 倍,达到 RTX 2080 水平,到时候理论上龙芯平台就能跑的起来《黑神话:悟空》
8df1add1-0400-48fb-a9de-b8706e27a99e.webp
12c152f8-fa15-42cb-a2b5-36b7f141ccbb.webp
a7e15ac2-7d3d-4dac-ad08-321813561d7e.webp
这是什么外星科技,下一代直接对标 2080
回复

使用道具 举报

     
发表于 2024-10-17 16:50 | 显示全部楼层
龙芯使用者,目前在测试各种灵车顺便跑NAS。
3A6k主要是挑内存,而且脾气还捉摸不定,说是内存控制器写的不太好,然后感觉PCIe上还是有一些莫名其妙的bug,但是日常办公用完全没问题。
显卡的话,7A2k新世界驱动还在摸,不知道要摸多久。A卡的话AMD在6.11整了个大活搞得大家怨声载道
系统软件生态都还在稳步推进,Debian如果能port那是一大进步,AOSC可以说是用龙最完美的发行版。
应用软件生态拷打国内厂商就行,点名张小龙,不骂腾讯的原因是qq有原生loong64版。
回复

使用道具 举报

发表于 2024-10-17 17:03 来自手机 | 显示全部楼层
期待龙芯处理器未来能达到甚至超过主流产品性能
回复

使用道具 举报

     
发表于 2024-10-17 17:11 | 显示全部楼层
我看好国产化,90%的人的工作1个WPS+1个chrome都能搞定
回复

使用道具 举报

     
发表于 2024-10-17 18:10 来自手机 | 显示全部楼层
厉害了

—— 来自 鹅球 v3.2.91
回复

使用道具 举报

     
发表于 2024-10-17 19:00 | 显示全部楼层
被子十三 发表于 2024-3-22 21:34
龙芯不是MIPS吗?怎么打游戏?

— from OnePlus KB2005, Android 14 of S1 Next Goose v2.5.2-play ...

可以打游戏,很简单就能配好
回复

使用道具 举报

     
发表于 2024-10-17 22:35 | 显示全部楼层
这IPC够高的,要是没有工艺限制,用最新工艺,并像intel那样拱到300W,就算转译玩x86游戏也不会比intel,amd差吧
现在软肋就是OS了
回复

使用道具 举报

发表于 2024-10-18 04:26 | 显示全部楼层
unlsycn 发表于 2024-3-23 09:17
谁家不做定向优化呢

用wine跑常用的游戏和其它软件,这些定向优化就都用不上了。
回复

使用道具 举报

     
发表于 2024-10-18 14:22 | 显示全部楼层
有大手推真的爽


论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-10-18 19:47 | 显示全部楼层
Midnight.Coup 发表于 2024-10-17 16:50
今天举办的龙芯工业生态大会上,龙芯中科官方披露了其首款自研显卡芯片“龙芯 9A9100”。官方称之为 GPGPU ...

RTX 2080的浮点性能是10T

摩尔线程S80的浮点性能是14T

回复

使用道具 举报

发表于 2024-10-18 20:01 来自手机 | 显示全部楼层
2080工藝太老了 現在做也就4060ti 𣎴到200w的小玩意
回复

使用道具 举报

     
发表于 2024-10-18 21:04 | 显示全部楼层
什么时候有能打的消费级产品,忍windows很久了

论坛助手,iPhone
回复

使用道具 举报

发表于 2024-10-18 21:39 | 显示全部楼层
能把7a2000里的集显新世界驱动搞定就是大功一件了,不用插独显,pcie插槽解放出来
回复

使用道具 举报

     
发表于 2024-10-18 22:02 | 显示全部楼层
卖哥 发表于 2024-10-18 19:47
RTX 2080的浮点性能是10T

摩尔线程S80的浮点性能是14T

MTT 那帮人是老黄那干了十几年的,加上架构也是基于相对成熟的 IMG BX,加上台积电 7nm 才有现在的规模
龙芯这边才刚刚做出集显水平 GPU,这自研的架构本代都没流片,下一代就要用国产 7nm 从纸面上赶超 2080,这还是有点太理想了吧,当然谁不希望真的能做到呢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-21 23:06 , Processed in 0.198183 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表