龙芯6600架构超越Zen3 - 第2页 - ＰＣ数码 - Stage1st

phorcys02 发表于 2024-3-26 02:03

卖哥发表于 2024-3-25 14:26
龙架构指令集里有800条是拿来提高转译效率的。

翻译指令200条不到
700多条128位向量指令+700多条256位向量指令

phorcys02 发表于 2024-3-26 02:09

Midnight.Coup 发表于 2024-3-22 23:33
龙芯的SPEC06成绩不是定向优化的嘛

定向优化个啥啊，造谣0成本么
gcc上游已经合并一年多了，复现成绩发出来的人两只手指都数不过来了
3a6000我都用了快一年了，以龙芯的舆论环境，真要是有啥巨大差异，早被刷了几百万次头条了

phorcys02 发表于 2024-3-26 02:19

kuleisite1992 发表于 2024-3-23 09:57
3A6000那个SPEC17分数帖子还是我转的。

问题是20分，我看有些人还要吹22分/G

3a6000其实还是有些地方搓烂了的
比如hardware page walker,烂了
现在卖的3a6000这项功能都是固件关闭的
向量指令有些延迟和吞吐比i/a还有差距，load/store 超线程环境下性能下降

就这样还有17/GHz, 而且穷逼龙芯为了省钱，这些都不修，就直接卖了（修还得重新流片）

老胡自己说的是20分，但是最新ppt显示老胡又打算省钱了
老胡又搓了一个8发射的la864内核，就是不知道是3b6600 流片两种，还是 4+4（4xla664改+4xla864）

UNICORN00 发表于 2024-3-26 08:17

phorcys02 发表于 2024-3-26 01:50
你在说啥？

是我消息落后了

geeky_kappa 发表于 2024-3-26 09:04

phorcys02 发表于 2024-3-26 01:50
你在说啥？

印象里邮件列表还在搞编译服务器，这就已经成了？

7776169 发表于 2024-3-26 09:24

phorcys02 发表于 2024-3-26 09:48

geeky_kappa 发表于 2024-3-26 09:04
印象里邮件列表还在搞编译服务器，这就已经成了？

debian现在
amd64/arm64/rv64/loong64 包数量分别是
174xx/172xx/163xx/153xx

rv64比loong64先搞了好几年呢

phorcys02 发表于 2024-3-26 09:50

7776169 发表于 2024-3-26 09:24
所以很想问一下
现在到底水平如何？
以后可以的话打算买一个放客厅里当机顶盒看b站用

目前不适合当机顶盒，因为集显没搓出来解码ip
得挂一个 a卡或者 intel的卡

Midnight.Coup 发表于 2024-3-26 10:29

phorcys02 发表于 2024-3-26 02:09
定向优化个啥啊，造谣0成本么
gcc上游已经合并一年多了，复现成绩发出来的人两只手指都数不过来了
3a6000 ...

这个官方说的怎么就是我造谣了

hgfdsa 发表于 2024-3-26 10:50

Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

编译器增加了新指令集支持所以分数提高了，很正常啊，这是常规优化。

卖哥发表于 2024-3-26 10:56

Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

定向优化是指这个编译器只有spec提高了。
你证明一下

Midnight.Coup 发表于 2024-3-26 10:59

本帖最后由 Midnight.Coup 于 2024-3-26 11:00 编辑

卖哥发表于 2024-3-26 10:56
定向优化是指这个编译器只有spec提高了。
你证明一下
你说的这叫“只对spec06定向优化”，怎么比隔壁海军果粉还魔怔人

卖哥发表于 2024-3-26 11:05

本帖最后由卖哥于 2024-3-26 11:10 编辑

Midnight.Coup 发表于 2024-3-26 10:59
你说的这叫“只对spec06定向优化”，怎么比隔壁海军果粉还魔怔人
很奇怪么，这事情又不少见。
https://news.mydrivers.com/1/963/963773.htm

英特尔往编译器里塞了预先写好了一些二进制代码，在编译SPEC cpu2017的523.xalancbmk_r、623.xalancbmk_s项目时不走流程直接用现成的。

Midnight.Coup 发表于 2024-3-26 11:14

本帖最后由 Midnight.Coup 于 2024-3-26 11:15 编辑

卖哥发表于 2024-3-26 11:05
很奇怪么，这事情又不少见。
https://news.mydrivers.com/1/963/963773.htm
我看了下这个 oneAPI DPC++/C++ Compiler 就是 ICC 的后继版本，ICC 作弊这么多年了大家都知道，但真有需要的用 IU 也会去 ICC 编译，虽然问题一大堆，而且同为 x86 的 AU 都吃不到这个加成

卖哥发表于 2024-3-26 11:17

Midnight.Coup 发表于 2024-3-26 11:14
我看了下这个 oneAPI DPC++/C++ Compiler 就是 ICC 的后继版本，ICC 作弊这么多年了大家都知道，但真有需 ...
被封不是性能优化无法应用于AU，是
The compiler used for this result was performing a compilation that specifically improves the performance of the 523.xalancbmk_r / 623.xalancbmk_s benchmarks using a priori knowledge

而是针对特定源代码内置了预先写好的二进制代码，估计是英特尔老师傅手搓优化的。

Midnight.Coup 发表于 2024-3-26 11:51

卖哥发表于 2024-3-26 11:17
被封不是性能优化无法应用于AU，是

而是针对特定源代码内置了预先写好的二进制代码，估计是英特尔老师傅 ...

只能说 Sapphire Rapids-SP 这代实在太拉了，后面的 Emerald Rapids-SP 就没有这个问题

phorcys02 发表于 2024-3-26 11:53

Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

"定向优化“
像icc或者掏钱买几个对spec有加成的库，叫做”定向优化“

龙芯无论新旧世界，gcc代码都是公开的
只有全面优化，没有”定向优化“
你关注gcc maillist就会发现每周每月都在慢慢修

甚至现在的优化程度和自动向量化，还不配给x86提鞋
但就这垃圾gcc，也有17分/GHz了

Midnight.Coup 发表于 2024-3-26 12:26

本帖最后由 Midnight.Coup 于 2024-3-26 12:34 编辑

phorcys02 发表于 2024-3-26 11:53
"定向优化“
像icc或者掏钱买几个对spec有加成的库，叫做”定向优化“

https://zhuanlan.zhihu.com/p/654721485
Loongnix 的 GCC 8.3.0 其实是开源的，可以从源里面下载源码（http://www.loongnix.cn/zh/toolchain/GNU/），但里面是一堆 patch，很多修改没有贡献到上游。现在这些 patch 已经上游化了？龙芯官方微信号上那些成绩是在新世界还是旧世界上跑出来的

phorcys02 发表于 2024-3-26 12:38

Midnight.Coup 发表于 2024-3-26 12:26
https://zhuanlan.zhihu.com/p/654721485
现在这些 patch 已经上游化了？龙芯官方微信号上那些成绩是在新 ...

官方成绩是loongnix跑的
新世界的成绩也很多，比官方的低10%（去年），5%（今年），你用的gcc越新，成绩越高
那些patch正在慢慢上游化，毕竟gcc review还是很严格的
不像龙芯自己搓的时候爱怎么写都行

linux40 发表于 2024-3-26 12:44

卖哥发表于 2024-3-26 11:17
被封不是性能优化无法应用于AU，是

而是针对特定源代码内置了预先写好的二进制代码，估计是英特尔老师傅 ...

不是预制二进制代码，而是改了benchmark代码里的buffer size。

phorcys02 发表于 2024-3-26 12:53

W.K0n9 发表于 2024-3-25 13:25
龙芯要进消费级市场，性能反倒是影响最小的那一环吧LoongArch架构下只能用Linux系统就足够劝退很大 ...

现在有liblol （loongarch on loongarch）

旧世界应用直接拿过来二进制新世界就能无痛无损耗跑
迁移不迁移其实短期内已经不重要了

Midnight.Coup 发表于 2024-3-26 13:28

本帖最后由 Midnight.Coup 于 2024-3-26 13:30 编辑

phorcys02 发表于 2024-3-26 12:53
现在有liblol （loongarch on loongarch）

旧世界应用直接拿过来二进制新世界就能无痛无损耗跑

为何新世界程序加载旧世界库不可实现？
由于 libLoL 打包的 glibc 并未替换新世界系统的 glibc，新世界的可执行程序与库都完全没有必要，也不会感知到 libLoL 的存在。因此，新世界的可执行程序无法载入旧世界提供的动态链接库：宿主系统的 libc 不存在旧世界的 ELF 符号版本。
该需求较为罕见，但存在一种典型场景：输入法。按照目前 Linux 常见的输入法支持架构，应用程序支持输入法的方式是由其图形界面工具库（GUI toolkit），如 GTK、Qt 等，按照一定规则，搜索并加载由输入法软件提供的动态链接库。因此对于旧世界的输入法软件，其提供的动态链接库是旧世界的，无法被新世界的应用程序载入。由于 libLoL 采用非侵入宿主系统的设计，无法支持在新世界系统上使用旧世界的输入法；只能呼吁相关厂商适配新世界。
libLoL 运行时的发行目前，libLoL 项目的运行时部分实质上是 patchelf 工具和 glibc 的补丁合集。在构建时，首先构建 glibc，然后构建修改版的 patchelf，最后以此 patchelf 给编译出的glibc 的动态链接库文件进行后处理。这一构建过程较为复杂，并且难以用发行版无关的方式描述，因此 libLoL 项目难以简单地被打包到其它发行版中，用户也很难自行构建。目前，libLoL 项目提供适配 AOSC OS 和 Debian 的发行包。其他需要打包 libLoL 的发行版开发人员需要根据本发行版对 glibc 的处理方式，以及目录布局等相关情况，按照上述基本流程为本发行版定制 libLoL 构建方式。

截至 2024 年 2 月，已经发售的龙芯 3A5000 和龙芯 3A6000 系列等龙架构办公终端类产品，出厂或交付时默认搭载的都是「旧世界」的操作系统和软件。如果您使用过这类终端，相信您很可能使用过 WPS、腾讯会议、微信、QQ、炒股软件、龙芯浏览器等软件。您的组织也可能为其购买或开发了一些商业软件。到目前为止，这些都是基于「旧世界」的软件。「新世界」是龙架构发布后，龙芯中科与社区协作开发的软件生态。目前已经有社区支持的「新世界」操作系统，但是尚未有商业操作系统迁移至「新世界」。
https://areweloongyet.com/docs/world-compat-details/liblol/
这个方案也不是那么万能的，龙芯官方能早日迁移还是早日迁移吧，旧世界反正已经不再会有大的更新了，系统库要更新到最新主流版本也比较麻烦
WP7 当年走过路的，就不要再走了一遍了。其实龙芯完全可以把 loongnix 做成基于 BSD 全部自己开发的一个完整的系统，然后社区版从这个系统的开源版本上改，类似 AOSP 的玩法

phorcys02 发表于 2024-3-26 13:33

Midnight.Coup 发表于 2024-3-26 13:28
https://areweloongyet.com/docs/world-compat-details/liblol/
能早日迁移还是早日迁移吧，旧世界反正已 ...

和wp7 迁移差别还是很大的
基本上绝大部分应用只是需要重新make一下就行，有部分需要升级下三方库版本

旧版本可以不用管直接用liblol运行
等龙芯/uos/deepin 发布新版系统以后，在新版系统上额外构建一次就行了

wp7当年变动可太大了，简直翻天覆地，新旧世界只有几个syscall 和 sig_t的变动，还有glibc封了一层
对于绝大部分软件来说基本无感

phorcys02 发表于 2024-7-24 17:51

今天的ppt， 3b6600 大概确定用 la864了依旧14/12nm 制程，（la664e 和 la864e的测试应该是回来了，864实际跑分也出来了）
IPC按30%算大概 22-23/GHz(spec cpu2006)，ppt写 20分+/GHz
IPC 30%, 频率估计20%，合计约56%单核2006大概65分左右，编译器再努努力能摸到70分

phorcys02 发表于 2024-10-17 16:12

phorcys02 发表于 2024-7-24 17:51
今天的ppt， 3b6600 大概确定用 la864了依旧14/12nm 制程，（la664e 和 la864e的测试应该是回来了，86 ...

昨天龙芯工业大会上，老胡 ppt里已经是 >22分/GHz了
说保底也有22/GHz，争取可以 24/GHz

BRS5672023 发表于 2024-10-17 16:19

7776169 发表于 2024-3-26 09:24
所以很想问一下
现在到底水平如何？
以后可以的话打算买一个放客厅里当机顶盒看b站用

你要是想搞个电视盒子还是推荐 intel tiger lake 起的产品，支持 av1 和 hevc 的硬件解码。。

—— 来自鹅球 v3.2.91

Midnight.Coup 发表于 2024-10-17 16:50

本帖最后由 Midnight.Coup 于 2024-10-17 16:55 编辑

今天举办的龙芯工业生态大会上，龙芯中科官方披露了其首款自研显卡芯片“龙芯 9A9100”。官方称之为 GPGPU，也就是通用目的 GPU，支持终端 AI 运算
龙芯 9A1000 预计 2025 年上半年完成流片并拿到样片，性能预计可以达到 AMD 2017 年 4 月份发布的 RX 550 水平，大概相当于 NVIDIA GTX 650 Ti Boost
据官方介绍，龙芯 9A1000 支持 PCIe 4.0，搭配 128bit LPDDR4X 显存，支持 OpenGL 4.0、OpenCL 3.0 等标准 API，集成视频处理模块可硬解 H.264、H.265，支持输出 HDMI 2.1、DisplayPort 1.4、VGA
计算核心数量、显存容量、频率、功耗等暂未披露，而从架构简图上可以看到八组计算阵列，还有片上网络、二级缓存等
性能方面，像素填充率 16GP/s，纹理填充率 32GT/s，算力为 FP32 1TFlops、FP64 64GFlops、INT8 32TFlops

此外，龙芯已经在研究设计下一代“龙芯 9A2000”，性能将大幅提升 8-10 倍，达到 RTX 2080 水平，到时候理论上龙芯平台就能跑的起来《黑神话：悟空》

这是什么外星科技，下一代直接对标 2080

hanyuwei70 发表于 2024-10-17 16:50

龙芯使用者，目前在测试各种灵车顺便跑NAS。
3A6k主要是挑内存，而且脾气还捉摸不定，说是内存控制器写的不太好，然后感觉PCIe上还是有一些莫名其妙的bug，但是日常办公用完全没问题。
显卡的话，7A2k新世界驱动还在摸，不知道要摸多久。A卡的话AMD在6.11整了个大活搞得大家怨声载道。
系统软件生态都还在稳步推进，Debian如果能port那是一大进步，AOSC可以说是用龙最完美的发行版。
应用软件生态拷打国内厂商就行，点名张小龙，不骂腾讯的原因是qq有原生loong64版。

samfs 发表于 2024-10-17 17:03

期待龙芯处理器未来能达到甚至超过主流产品性能

py_250 发表于 2024-10-17 17:11

我看好国产化，90%的人的工作1个WPS+1个chrome都能搞定

UNICORN00 发表于 2024-10-17 18:10

厉害了

—— 来自鹅球 v3.2.91

moyuzhijia 发表于 2024-10-17 19:00

被子十三发表于 2024-3-22 21:34
龙芯不是MIPS吗？怎么打游戏？

— from OnePlus KB2005, Android 14 of S1 Next Goose v2.5.2-play ...

可以打游戏，很简单就能配好

lqf3dnow 发表于 2024-10-17 22:35

这IPC够高的，要是没有工艺限制，用最新工艺，并像intel那样拱到300W，就算转译玩x86游戏也不会比intel，amd差吧
现在软肋就是OS了

lixianfyss 发表于 2024-10-18 04:26

unlsycn 发表于 2024-3-23 09:17
谁家不做定向优化呢

用wine跑常用的游戏和其它软件，这些定向优化就都用不上了。

Awanano 发表于 2024-10-18 14:22

有大手推真的爽

论坛助手,iPhone

卖哥发表于 2024-10-18 19:47

Midnight.Coup 发表于 2024-10-17 16:50
今天举办的龙芯工业生态大会上，龙芯中科官方披露了其首款自研显卡芯片“龙芯 9A9100”。官方称之为 GPGPU ...

RTX 2080的浮点性能是10T

摩尔线程S80的浮点性能是14T

gofbayrf 发表于 2024-10-18 20:01

2080工藝太老了現在做也就4060ti 𣎴到200w的小玩意

CCauchy 发表于 2024-10-18 21:04

什么时候有能打的消费级产品，忍windows很久了

论坛助手,iPhone

lacerta 发表于 2024-10-18 21:39

能把7a2000里的集显新世界驱动搞定就是大功一件了，不用插独显，pcie插槽解放出来

Midnight.Coup 发表于 2024-10-18 22:02

卖哥发表于 2024-10-18 19:47
RTX 2080的浮点性能是10T

摩尔线程S80的浮点性能是14T

MTT 那帮人是老黄那干了十几年的，加上架构也是基于相对成熟的 IMG BX，加上台积电 7nm 才有现在的规模
龙芯这边才刚刚做出集显水平 GPU，这自研的架构本代都没流片，下一代就要用国产 7nm 从纸面上赶超 2080，这还是有点太理想了吧，当然谁不希望真的能做到呢

页: 1 [2] 3

Stage1st's Archiver