phorcys02 发表于 2024-3-26 02:03

卖哥 发表于 2024-3-25 14:26
龙架构指令集里有800条是拿来提高转译效率的。

翻译指令200条不到
700多条128位向量指令+700多条256位向量指令

phorcys02 发表于 2024-3-26 02:09

Midnight.Coup 发表于 2024-3-22 23:33
龙芯的SPEC06成绩不是定向优化的嘛

定向优化个啥啊,造谣0成本么
gcc上游已经合并一年多了,复现成绩发出来的人两只手指都数不过来了
3a6000我都用了快一年了,以龙芯的舆论环境,真要是有啥巨大差异,早被刷了几百万次头条了

phorcys02 发表于 2024-3-26 02:19

kuleisite1992 发表于 2024-3-23 09:57
3A6000那个SPEC17分数帖子还是我转的。

问题是20分,我看有些人还要吹22分/G


3a6000其实还是有些地方搓烂了的
比如hardware page walker,烂了
现在卖的3a6000这项功能都是固件关闭的
向量指令有些延迟和吞吐比i/a还有差距,load/store 超线程环境下性能下降

就这样还有17/GHz, 而且穷逼龙芯为了省钱,这些都不修,就直接卖了(修还得重新流片)

老胡自己说的是20分,但是最新ppt显示老胡又打算省钱了
老胡又搓了一个8发射的la864内核,就是不知道是3b6600 流片两种,还是 4+4(4xla664改+4xla864)

UNICORN00 发表于 2024-3-26 08:17

phorcys02 发表于 2024-3-26 01:50
你在说啥?

是我消息落后了

geeky_kappa 发表于 2024-3-26 09:04

phorcys02 发表于 2024-3-26 01:50
你在说啥?

印象里邮件列表还在搞编译服务器,这就已经成了?

7776169 发表于 2024-3-26 09:24

phorcys02 发表于 2024-3-26 09:48

geeky_kappa 发表于 2024-3-26 09:04
印象里邮件列表还在搞编译服务器,这就已经成了?

debian现在
amd64/arm64/rv64/loong64 包数量分别是
174xx/172xx/163xx/153xx

rv64比loong64先搞了好几年呢

phorcys02 发表于 2024-3-26 09:50

7776169 发表于 2024-3-26 09:24
所以很想问一下
现在到底水平如何?
以后可以的话打算买一个放客厅里当机顶盒看b站用

目前不适合当机顶盒,因为集显没搓出来解码ip
得挂一个 a卡或者 intel的卡

Midnight.Coup 发表于 2024-3-26 10:29

phorcys02 发表于 2024-3-26 02:09
定向优化个啥啊,造谣0成本么
gcc上游已经合并一年多了,复现成绩发出来的人两只手指都数不过来了
3a6000 ...

这个官方说的怎么就是我造谣了

hgfdsa 发表于 2024-3-26 10:50

Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

编译器增加了新指令集支持所以分数提高了,很正常啊,这是常规优化。

卖哥 发表于 2024-3-26 10:56

Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

定向优化是指这个编译器只有spec提高了。
你证明一下

Midnight.Coup 发表于 2024-3-26 10:59

本帖最后由 Midnight.Coup 于 2024-3-26 11:00 编辑

卖哥 发表于 2024-3-26 10:56
定向优化是指这个编译器只有spec提高了。
你证明一下
你说的这叫“只对spec06定向优化”,怎么比隔壁海军果粉还魔怔人

卖哥 发表于 2024-3-26 11:05

本帖最后由 卖哥 于 2024-3-26 11:10 编辑

Midnight.Coup 发表于 2024-3-26 10:59
你说的这叫“只对spec06定向优化”,怎么比隔壁海军果粉还魔怔人
很奇怪么,这事情又不少见。
https://news.mydrivers.com/1/963/963773.htm

英特尔往编译器里塞了预先写好了一些二进制代码,在编译SPEC cpu2017的523.xalancbmk_r、623.xalancbmk_s项目时不走流程直接用现成的。

Midnight.Coup 发表于 2024-3-26 11:14

本帖最后由 Midnight.Coup 于 2024-3-26 11:15 编辑

卖哥 发表于 2024-3-26 11:05
很奇怪么,这事情又不少见。
https://news.mydrivers.com/1/963/963773.htm
我看了下这个 oneAPI DPC++/C++ Compiler 就是 ICC 的后继版本,ICC 作弊这么多年了大家都知道,但真有需要的用 IU 也会去 ICC 编译,虽然问题一大堆,而且同为 x86 的 AU 都吃不到这个加成

卖哥 发表于 2024-3-26 11:17

Midnight.Coup 发表于 2024-3-26 11:14
我看了下这个 oneAPI DPC++/C++ Compiler 就是 ICC 的后继版本,ICC 作弊这么多年了大家都知道,但真有需 ...
被封不是性能优化无法应用于AU,是
The compiler used for this result was performing a compilation that specifically improves the performance of the 523.xalancbmk_r / 623.xalancbmk_s benchmarks using a priori knowledge

而是针对特定源代码内置了预先写好的二进制代码,估计是英特尔老师傅手搓优化的。

Midnight.Coup 发表于 2024-3-26 11:51

卖哥 发表于 2024-3-26 11:17
被封不是性能优化无法应用于AU,是

而是针对特定源代码内置了预先写好的二进制代码,估计是英特尔老师傅 ...

只能说 Sapphire Rapids-SP 这代实在太拉了,后面的 Emerald Rapids-SP 就没有这个问题

phorcys02 发表于 2024-3-26 11:53

Midnight.Coup 发表于 2024-3-26 10:29
这个官方说的怎么就是我造谣了

"定向优化“
像icc或者掏钱买几个对spec有加成的库,叫做”定向优化“

龙芯无论新旧世界,gcc代码都是公开的
只有全面优化,没有”定向优化“
你关注gcc maillist就会发现每周每月都在慢慢修

甚至现在的优化程度和自动向量化,还不配给x86提鞋
但就这垃圾gcc,也有17分/GHz了

Midnight.Coup 发表于 2024-3-26 12:26

本帖最后由 Midnight.Coup 于 2024-3-26 12:34 编辑

phorcys02 发表于 2024-3-26 11:53
"定向优化“
像icc或者掏钱买几个对spec有加成的库,叫做”定向优化“


https://zhuanlan.zhihu.com/p/654721485
Loongnix 的 GCC 8.3.0 其实是开源的,可以从源里面下载源码(http://www.loongnix.cn/zh/toolchain/GNU/),但里面是一堆 patch,很多修改没有贡献到上游。现在这些 patch 已经上游化了?龙芯官方微信号上那些成绩是在新世界还是旧世界上跑出来的

phorcys02 发表于 2024-3-26 12:38

Midnight.Coup 发表于 2024-3-26 12:26
https://zhuanlan.zhihu.com/p/654721485
现在这些 patch 已经上游化了?龙芯官方微信号上那些成绩是在新 ...

官方成绩是loongnix跑的
新世界的成绩也很多,比官方的低10%(去年),5%(今年),你用的gcc越新,成绩越高
那些patch正在慢慢上游化,毕竟gcc review还是很严格的
不像龙芯自己搓的时候爱怎么写都行

linux40 发表于 2024-3-26 12:44

卖哥 发表于 2024-3-26 11:17
被封不是性能优化无法应用于AU,是

而是针对特定源代码内置了预先写好的二进制代码,估计是英特尔老师傅 ...

不是预制二进制代码,而是改了benchmark代码里的buffer size。

phorcys02 发表于 2024-3-26 12:53

W.K0n9 发表于 2024-3-25 13:25
龙芯要进消费级市场,性能反倒是影响最小的那一环吧LoongArch架构下只能用Linux系统就足够劝退很大 ...

现在有liblol (loongarch on loongarch)

旧世界应用 直接拿过来二进制新世界就能无痛无损耗跑
迁移不迁移其实短期内已经不重要了

Midnight.Coup 发表于 2024-3-26 13:28

本帖最后由 Midnight.Coup 于 2024-3-26 13:30 编辑

phorcys02 发表于 2024-3-26 12:53
现在有liblol (loongarch on loongarch)

旧世界应用 直接拿过来二进制新世界就能无痛无损耗跑

为何新世界程序加载旧世界库不可实现?
由于 libLoL 打包的 glibc 并未替换新世界系统的 glibc, 新世界的可执行程序与库都完全没有必要,也不会感知到 libLoL 的存在。 因此,新世界的可执行程序无法载入旧世界提供的动态链接库:宿主系统的 libc 不存在旧世界的 ELF 符号版本。
该需求较为罕见,但存在一种典型场景:输入法。 按照目前 Linux 常见的输入法支持架构,应用程序支持输入法的方式是由其图形界面工具库(GUI toolkit), 如 GTK、Qt 等,按照一定规则,搜索并加载由输入法软件提供的动态链接库。 因此对于旧世界的输入法软件,其提供的动态链接库是旧世界的,无法被新世界的应用程序载入。 由于 libLoL 采用非侵入宿主系统的设计,无法支持在新世界系统上使用旧世界的输入法; 只能呼吁相关厂商适配新世界。
libLoL 运行时的发行目前,libLoL 项目的运行时部分实质上是 patchelf 工具和 glibc 的补丁合集。在构建时,首先构建 glibc,然后构建修改版的 patchelf,最后以此 patchelf 给编译出的glibc 的动态链接库文件进行后处理。这一构建过程较为复杂,并且难以用发行版无关的方式描述,因此 libLoL 项目难以简单地被打包到其它发行版中,用户也很难自行构建。目前,libLoL 项目提供适配 AOSC OS 和 Debian 的发行包。其他需要打包 libLoL 的发行版开发人员需要根据本发行版对 glibc 的处理方式,以及目录布局等相关情况,按照上述基本流程为本发行版定制 libLoL 构建方式。

截至 2024 年 2 月,已经发售的龙芯 3A5000 和龙芯 3A6000 系列等龙架构办公终端类产品,出厂或交付时默认搭载的都是「旧世界」的操作系统和软件。如果您使用过这类终端,相信您很可能使用过 WPS、腾讯会议、微信、QQ、炒股软件、龙芯浏览器等软件。您的组织也可能为其购买或开发了一些商业软件。到目前为止,这些都是基于「旧世界」的软件。「新世界」是龙架构发布后,龙芯中科与社区协作开发的软件生态。目前已经有社区支持的「新世界」操作系统,但是尚未有商业操作系统迁移至「新世界」。
https://areweloongyet.com/docs/world-compat-details/liblol/
这个方案也不是那么万能的,龙芯官方能早日迁移还是早日迁移吧,旧世界反正已经不再会有大的更新了,系统库要更新到最新主流版本也比较麻烦
WP7 当年走过路的,就不要再走了一遍了。其实龙芯完全可以把 loongnix 做成基于 BSD 全部自己开发的一个完整的系统,然后社区版从这个系统的开源版本上改,类似 AOSP 的玩法

phorcys02 发表于 2024-3-26 13:33

Midnight.Coup 发表于 2024-3-26 13:28
https://areweloongyet.com/docs/world-compat-details/liblol/
能早日迁移还是早日迁移吧,旧世界反正已 ...

和wp7 迁移差别还是很大的
基本上绝大部分应用只是需要重新make一下就行,有部分需要升级下三方库版本

旧版本可以不用管直接用liblol运行
等龙芯/uos/deepin 发布新版系统以后,在新版系统上额外构建一次就行了

wp7当年变动可太大了,简直翻天覆地,新旧世界 只有 几个syscall 和 sig_t的变动,还有glibc封了一层
对于绝大部分软件来说基本无感

phorcys02 发表于 2024-7-24 17:51




今天的ppt, 3b6600 大概确定用 la864了 依旧14/12nm 制程,(la664e 和 la864e的 测试应该是回来了,864实际跑分也出来了)
IPC按30%算大概 22-23/GHz(spec cpu2006),ppt写 20分+/GHz
IPC 30%, 频率估计20%,合计约56%单核2006大概65分左右,编译器再努努力能摸到70分

phorcys02 发表于 2024-10-17 16:12

phorcys02 发表于 2024-7-24 17:51
今天的ppt, 3b6600 大概确定用 la864了 依旧14/12nm 制程,(la664e 和 la864e的 测试应该是回来了,86 ...

昨天龙芯工业大会上,老胡 ppt里已经是 >22分/GHz了
说保底也有22/GHz,争取可以 24/GHz

BRS5672023 发表于 2024-10-17 16:19

7776169 发表于 2024-3-26 09:24
所以很想问一下
现在到底水平如何?
以后可以的话打算买一个放客厅里当机顶盒看b站用

你要是想搞个电视盒子还是推荐 intel tiger lake 起的产品,支持 av1 和 hevc 的硬件解码。。

—— 来自 鹅球 v3.2.91

Midnight.Coup 发表于 2024-10-17 16:50

本帖最后由 Midnight.Coup 于 2024-10-17 16:55 编辑

今天举办的龙芯工业生态大会上,龙芯中科官方披露了其首款自研显卡芯片“龙芯 9A9100”。官方称之为 GPGPU,也就是通用目的 GPU,支持终端 AI 运算
龙芯 9A1000 预计 2025 年上半年完成流片并拿到样片,性能预计可以达到 AMD 2017 年 4 月份发布的 RX 550 水平,大概相当于 NVIDIA GTX 650 Ti Boost
据官方介绍,龙芯 9A1000 支持 PCIe 4.0,搭配 128bit LPDDR4X 显存,支持 OpenGL 4.0、OpenCL 3.0 等标准 API,集成视频处理模块可硬解 H.264、H.265,支持输出 HDMI 2.1、DisplayPort 1.4、VGA
计算核心数量、显存容量、频率、功耗等暂未披露,而从架构简图上可以看到八组计算阵列,还有片上网络、二级缓存等
性能方面,像素填充率 16GP/s,纹理填充率 32GT/s,算力为 FP32 1TFlops、FP64 64GFlops、INT8 32TFlops

此外,龙芯已经在研究设计下一代“龙芯 9A2000”,性能将大幅提升 8-10 倍,达到 RTX 2080 水平,到时候理论上龙芯平台就能跑的起来《黑神话:悟空》



这是什么外星科技,下一代直接对标 2080

hanyuwei70 发表于 2024-10-17 16:50

龙芯使用者,目前在测试各种灵车顺便跑NAS。
3A6k主要是挑内存,而且脾气还捉摸不定,说是内存控制器写的不太好,然后感觉PCIe上还是有一些莫名其妙的bug,但是日常办公用完全没问题。
显卡的话,7A2k新世界驱动还在摸,不知道要摸多久。A卡的话AMD在6.11整了个大活搞得大家怨声载道。
系统软件生态都还在稳步推进,Debian如果能port那是一大进步,AOSC可以说是用龙最完美的发行版。
应用软件生态拷打国内厂商就行,点名张小龙,不骂腾讯的原因是qq有原生loong64版。

samfs 发表于 2024-10-17 17:03

期待龙芯处理器未来能达到甚至超过主流产品性能

py_250 发表于 2024-10-17 17:11

我看好国产化,90%的人的工作1个WPS+1个chrome都能搞定

UNICORN00 发表于 2024-10-17 18:10

厉害了

—— 来自 鹅球 v3.2.91

moyuzhijia 发表于 2024-10-17 19:00

被子十三 发表于 2024-3-22 21:34
龙芯不是MIPS吗?怎么打游戏?

— from OnePlus KB2005, Android 14 of S1 Next Goose v2.5.2-play ...

可以打游戏,很简单就能配好

lqf3dnow 发表于 2024-10-17 22:35

这IPC够高的,要是没有工艺限制,用最新工艺,并像intel那样拱到300W,就算转译玩x86游戏也不会比intel,amd差吧
现在软肋就是OS了

lixianfyss 发表于 2024-10-18 04:26

unlsycn 发表于 2024-3-23 09:17
谁家不做定向优化呢

用wine跑常用的游戏和其它软件,这些定向优化就都用不上了。

Awanano 发表于 2024-10-18 14:22

有大手推真的爽


论坛助手,iPhone

卖哥 发表于 2024-10-18 19:47

Midnight.Coup 发表于 2024-10-17 16:50
今天举办的龙芯工业生态大会上,龙芯中科官方披露了其首款自研显卡芯片“龙芯 9A9100”。官方称之为 GPGPU ...

RTX 2080的浮点性能是10T

摩尔线程S80的浮点性能是14T

gofbayrf 发表于 2024-10-18 20:01

2080工藝太老了 現在做也就4060ti 𣎴到200w的小玩意

CCauchy 发表于 2024-10-18 21:04

什么时候有能打的消费级产品,忍windows很久了

论坛助手,iPhone

lacerta 发表于 2024-10-18 21:39

能把7a2000里的集显新世界驱动搞定就是大功一件了,不用插独显,pcie插槽解放出来

Midnight.Coup 发表于 2024-10-18 22:02

卖哥 发表于 2024-10-18 19:47
RTX 2080的浮点性能是10T

摩尔线程S80的浮点性能是14T

MTT 那帮人是老黄那干了十几年的,加上架构也是基于相对成熟的 IMG BX,加上台积电 7nm 才有现在的规模
龙芯这边才刚刚做出集显水平 GPU,这自研的架构本代都没流片,下一代就要用国产 7nm 从纸面上赶超 2080,这还是有点太理想了吧,当然谁不希望真的能做到呢
页: 1 [2] 3
查看完整版本: 龙芯6600架构超越Zen3