婆罗门
精华
|
战斗力 鹅
|
回帖 0
注册时间 2003-6-6
|
本帖最后由 zmw_831110 于 2024-6-23 09:54 编辑
总结一下这次换4070TiS的体验
我自己是个轻度PC游戏玩家,PC的3A我几乎是不玩的(好像也就GTA偶尔拿出来当叮大师爽爽)
游戏我基本只玩游戏机模拟器,现在用下来性能是溢出的.
但是我对看视频,又莫名得爱瞎折腾.
从Madvr,A卡的AFM,电视自带的插帧.
这次从VEGA 56+RX574换成4070TiS后,结论是A卡看视频的确是处于劣势了.
对于画质较差的古早视频,480p的DVDRip,还有那个虽然标着1080p但是实际就是480p画质的每月合集.
超分ESRGAN(V2模型动画特化,V3模型通用) +插帧RIFE(4.15_Lite以后的模型)
真的是只要你Tensor Core足够,就可以爽玩
4070TiS还是不够爽.
因为我有倍速播放的需求,1.5倍速就意味着,1.5倍的性能开销.
结果导致,我只能
限制540p进ESRGAN,然后出1080p进RIFE插帧2X,如果是24帧视频,1.5倍速播放,这里就是72帧
如果搞成720p输入,就会变成1440p 72帧,这个4070TiS扛不住...感觉的确是4090才爽.
对应1080p的,画质较为正常的视频
着色器+我配好的24,25,30插到60帧的RIFE,就可以很好应对的,1.5倍加速也没问题.(详细内容见36楼)
对于2160p的
必须关闭所有着色器,才可以刚刚够RIFE 2X,一倍速播放就开始丢帧(虽然还不至于卡成PPT,也还能凑合用)
想插帧到60,就得设置成最高1440p的输入,这样是可以满足60帧的性能的(楼下有提到)
MPV的易用性的确是个问题,但是A卡真没有平替的东西可以打
============
关于RIFE的性能要求,和N卡40系列的差别
40系每个SM(Streaming Multiprocessor)有4个Tensor Core(4th Gen) --(20系每个SM有8个Tensor Core(2nd Gen),30系每个SM有4个Tensor Core(3rd Gen))
根据Wiki里的SM数量,可以得到SM*4就是Tensor Core的数量
Tensor Core(2th Gen)
2060 30*8=240个(标称52 AI TOPS,Wiki数据51.6TFLOPS)
Tensor Core(4th Gen)
4060 24*4=96个(标称242 AI TOPS)
4060Ti 32*4=128个(标称353 AI TOPS)
4070 46*4=184个(标称466 AI TOPS,Wiki数据116.8 TFLOPS@FP32)
4070S 56*4=224个(标称568 AI TOPS)
4070Ti 60*4=240个(标称641 AI TOPS,Wiki数据160.4 TFLOPS@FP32)
4070Ti S 66*4=264个(标称706 AI TOPS,估算170 TFLOPS@FP32)
4080 76*4=304个(标称780 AI TOPS,Wiki数据194.9 TFLOPS@FP32)
4080S 80*4=320个(标称836 AI TOPS)
4090D 114*4=456个(标称1177 AI TOPS)
4090 128*4=512个(标称1321 AI TOPS,Wiki数据330.3 TFLOPS@FP32)
RIEF的性能要求(这个是4.6模型的,后面的性能要求应该更高)
TRT版就是基于N卡的Tensor Core做的,效率比NCNN通用版高
2060是最低的具备Tensor Core的显卡,对应RIFE 1080p插帧的性能,能力为51.6 TFLOPS
而2160p其实需要4倍的运算能力,那么4080的194.9 TFLOPS也差不多能对得上.
我的是4070TiS(Wiki没有TFLOPS的数据,估算下来在170 TFLOPS左右),差不多也在临界点了,实测下来,就是勉强24x2FPS.
20系WiKi
https://en.wikipedia.org/wiki/GeForce_20_series
30系WiKi
https://en.wikipedia.org/wiki/GeForce_30_series
40系WiKi
https://en.wikipedia.org/wiki/GeForce_40_series
用RIFE测试脚本,测试下来(所有结果的单位都是FPS)
OC是指显卡自动超频且解锁310W功耗后的数据,如果离目标差那么1帧,也许超频是有用的...更重要的还是Tensor Core的数量(同代Tensor Core)
自动OC的情况(聊胜于无吧)
MPV Lazy的RIFE索引和模型文件名(一般更新,就直接改名覆盖就是了)
ESRGAN的测试结果
实际用下来,如果输入分辨率低的情况,最高的V3模型(5010)的运算需求比V2(5007)其实要低
MPV Lazy的ESRGAN索引对应的模型文件名
============
这几天用下来
基本就是RIFE 24→72插帧用着,替代AFM了
功耗是大了点,算上常用的着色器,基本是200W左右看片.已使用24,25,30到60的RIFE插帧方案.(具体见36楼)
就这样吧,复杂场景,的确RIFE给力(14.5Lite或者14.6Lite可以,4.6不行,对比AFM没有巨大提升的感觉,甚至有明显的插帧的错误)
=============
关于一开始装显卡的事情就删掉了
==========
RIFE+ESRGAN的确效果不错
MPV
新建一个.vpy文件,把input.conf里原本超分的.vpy改成这个.vpy,就可以同时插帧+ 超分了。
- import k7sfunc as k7f
- clip = video_in
- if clip.height <= 1080 :
- clip = k7f.FMT_CTRL(clip, h_max=720, fmt_pix=1)
- clip = k7f.ESRGAN_NV(clip, lt_hd=True, gpu=0)
- clip = k7f.FMT_CTRL(clip, h_max=1440)
- if container_fps <= 32 :
- clip = k7f.FMT_CTRL(clip, h_max=1440, fmt_pix=1)
- clip = k7f.RIFE_NV(clip, lt_d2k=True, model=46, gpu=0)
- if not (clip == video_in) :
- clip.set_output()
复制代码
不过。。。一旦我倍速播放,第一次看到了显卡285W满功耗运行。。。
加上我两张显卡紧贴着,显存温度直接上9X度
我是不是应该把AFM插帧用的RX574拔掉呢
|
|