还搁着建模呢？现在照片素材全自动变成3D模型了

泰坦失足 发表于 2022-2-14 16:13

本帖最后由泰坦失足于 2022-2-14 16:17 编辑

https://www.bilibili.com/video/BV1PL4y1G7fu
下载了原版视频，看着最后贴图质量还是很明显的贴图模模糊糊，和纸糊的似的。纯自动生成的建筑效果已经比微软模拟飞行里纽约东京AI生成再这些手动调过的建筑物稍微好点，秒杀其他小城市基于实景照片再由AI重建的建筑。而且模拟飞行是飞机鸟瞰所以只需要建筑物就行，这个多了马路和街头的各种其他杂物。虽然Google的技术要引入到游戏估计还差的老～远～了～，只能希望UBI能不能整个花活，以后就是一个城市一个城市的出1:1罐头沙盒地图了。

为了自动驾驶，谷歌用NeRF在虚拟世界中重建了旧金山市
https://mp.weixin.qq.com/s/GRMx1fJK_PpDzAFsrTJfcw
机器之心 2022-02-11 23:17
机器之心报道
编辑：泽南、小舟

训练自动驾驶系统需要高精地图，海量的数据和虚拟环境，每家致力于此方向的科技公司都有自己的方法，Waymo 有自己的自动驾驶出租车队，英伟达创建了用于大规模训练的虚拟环境 NVIDIA DRIVE Sim 平台。近日，来自 Google AI 和谷歌自家自动驾驶公司 Waymo 的研究人员实践了一个新思路，他们尝试用 280 万张街景照片重建出整片旧金山市区的 3D 环境。

通过大量街景图片，谷歌的研究人员们构建了一个 Block-NeRF 网格，完成了迄今为止最大的神经网络场景表征，渲染了旧金山的街景。

Block-NeRF 是一种神经辐射场的变体，可以表征大规模环境。具体来说，该研究表明，当扩展 NeRF 以渲染跨越多个街区的城市场景时，将场景分解为多个单独训练的 NeRF 至关重要。这种分解将渲染时间与场景大小分离，使渲染能够扩展到任意大的环境，并允许对环境进行逐块更新。

《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》是 UC Berkeley 研究人员在 ECCV 2020 上的一篇论文，获得了最佳论文提名。其提出一种隐式 3D 场景表征，不同于显示场景表征（如点云、网格 mesh），其原理是求解穿过场景的任何光线的颜色，从而渲染合成新视角的 2D 场景图片。

NeRF 在给定一组姿态相机图像的情况下，实现了照片般逼真的重建和新型视图合成。NeRF 早期的工作往往侧重于小规模和以对象为中心的重建。尽管现在有些方法可以重建单个房间或建筑物大小的场景，但这些方法仍然范围有限，不能扩展到城市规模的环境。由于模型容量有限，将这些方法应用于大型环境通常会导致明显的伪影和低视觉保真度。

该研究在 mipNeRF 的基础上构建了 Block-NeRF 实现，改善了因输入图像从许多不同距离观察场景造成的损害 NeRF 性能的混叠问题。研究人员结合了来自 NeRF in the Wild (NeRF-W) 的技术，该技术在将 NeRF 应用于 Photo Tourism 数据集中的地标时，为每个训练图像添加一个潜在代码以处理不一致的场景外观。NeRF-W 从数千张图像中为每个地标创建一个单独的 NeRF，而谷歌的新方法结合了许多 NeRF，从数百万张图像中重建一个连贯的大环境，并结合了学习相机姿态细化。

鉴于数据的不同部分可能在不同的环境条件下被捕获，算法遵循 NeRF-W 并使用生成式潜在优化（Generative Latent Optimization，GLO）来优化 perimage 外观嵌入向量。这使得 NeRF 可以解释几个外观变化的条件，例如变化的天气和照明。同时还可以操纵这些外观嵌入，以在训练数据中观察到的不同条件之间进行插值（例如多云与晴朗的天空，或白天和黑夜）。

为了重建整个城市场景，研究人员在录制街景时捕获长期序列数据（超过 100 秒），并在几个月内在特定目标区域重复捕获不同序列。谷歌使用从 12 个摄像头捕获的图像数据，这些摄像头共同提供 360° 视图。其中 8 个摄像头从车顶提供完整的环视图，另外 4 个摄像头位于车辆前部，指向前方和侧面。每个相机以 10 Hz 的频率捕获图像并存储一个标量曝光值。车辆姿态是已知的，并且所有摄像机都经过校准。

借助这些信息，该研究在一个共同的坐标系中计算相应的相机光线原点和方向，同时将相机的滚动快门考虑在内。

图 6. 当渲染基于多个 Block-NeRF 的场景时，该算法使用外观匹配来获得整个场景的一致样貌。给定一个 Block-NeRF（图左）的固定目标外观，算法会优化相邻 Block-NeRF 的外观以匹配。在此示例中，外观匹配了在 Block-NeRF 中产生一致的夜间外观。

图 7. 多段数据的模型消融结果。外观嵌入有助于神经网络避免添加云雾几何体来解释天气和光照等环境变化。移除曝光会略微降低了准确度。姿态优化有助于锐化结果并消除重复对象的重影，如在第一行的电线杆上观察到的那样。

谷歌研究人员表示，新方法仍然有一些问题有待解决，比如部分车辆和阴影没有被正确移除，植被因为外观随季节变化而在虚拟环境中变得模糊。同时，训练数据中的时间不一致（例如施工工作）无法被 AI 自动处理，需要手动重新训练受影响的区域。

此外，目前无法渲染包含动态对象的场景限制了 Block-NeRF 对机器人闭环模拟任务的适用性。将来，这些问题或许可以通过在优化过程中学习瞬态对象来解决，或者直接对动态对象进行建模。

codecloud 发表于 2022-2-14 16:31

照片自动生成模型又不是啥稀罕黑科技,至少2.3年以前就已经很实用化了.
光影环境会使照片中物体的颜色变化,结果就是如果想在游戏中使用,则其后期修改与光照渲染的优化如同噩梦,这个问题一直都是个死结,用来做单个小物体模型还凑合,搞大型建筑就...也就要求不高的街景之类的功能用吧.

junqqq999 发表于 2022-2-14 17:28

问题游戏场景一般设定在虚拟世界里~~~比如魔幻、中古、民族风、未来风~~~~

Swanfal 发表于 2022-2-14 17:32

我觉得应该不会应用到游戏里面，估计游戏用那种刷一下一堆模型道路啥的都给你弄出来的插件比这种好用多了

GuardHei 发表于 2022-2-14 17:40

这种精度的模型没意义…
再说现在3a游戏大量素材本来就是照片建模出来的，不然还真能是手工拉的啊，要不也是过程化生成的。

现实世界里光照环境太复杂，这种建出来效果注定不会好，现在游戏公司专门搭photoscan studio。有钱的来一组相机阵列，没钱的一台相机手动转

—— 来自 S1Fun

砂糖天妇罗 发表于 2022-2-14 17:47

可以用在谷歌街景上啊。这样就可以实现无缝自由移动了。谷歌街景是我最喜欢玩的vr游戏，去天涯海角、大洋中心的小岛或者丛林深处的城市逛一逛，看看那些可能永远去不了的名胜古迹。现在的谷歌街景谷歌地球已经做得蛮丰富了，一玩就是半天。

nuclearg 发表于 2022-2-14 17:48

确实如楼上所说，现在哪个游戏的背景是设定在21世纪初的呀

hu794 发表于 2022-2-14 17:49

nuclearg 发表于 2022-2-14 17:48
确实如楼上所说，现在哪个游戏的背景是设定在21世纪初的呀

GTA

Lunamos 发表于 2022-2-14 17:53

NeRF或者一些surface-based变体未来还是有机会用到游戏里的，做现实背景的游戏拍几张照片就好，在有neural单元的平台上NeRF当建模一样的语义模型去处理，方便小型开发者，比如像小胡子做FANTASIAN的思路就还算挺契合的。但以目前的质量还不能用到顶级图像的3A中。

KR19 发表于 2022-2-14 18:01

洗刷刷 发表于 2022-2-14 18:05

WINDDEVIL86 发表于 2022-2-14 18:08

现在阶段的3A场景早就有大量的生成器可用了，大量重复的街道之类的完全可以自动生成用不着去扫实景，补上几个标志性建筑就可以了。
一般这种模型生成技术还是用在具体物件上居多，比如雕塑啊特殊的装饰物啊之类的。而且也不是什么新科技，连索尼前两代的手机都自带3D大师这种3D扫描技术了，虽然没卵用但是扫点小物件或者亲友的头模出来还挺好玩的。

zxlice 发表于 2022-2-14 18:09

不动还行，动起来不会出问题？

codecloud 发表于 2022-2-14 18:16

GuardHei 发表于 2022-2-14 17:40
这种精度的模型没意义…
再说现在3a游戏大量素材本来就是照片建模出来的，不然还真能是手工拉的啊，要不也 ...

至少阿育不会.照片素材更多的是做建模参考以及纹理贴图.模型估计还真是人工手动制作的.
比如狗3里的伦敦,各种标志性建筑物,都或多或少有模型上的细节差距,不如少个窗户,阳台之类,或者干脆制作人觉得原有景点太丑,直接新做一个换皮...比如白厅这匹马

GuardHei 发表于 2022-2-14 18:28

codecloud 发表于 2022-2-14 18:16
至少阿育不会.照片素材更多的是做建模参考以及纹理贴图.模型估计还真是人工手动制作的.
比如狗3里的伦敦, ...

不是啊
扫的模型又不一定是原模型。做个适合的小比例模型去扫很正常。
而且扫完的模型也能改。

房屋模型扫描的少，因为都是分块装配，过程化生成，扫描建模没优势

—— 来自 S1Fun

back57992 发表于 2022-2-14 18:30

早就有这技术了吧。。至少两三年前。

GuardHei 发表于 2022-2-14 18:34

本帖最后由 GuardHei 于 2022-2-14 18:41 编辑

back57992 发表于 2022-2-14 18:30
早就有这技术了吧。。至少两三年前。

单说照片合成能看的渲染，你这估计保守了
就我所知至少96年就有了，而且也是大体积建筑。不过和现在这种没法比就是了，技术方向完全不一样

—— 来自 S1Fun

吃货即是正义 发表于 2022-2-14 18:38

后会莫急 发表于 2022-2-14 18:39

GuardHei 发表于 2022-2-14 18:42

本帖最后由 GuardHei 于 2022-2-14 18:43 编辑

吃货即是正义发表于 2022-2-14 18:38
nerf是视点合成，没有传统意义上的模型啊…

是啊，这种存radiance field从根本上就不可能给游戏用上
游戏又用不着他来渲染

不过重建模型还是可能的，毕竟depth信息是有的

—— 来自 S1Fun

吃货即是正义 发表于 2022-2-14 18:46

GuardHei 发表于 2022-2-14 18:48

本帖最后由 GuardHei 于 2022-2-14 18:49 编辑

吃货即是正义发表于 2022-2-14 18:46
nerf具体不太清楚，最后输出包含深度信息吗？我以为都在隐函数里的

我对ml其实不够了解
我看他意思是因为要判断ray intersection情况，所以是会输出depth信息
不然的话他也没法做虚拟几何融合，要不然遮挡关系都错了

—— 来自 S1Fun

Lunamos 发表于 2022-2-14 19:01

吃货即是正义发表于 2022-2-14 19:46
nerf具体不太清楚，最后输出包含深度信息吗？我以为都在隐函数里的

除了训练时可以顺便拿到depth以外，渲染时需要大量sample，也可以估算一个模型点云。

Lunamos 发表于 2022-2-14 19:05

GuardHei 发表于 2022-2-14 19:42
是啊，这种存radiance field从根本上就不可能给游戏用上
游戏又用不着他来渲染

还是可能用到游戏里的，可以当作一个类似预渲染资源整体使用，也可以做高级environment map。需要未来的游戏平台有足够好的推导性能。

吃货即是正义 发表于 2022-2-14 19:12

Lunamos 发表于 2022-2-14 19:17

吃货即是正义发表于 2022-2-14 20:12
生成点云了以后不就浪费了nerf的真实性这个最大优势了吗？计算量也应该远大于传统的sfm+mvs吧？ ...

当然了，毕竟它本来就不是为了生成点云或者模型，模型只是一个副产品而已。
不过顺便拿到几何也有用，可以加速渲染，比如剔除无效的sample。

吃货即是正义 发表于 2022-2-14 19:28

Lunamos 发表于 2022-2-14 19:44

吃货即是正义发表于 2022-2-14 20:28
反正最近看到的一些nerf相关的应用都比较麻...主楼的这个自动驾驶训练的应用我觉得已经是我见过最正常的 ...

应该还没人真的在3D游戏里用。如果用上了就顺便发篇Paper吧，我也只是随便设想一下。

其实本质上说，只要一张图片能在3D游戏里用，那这个当然也可以，它是一张可以进去看、从不同角度看的高级图片。理论上可以基本作为一个预渲染静态元素嵌入光线追踪管线里，无非把它当成一个不同的primitive去处理，或许配合一些能够relight的NeRF能好一些，具体就发挥想象力了。比如训练一个涩谷NeRF当428的动态背景用

LHO 发表于 2022-2-14 20:36

页: [1]

Stage1st's Archiver

还搁着建模呢？现在照片素材全自动变成3D模型了