4090能跑tensorflow1.13的代码吗？

子虚乌有 · 发表于 2023-6-5 19:51

遗留的一堆屎山code和model。还是我自己拉的。
tf是1.13 keras是2.6
模型是keras的h5

买完2080ti就搭的环境，然后本着能跑就不碰它的精神就往项目上一直堆code。
结果长期摧残显卡快噶了，618换了个4090

鼓捣一天。
主要是想改成用docker跑了，省得再去折腾cudnn什么的。开发环境本来是pycharm的，一看社区版不支持docker，改成vscode了。
用tensoreflow:latest-gpu 跑个helloworld没遇到问题，挺省事。
用tensorflow/tensorflow:1.13.1-gpu-py3就不行了。容器里能跑，vscode死活连不上远程python进程debug，报超时错误。我感觉是因为tf 1.x里带的python3是3.5太旧了和vscode里的3.7不兼容，瞎猜的。

不行就直接terminal手工跑吧。

又遇到问题了，按理说应该把我的项目映射到容器内部就行了。结果每次改代码run，vscode都要重新build个image。模型老大了几十个g好费时间。
感觉又是姿势不对问题。

我是按vscode指导来的
https://code.visualstudio.com/docs/containers/quickstart-python

又想要是不能支持旧的1.x代码。我只能试着迁移，改代码，模型不知道tf2能读旧的h5吗，估计够呛

alann · 发表于 2023-6-6 08:12

你用的是老黄家打包好的版本吗？新显卡跑tf1.x最好是用老黄版。

子虚乌有 · 发表于 2023-6-6 09:18

alann 发表于 2023-6-6 08:12
你用的是老黄家打包好的版本吗？新显卡跑tf1.x最好是用老黄版。

是tensorflow官方的docker image再在上面写自己的dockerfile

昨晚吐槽一下心里舒服多了。想想其实万恶根源是vscode
老子不做人了，直接卸载找了个pycharm的破解。
一切概念验证都通过了。
1.13 pycharm就报了个warning说3.5以后不支持了。照样跑照样加断点。
自己的非py文件直接mount到docker里，估计vscode也该这么做，但是我没找到哪里设置。
今天可以正式搭开发环境了。
去tm的vscode

子虚乌有 · 发表于 2023-6-6 16:43

见了鬼了。。
今天又是无结果的一天。
都鼓捣好了正式开跑，发现np.reshape的时候程序137退出了，无异常。
查了下是内存不够。确实也是内存不够，32g内存被wsl进程塞满了
问题是这他喵的是新电脑，一样的code之前16g内存跑的好好的。

子虚乌有 · 发表于 2023-6-6 18:05

oom问题可能是因为wsl最大只能用一半内存。这个疑似解决了。
但是训练的时候貌似显存不够
Blas GEMM launch failed

子虚乌有 · 发表于 2023-6-6 21:17

不是显存不够，应该就是cuda版本4090不支持的锅。不知道nv官方的docker能不能解决

子虚乌有 · 发表于 2023-6-7 17:54

一切都能跑，可以结贴了，其实昨晚就搞定了，又犯懒了
说穿了简单的一笔。关键点：用nv提供的docker image就行了。 tf1 tf2 pytorch一应俱全。
过程微软都给了，简单到照着guide1，2，3几条命令用不了10分钟就搞定
我搞了3天

橋白 · 发表于 2023-6-7 20:26

子虚乌有发表于 2023-6-7 17:54
一切都能跑，可以结贴了，其实昨晚就搞定了，又犯懒了
说穿了简单的一笔。关键点：用nv提供的docker image ...

看的哪个教程可以贴一下吗

子虚乌有 · 发表于 2023-6-7 20:44

回过头发现一开始就听二楼的兄弟的就好了。

看来虽然我说的是求教其实是来树洞的

楼上，这个链接
https://learn.microsoft.com/zh-c ... torials/gpu-compute
不过最后的pull image这里
docker run --gpus all -it --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 nvcr.io/nvidia/tensorflow:20.03-tf2-py3
要改成最新的，
具体从这里查就行了
https://catalog.ngc.nvidia.com/o ... ers/tensorflow/tags

之后开发代码的话，
直接pycharm里面写个dockerfile，from 前面的ngc镜像，用docker desktop跑就行了。
不会再细聊

laotoutou · 发表于 2023-6-7 23:39

你是在用devcontainer吗？应该不存在“vscode里的3.7”这种东西。你的python解释器镜像里的那个

laotoutou · 发表于 2023-6-7 23:42

看你又用回pycharm了。那没事了，我感觉vscode里的devcontainer更好。

laotoutou · 发表于 2023-6-7 23:45

估计你的dockerfile里面还得设置cuda ver，lazymode，display等一堆环境变量

		自动登录	找回密码
密码			立即注册

[软件] 4090能跑tensorflow1.13的代码吗？

评分