找回密码
 立即注册
搜索
查看: 3332|回复: 11

[软件] 4090能跑tensorflow1.13的代码吗?

[复制链接]
     
发表于 2023-6-5 19:51 | 显示全部楼层 |阅读模式
遗留的一堆屎山code和model。还是我自己拉的。
tf是1.13 keras是2.6
模型是keras的h5

买完2080ti就搭的环境,然后本着能跑就不碰它的精神就往项目上一直堆code。
结果长期摧残显卡快噶了,618换了个4090

鼓捣一天。
主要是想改成用docker跑了,省得再去折腾cudnn什么的。开发环境本来是pycharm的,一看社区版不支持docker,改成vscode了。
用tensoreflow:latest-gpu 跑个helloworld没遇到问题,挺省事。
用tensorflow/tensorflow:1.13.1-gpu-py3就不行了。容器里能跑,vscode死活连不上远程python进程debug,报超时错误。我感觉是因为tf 1.x里带的python3是3.5太旧了和vscode里的3.7不兼容,瞎猜的。

不行就直接terminal手工跑吧。

又遇到问题了,按理说应该把我的项目映射到容器内部就行了。结果每次改代码run,vscode都要重新build个image。模型老大了几十个g好费时间。
感觉又是姿势不对问题。

我是按vscode指导来的
https://code.visualstudio.com/docs/containers/quickstart-python

又想要是不能支持旧的1.x代码。我只能试着迁移,改代码,模型不知道tf2能读旧的h5吗,估计够呛





回复

使用道具 举报

     
发表于 2023-6-6 08:12 来自手机 | 显示全部楼层
你用的是老黄家打包好的版本吗?新显卡跑tf1.x最好是用老黄版。
回复

使用道具 举报

     
 楼主| 发表于 2023-6-6 09:18 | 显示全部楼层
alann 发表于 2023-6-6 08:12
你用的是老黄家打包好的版本吗?新显卡跑tf1.x最好是用老黄版。

是tensorflow官方的docker image再在上面写自己的dockerfile

昨晚吐槽一下心里舒服多了。想想其实万恶根源是vscode
老子不做人了,直接卸载找了个pycharm的破解。
一切概念验证都通过了。
1.13 pycharm就报了个warning说3.5以后不支持了。照样跑照样加断点。
自己的非py文件直接mount到docker里,估计vscode也该这么做,但是我没找到哪里设置。
今天可以正式搭开发环境了。
去tm的vscode
回复

使用道具 举报

     
 楼主| 发表于 2023-6-6 16:43 | 显示全部楼层
见了鬼了。。
今天又是无结果的一天。
都鼓捣好了正式开跑,发现np.reshape的时候程序137退出了,无异常。
查了下是内存不够。确实也是内存不够,32g内存被wsl进程塞满了
问题是这他喵的是新电脑,一样的code之前16g内存跑的好好的。
回复

使用道具 举报

     
 楼主| 发表于 2023-6-6 18:05 | 显示全部楼层
oom问题可能是因为wsl最大只能用一半内存。这个疑似解决了。
但是训练的时候貌似显存不够
Blas GEMM launch failed
回复

使用道具 举报

     
 楼主| 发表于 2023-6-6 21:17 | 显示全部楼层
不是显存不够,应该就是cuda版本4090不支持的锅。不知道nv官方的docker能不能解决
回复

使用道具 举报

     
 楼主| 发表于 2023-6-7 17:54 | 显示全部楼层
一切都能跑,可以结贴了,其实昨晚就搞定了,又犯懒了
说穿了简单的一笔。关键点:用nv提供的docker image就行了。 tf1 tf2 pytorch一应俱全。
过程微软都给了,简单到照着guide1,2,3几条命令用不了10分钟就搞定
我搞了3天  

评分

参与人数 2战斗力 +3 收起 理由
远野乙姬 + 1 有收获
Iakgun + 2

查看全部评分

回复

使用道具 举报

     
发表于 2023-6-7 20:26 | 显示全部楼层
子虚乌有 发表于 2023-6-7 17:54
一切都能跑,可以结贴了,其实昨晚就搞定了,又犯懒了
说穿了简单的一笔。关键点:用nv提供的docker image ...

看的哪个教程可以贴一下吗
回复

使用道具 举报

     
 楼主| 发表于 2023-6-7 20:44 | 显示全部楼层
回过头发现一开始就听二楼的兄弟的就好了。
看来虽然我说的是求教其实是来树洞的

楼上,这个链接
https://learn.microsoft.com/zh-c ... torials/gpu-compute
不过最后的pull image这里
docker run --gpus all -it --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 nvcr.io/nvidia/tensorflow:20.03-tf2-py3
要改成最新的,
具体从这里查就行了
https://catalog.ngc.nvidia.com/o ... ers/tensorflow/tags

之后开发代码的话,
直接pycharm里面写个dockerfile,from 前面的ngc镜像,用docker desktop跑就行了。
不会再细聊

回复

使用道具 举报

     
发表于 2023-6-7 23:39 | 显示全部楼层
你是在用devcontainer吗?应该不存在“vscode里的3.7”这种东西。你的python解释器镜像里的那个
回复

使用道具 举报

     
发表于 2023-6-7 23:42 | 显示全部楼层
看你又用回pycharm了。那没事了,我感觉vscode里的devcontainer更好。
回复

使用道具 举报

     
发表于 2023-6-7 23:45 | 显示全部楼层
估计你的dockerfile里面还得设置cuda ver,lazymode,display等一堆环境变量
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-20 17:54 , Processed in 0.108025 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表