学习资源站

使用AutoDL训练RT-DETR等计算机视觉网络模型(AutoDL+Xftp+VSCode),附详细操作步骤_使用vscode运行detr模型-

使用AutoDL训练RT-DETR等计算机视觉网络模型(AutoDL+Xftp+VS Code),附详细操作步骤

前言

本文记录利用 AutoDL 云服务器,使用 VS Code 远程连接进行模型训练,步骤完整,操作简便,不需要使用任何命令即可快速运行🚀。


一、账号注册

1.1 AutoDL简介

AutoDL AI算力云 是一个提供人工智能算力服务的云平台。以下是关于它的一些特点:

在这里插入图片描述

  1. 丰富的GPU资源 :提供多种GPU型号,包括NVIDIA的 A100 A800 L40 V100 RTX 4090 RTX 3090 等,能满足我们在不同场景下的需求,无论是进行大规模的AI训练还是复杂的科学计算等任务,都可以找到合适的GPU资源。

  2. 灵活的付费方式 :支持 按量付费 包日 包周 包月 等多种付费模式。对于短期的实验或不确定时长的项目,可以选择按量付费;如果有长期稳定的算力需求,预付费或包周包月则可能更划算,可以根据自己的需求和预算进行选择。

  3. 集成主流框架 :集成了 TensorFlow PyTorch 等多种主流的深度学习框架,并且支持多个深度学习框架版本的切换以及底层CUDA的切换,方便用户快速搭建自己的深度学习环境, 减少了环境配置的时间和难度

  4. 开发者社区支持 :有相关的开发者社区,为用户提供了代码索引、镜像托管和模型托管等服务。这对于算法开发者和研究者来说,可以更方便地管理和分享自己的代码和模型。

1.2 用户注册

  1. 首先进入 AutoDL 官网: https://www.autodl.com/home
  2. 点击右上角的 立即注册 ,填写手机号进行注册。注册完成之后会有一个10元代金券,可以先体验一下。

在这里插入图片描述
3. 登陆后点击 控制台 ,进入个人界面,点击 认证学生升级炼丹会员 填写教育邮箱,在租卡的时候便宜很多。

在这里插入图片描述


二、创建实例

新创建的实例都会放在这里,我这里已经创建了4个实例,新注册的这里是空白的。

重新创建新实例,点击 容器实例 租用新实例

在这里插入图片描述

2.1 基础镜像

进入到租用新实例中就可以选择自己的卡配置了。

这里的 计费方式 地区 GPU型号 GPU数量 主机 的详细信息和注意事项我已经标在图上,按照自己的需求选择就行了。

在这里插入图片描述
📢 注意,在第⑤点中,显存是24GB,也就是说系统盘有24GB大小,硬盘数据盘中有50GB,一共可用的空间有74GB,再多的空间就需要扩容并额外收费了。

在官方给的基础镜像中,最方便的一点就是 不用再关心PyTorch与CUDA版本之间的匹配问题了,里面全都配置好了 。你只需要关心 你的项目代码用的是哪一个版本的PyTorch ,然后选择这个版本就行了。

在这里插入图片描述
在这里插入图片描述
像这样选择你的配置就行了,这样基础实例就设置好了,有 优惠券 的选择优惠券就行,然后点击 立即创建 就可以了。
在这里插入图片描述

点击之后就会在 实例容器 中出现刚刚创建好的实例,租卡就开始了。此时也就开始计费了,不用的时候记得及时关机。

当然也可以在 更多 选项中选择 无卡模式开机 此时只需要 0.1/h ,这个时候是 不能调用GPU 的,但可以做一些基础的调试工作,还可以上传数据(我没有使用官方的 文件存储 功能进行上传数据,是自己上传的,第三节会讲到)。

无卡模式 需要在 关机 状态下才能开启。

在这里插入图片描述

关机之后若是再次使用有卡模式,需要等待是否有卡空闲, GPU充足 时才可开机。

在这里插入图片描述

这样基础的实例创建就完成了,这是最常用的一种。

接下来会讲解另外 两种极其方便、有效 的两种创建方式,并在第三节和第四节中讲解如何使用创建后的实例,进行模型训练等工作。

2.2 社区镜像

在卡的配置这一块和基础镜像的创建是完全一致的,只需要选择自己想用的卡就行了。

❗❗❗重点是在镜像选择中,选择 社区镜像 ,这里面都是一些用户配置好的项目文件,包括代码和环境,也就是说, 你只需要把你的数据上传之后就可以直接训练了,不用再考虑任何环境的问题,非常方便。
在这里插入图片描述

关键是里面一些主流,最新的模型都有,想用哪个就用哪个就行,省了大量搭建环境的时间,也不需要担心会发生任何报错问题(只要原镜像没有问题)😆。

在这里插入图片描述
在这里插入图片描述
点击创建,就完成啦~

2.3 个人镜像

控制台 中选择 镜像 。镜像中保存了个人创建的实例,包括整个项目(代码和环境)。

个人创建的实例可以进行保存,在 更多 中选择 保存镜像 ,就会保存到 镜像 里,我这里是保存了三个镜像。

在这里插入图片描述

📢 注意免费的空间是 30 个GB,超出的部分按照 0.01/GB/日 收费。

在这里插入图片描述
这个功能的好处是 可以在创建新实例时选择自己保存的实例,然后多开几个实例进行训练,以防没有卡的情况,无法训练。更重要的是不用再次配置环境。

同样,在卡的配置这一块和基础镜像的创建是完全一致的,只需要选择自己想用的卡就行了。其次只需要在 镜像 处在 我的镜像 中选择可用的镜像就行了。

在这里插入图片描述
❗❗❗ 更更重要是,保存的镜像可以分享给指定用户,搭建的环境,项目,改动的内容,可以直接完整的分享给我们指定的用户,分享的人可以再次通过我的镜像创建分享得到的镜像。

在这里插入图片描述
这样通过 我的镜像 创建实例就完成了~但是不管哪一种方法创建,在实例关机后 15 天就会释放实例,注意时间,再次开就后就会刷新这个时间。

三、上传数据

3.1 直接上传

开机之后,点击 JupyterLab ,进入之后可以对文件进行一些简单操作,其中包含 文件上传
在这里插入图片描述
在上传多个文件的时候,还需要命令进行解压缩,比较复杂🙃,建议参考 3.2小节 使用 Xftp 进行文件操作处理。

在这里插入图片描述

3.2 Xftp上传

1️⃣进入 Xftp 官网: https://www.netsarang.com/zh/xshell/ 下载 Xftp 并安装

在这里插入图片描述
2️⃣ AutoDL 中的 实例开机 无卡模式开机 也可以,只要有 登录指令 密码 就可以连接。
在这里插入图片描述

3️⃣ 打开 Xftp ,新建连接,复制 登录指令 密码 。建立连接。

举个例子:
假设 登录指令 为: ssh -p 12345 root@rxxxx001.autodl.com
其中 12345 为端口号; root 为用户名; rxxxx001.autodl.com 为主机名
密码 为:************

在这里插入图片描述
4️⃣ 点击 连接 后,就可以连接到云端了。也就可以将本地的文件通过拖拽的方式上传到云端了。

在这里插入图片描述
至此, Xftp 上传数据就完成了,注意使用时候的路径,自己项目能找到。

四、远程连接

4.1 安装VS Code和相关插件

1️⃣进入 VS Code 官网: https://code.visualstudio.com/ 下载 VS Code 并安装

在这里插入图片描述

4.2 连接云端

2️⃣打开 VS Code ,在左栏中的 扩展 按钮中搜索 Remote - SSH ,点击安装,我这里是已经安装好了

在这里插入图片描述

3️⃣点击 VS Code 界面的左下角的 双箭头 ,然后选择 连接到主机

在这里插入图片描述

4️⃣ 紧接着点击, + 添加新的 SSH 主机...

在这里插入图片描述

5️⃣ 此时创建的实例已开机,复制 登录指令 ,粘贴到 VS Code 中。

在这里插入图片描述

6️⃣ 登录的相关信息会保存在本地,这里默认选择第一个就行,回车进入下一步。

在这里插入图片描述

7️⃣ 上步结束之后会在左下角弹窗,选择 连接 即可,在新打开的界面中输入 实例密码 ,就是已开机实例处的密码。

在这里插入图片描述
在这里插入图片描述

8️⃣ 回车后,在左栏中选择打开文件,选择想要进入的主目录。在进入主目录后还需要输入一遍密码。

在这里插入图片描述

在这里插入图片描述

9️⃣ 输入完成后就连接成功,进入我们的项目啦

在这里插入图片描述

4.3 模型训练

VS Code 中选择 终端 新建终端 ,就打开了控制台。

在这里插入图片描述

此时使用 社区镜像 或者是 个人镜像 的,项目运行所需的各种模块就已经配好了的。在训练模型的时候,配置好自己的数据后开始训练就可以顺利训练了, 不需要额外安装任何模块。

使用 基础镜像 进行配置的,本地上传完数据后,还需要安装相应的模块。找到缺少哪些模块后,在终端控制台中使用 pip install 安装就可以了,官方自带镜像源,安装很快。

推荐在 扩展 中搜索 python ,并安装,能够显示代码高亮,显示报错,并可以运行文件,而不需要使用命令。

在这里插入图片描述

五、实时监控GPU、内存等占用曲线

开机之后,点击 实例监控 ,里面实时记录了 GPU CPU 内存 显存 的使用情况:

在这里插入图片描述
在这里插入图片描述
当然也可以查看训练的tensorboard曲线,就不再详述啦