当前位置：首页 > 编程日记 > 正文

一文详解TensorFlow模型迁移及模型训练实操步骤

编程日记 2024-01-12 09:04:56

当前业界很多训练脚本是基于TensorFlow的Python API进行开发的，默认运行在CPU/GPU/TPU上，为了使这些脚本能够利用昇腾AI处理器的强大算力执行训练，需要对TensorFlow的训练脚本进行迁移。

首先，我们了解下模型迁移的全流程：

通过上图可以看出，模型迁移包括“脚本迁移 –> 模型训练 –> 精度调优 –> 性能调优 –> 模型固化”几个流程，其中：

“脚本迁移”是将TensorFlow训练脚本经过少量修改，可以运行在昇腾AI处理器上。
“模型训练”是根据模型参数进行多轮次的训练迭代，并在训练过程中评估模型准确度，达到一定阈值后停止训练，并保存训练好的模型。
“精度调优”与“性能调优”是在用户对精度或性能有要求时需要执行的操作。
“模型固化”是将训练好的、精度性能达标的模型固化为pb模型。

下面我们针对“脚本迁移”和“模型训练”两个阶段进行详细的介绍。

脚本迁移

将TensorFlow训练脚本迁移到昇腾平台有自动迁移和手工迁移两种方式。

自动迁移：算法工程师通过迁移工具，可自动分析出原生的TensorFlow Python API在昇腾AI处理器上的支持度情况，同时将原生的TensorFlow训练脚本自动迁移成昇腾AI处理器支持的脚本，对于少量无法自动迁移的API，可以参考工具输出的迁移报告，对训练脚本进行相应的适配修改。
手工迁移：算法工程师需要参考文档人工分析TensorFlow训练脚本的API支持度，并进行相应API的修改，以支持在昇腾AI处理器上执行训练，该种方式相对复杂，建议优先使用自动迁移方式。

下面以TensorFlow 1.15的训练脚本为例，讲述训练脚本的详细迁移操作，TensorFlow 2.6的迁移操作类似，详细的迁移点可参见“昇腾文档中心[1]”。

自动迁移

自动迁移的流程示意图如下所示：

详细步骤如下；

安装迁移工具依赖。

pip3 install pandas
pip3 install xlrd==1.2.0
pip3 install openpyxl
pip3 install tkintertable
pip3 install google_pasta

执行自动迁移命令。

进入迁移工具所在目录，例如“tfplugin安装目录/tfplugin/latest/python/site-packages/npu_bridge/convert_tf2npu/”，执行类似如下命令可同时完成脚本扫描和自动迁移：

python3 main.py -i /root/models/official/resnet -r /root/models/official/

其中main.py是迁移工具入口脚本，-i指定待迁移原始脚本路径，-r指定迁移报告存储路径。

查看迁移报告。

在/root/models/official/output_npu_*下查看迁移后的脚本，在root/models/official/report_npu_*下查看迁移报告。

迁移报告示例如下：

手工迁移

手工迁移训练脚本主要包括如下迁移点：

导入NPU库文件。

from npu_bridge.npu_init import *

将部分TensorFlow接口迁移成NPU接口。

例如，修改基于Horovod开发的分布式训练脚本，使能昇腾AI处理器的分布式训练。

# Add Horovod Distributed Optimizer
opt = hvd.DistributedOptimizer(opt)
# Add hook to broadcast variables from rank 0 to all other processes during
# initialization.
hooks = [hvd.BroadcastGlobalVariablesHook(0)]

修改后：

# NPU allreduce
# 将hvd.DistributedOptimizer修改为npu_distributed_optimizer_wrapper"
opt = npu_distributed_optimizer_wrapper(opt) 
# Add hook to broadcast variables from rank 0 to all other processes during initialization.
hooks = [NPUBroadcastGlobalVariablesHook(0)]

通过配置关闭TensorFlow与NPU冲突的功能。

关闭TensorFlow中的remapping、xla等功能，避免与NPU中相关功能冲突。例如：

config = tf.ConfigProto(allow_soft_placement=True)
# 显式关闭remapping功能
config.graph_options.rewrite_options.remapping = RewriterConfig.OFF
# 显示关闭memory_optimization功能
config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF

配置NPU相关参数

Ascend平台提供了功能调试、性能/精度调优等功能，用户可通过配置使能相关功能，例如enable_dump_debug配置，支持以下取值：

True：开启溢出检测功能。
False：关闭溢出检测功能。

配置示例：

custom_op.parameter_map["enable_dump_debug"].b = True

模型训练

迁移成功后的脚本可在昇腾AI处理器上执行单Device训练，也可以在多个Device上执行分布式训练。

单Device训练

1）配置训练进程启动依赖的环境变量。

# 配置昇腾软件栈的基础环境变量，包括CANN、TF Adapter依赖的内容。
source /home/HwHiAiUser/Ascend/nnae/set_env.sh 
source /home/HwHiAiUser/Ascend/tfplugin/set_env.sh
# 添加当前脚本所在路径到PYTHONPATH，例如：
export PYTHONPATH="$PYTHONPATH:/root/models"
# 训练任务ID，用户自定义，不建议使用以0开始的纯数字
export JOB_ID=10066 
# 指定昇腾AI处理器逻辑ID，单P训练也可不配置，默认为0，在0卡执行训练 
export ASCEND_DEVICE_ID=0

2）执行训练脚本拉起训练进程。

python3 /home/xxx.py

分布式训练

分布式训练需要先配置参与训练的昇腾AI处理器的资源信息，然后再拉起训练进程。当前有两种配置资源信息的方式：通过配置文件（即ranktable文件）或者通过环境变量的方式。下面以配置文件的方式介绍分布式训练的操作。

1）准备配置文件。

配置文件（即ranktable文件）为json格式，示例如下：

{
"server_count":"1", //AI server数目
"server_list":
[
 {
 "device":[ // server中的device列表
 {
 "device_id":"0", 
 "device_ip":"192.168.1.8", // 处理器真实网卡IP
 "rank_id":"0" // rank的标识，rankID从0开始
 },
 {
 "device_id":"1",
 "device_ip":"192.168.1.9", 
 "rank_id":"1"
 }
 ],
 "server_id":"10.0.0.10" //server标识，以点分十进制表示IP字符串
 }
],
"status":"completed", // ranktable可用标识，completed为可用
"version":"1.0" // ranktable模板版本信息,当前必须为"1.0"
}

2）执行分布式训练。

依次设置环境变量配置集群参数，并拉起训练进程。

拉起训练进程0：

# 配置昇腾软件栈的基础环境变量，包括CANN、TF Adapter依赖的内容。
source /home/HwHiAiUser/Ascend/nnae/set_env.sh 
source /home/HwHiAiUser/Ascend/tfplugin/set_env.sh
export PYTHONPATH=/home/test:$PYTHONPATH
export JOB_ID=10086
export ASCEND_DEVICE_ID=0
# 当前Device在集群中的唯一索引，与资源配置文件中的索引一致
export RANK_ID=0
# 参与分布式训练的Device数量
export RANK_SIZE=2
export RANK_TABLE_FILE=/home/test/rank_table_2p.json
python3 /home/xxx.py

拉起训练进程1：

# 配置昇腾软件栈的基础环境变量，包括CANN、TF Adapter依赖的内容。
source /home/HwHiAiUser/Ascend/nnae/set_env.sh 
source /home/HwHiAiUser/Ascend/tfplugin/set_env.sh
export PYTHONPATH=/home/test:$PYTHONPATH
export JOB_ID=10086
export ASCEND_DEVICE_ID=1
# 当前Device在集群中的唯一索引，与资源配置文件中的索引一致
export RANK_ID=1
# 参与分布式训练的Device数量
export RANK_SIZE=2
export RANK_TABLE_FILE=/home/test/rank_table_2p.json
python3 /home/xxx.py

以上就是TensorFlow模型迁移训练的相关知识点

tensorflowneo4j人工智能图像处理深度学习pytorchpython

https://www.dkcj.cn/info/678.html

Yolov11-detect训练自己的数据集

至此，整个YOLOv11的训练预测阶段完成，与YOLOv8差不多。欢迎各位批评指正。

编程日记2024/11/14 15:00:04

YOLOv10训练自己的数据集

至此，整个YOLOv10的训练预测阶段完成，与YOLOv8差不多。欢迎各位批评指正。

编程日记2024/06/03 11:00:02

ModuleNotFoundError: No module named ‘qcloud_cos‘

是腾讯云提供的一个Python SDK，用于与腾讯云对象存储（COS）服务进行交互。使用pip安装qcloud_cos报以下错误。这个错误表示Python无法找到名为。

编程日记2024/05/29 16:00:03

YOLOv10环境搭建、模型预测和ONNX推理

运行后会在文件yolov10s.pt存放路径下生成一个的yolov10s.onnxONNX模型文件。安装完成之后，我们简单执行下推理命令测试下效果，默认读取。终端，进入base环境，创建新环境。（1）onnx模型转换。

编程日记2024/05/27 16:00:02

YOLOv7-Pose 姿态估计-环境搭建和推理

终端，进入base环境，创建新环境，我这里创建的是p38t17(python3.8，pytorch1.7)安装pytorch：（网络环境比较差时，耗时会比较长）下载好后打开yolov7-pose源码包。imgpath：需要预测的图片的存放路径。modelpath:模型的存放路径。Yolov7-pose权重下载。打开工程后，进入设置。

编程日记2024/03/15 17:00:02

python安装成功的图标_ubuntu下：安装anaconda、环境配置、软件图标的创建、成功启动anaconda图形界面...

Ubuntu安装anaconda常见的四大问题：目录1、介绍2、安装anaconda3、环境配置4、软件图标的创建5、成功启动anaconda图形界面1、介绍先介绍一下anaconda和python的关系：初学者所安装的python2/3只是python的环境，没有python的工具包&a…

编程日记2024/02/08 18:00:00

深度学习硬件基础：CPU与GPU

CPU：叫做中央处理器（central processing unit）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。[^3]可以形象的理解为有25%的ALU(运算单元)、有25%的Control(控制单元)、50%的Cache(缓存单元)GPU：叫做图形处理器。

编程日记2024/02/04 13:00:04

YOLOv8-Detect训练CoCo数据集+自己的数据集

至此，整个训练预测阶段完成。此过程同样可以在linux系统上进行，在数据准备过程中需要仔细，保证最后得到的数据准确，最好是用显卡进行训练。有问题评论区见！

编程日记2024/02/02 17:00:03

Java中的方法重载（Overloading）和方法重写（Overriding）都是面向对象编程中的重要概念，但它们之间有一些区别。方法重载是指在同一个类中，可以定义多个具有相同名称但参数列表不同的方法。这些方法具有不同的参数类型、参数个数或参数顺序。在调用重载方法时，Java编译器会根据传递给方法的参数类型和数量来选择要调用的正确方法。方法重载主要用于解决方法的命名冲突和提高代码的可读性和可维护性。

编程日记2024/01/23 11:51:01

python基础使用之变量，表达式，语句

PYTHON基础知识系列之变量、表达式、语句

编程日记2024/01/23 10:49:56

python基础小知识：引用和赋值的区别

通过引用，就可以在程序范围内任何地方传递大型对象而不必在途中进行开销巨大的赋值操作。不过需要注意的是，这种赋值仅能做到顶层赋值，如果出现嵌套的情况下仍不能进行深层赋值。赋值与引用不同，复制后会产生一个新的对象，原对象修改后不会影响到新的对象。如果在原位置修改这个可变对象时，可能会影响程序其他位置对这个对象的引用

编程日记2024/01/22 22:24:27

基于深度学习的细胞感染性识别与判定

通过引入深度学习技术，我们能够更精准地识别细胞是否受到感染，为医生提供更及时的信息，有助于制定更有效的治疗方案。基于深度学习的方法通过学习大量样本，能够自动提取特征并进行准确的感染性判定，为医学研究提供了更高效和可靠的手段。通过引入先进的深度学习技术，我们能够实现更快速、准确的感染性判定，为医学研究和临床实践提供更为可靠的工具。其准确性和效率将为医学研究带来新的突破，为疾病的早期诊断和治疗提供更可靠的支持。通过大规模的训练，模型能够学到细胞感染的特征，并在未知数据上做出准确的预测。

编程日记2024/01/21 18:24:14

Python自动化实战之接口请求的实现

作为一位过来人也是希望大家少走一些弯路，如果你不想再体验一次学习时找不到资料，没人解答问题，坚持几天便放弃的感受的话，在这里我给大家分享一些自动化测试的学习资源，希望能给你前进的路上带来帮助。

编程日记2024/01/21 10:04:11

Python中如何简化if...else...语句

我们通常在Python中采用if...else..语句对结果进行判断，根据条件来返回不同的结果，如下面的例子。这段代码是一个简单的Python代码片段，让用户输入姓名并将其赋值给变量user_input。我们能不能把这几行代码进行简化，优化代码的执行效率呢？以下是对各行代码的解读。这里使用了or这个逻辑运算符，当user_input不为空时，user_input为真，name就被赋于user_input的值。采用这种方法可以轻松实现if...else语句的简化。我们可以使用一行简短的代码来实现上面的任务。

编程日记2024/01/20 15:17:54

一键式Excel分词统计工具：如何轻松打包Python脚本为EXE

最近，表姐遇到了一个挑战：需要从Excel文件中统计出经过分词处理的重复字段，但由于数据隐私问题，这些Excel文件不能外传。这种情况下，直接使用Excel内置功能好像是行不通的，需要借助Python脚本来实现。为了解决这个问题，我写了一个简单的数据分析和自动化办公脚本，以方便使用。想象一下，即使电脑上没有安装Python，也能通过一个简单的EXE文件轻松完成工作，这是多么方便！因此，我决定不仅要写出这个脚本，还要学会如何将其打包成一个独立的EXE文件。这样，无需Python环境的电脑也能直接运行它

编程日记2024/01/18 21:39:56

深入三目运算符：JavaScript、C++ 和 Python 比较

三目运算符是编程中常用的条件表达式，它允许我们根据条件选择不同的值。我们将通过具体的例子分别介绍 JavaScript、C++ 和 Python 中的三目运算符，以便更好地理解它们的用法和特性。JavaScript 示例// 例子: 根据条件选择不同的值var x = 10;var y = 20;"x 大于 y" : "x 不大于 y";在这个例子中，如果x大于y，则result的值为 “x 大于 y”，否则为 “x 不大于 y”。C++ 示例// 例子: 根据条件选择不同的值。

编程日记2024/01/18 13:21:33

python实现网络爬虫代码_python如何实现网络爬虫

2、【find()】和【find_all()】方法可以遍历这个html文件，提取指定信息。return soup.find_all(string=re.compile( '百度' )) #结合正则表达式，实现字符串片段匹配。print(res) #打印输出[root@localhost demo]# python3 demo1.py。[root@localhost demo]# vim demo.py#web爬虫学习 -- 分析。r.raise_for_status() #如果状态码不是200，产生异常。

编程日记2024/01/18 09:47:51

详细讲解Python中的aioschedule定时任务操作

aioschedule 是一个基于 asyncio 的 Python 库，用于在异步应用程序中进行任务调度。它提供了一种方便的方式来安排和执行异步任务，类似于传统的 schedule 库，但适用于异步编程。

编程日记2024/01/17 22:13:27

Jetson AGX Orin安装archiconda、Pytorch

编程日记2024/01/16 20:24:07

pandas进行数据计算时如何处理空值的问题？

我们在处理数据时经常会遇到空值的问题，比如有个学生某科弃考但是其他科有成绩的话，计算总分时便需要解决空值计算的问题

编程日记2024/01/15 20:41:58

如何用pthon连接mysql和mongodb数据库【极简版】

发现宝藏前言 1. 连接mysql 1.1 安装 PyMySQL 1.2 导入 PyMySQL 1.3 建立连接 1.4 创建游标对象 1.5 执行查询 1.6 关闭连接 1.7 完整示例 2. 连接mongodb 2.1 安装 PyMongo 2.2 导入 PyMongo 2.3 建立连接 2.4

编程日记2024/01/15 17:58:51

用python实现实现手势音量控制

要实现手势音量控制，您可以使用Python中的PyAutoGUI和pynput库。PyAutoGUI可以模拟鼠标和键盘操作，而pynput可以检测用户的输入事件。，用于检测键盘事件。如果用户按下ESC键，则停止监听鼠标和键盘事件并退出程序。最后，我们创建了鼠标和键盘监听器对象，并调用它们的。，用于模拟按下音量增加和音量减少键的操作。然后，我们定义了一个鼠标手势检测函数。，用于检测鼠标左键的点击事件。在程序的主循环中，我们使用。在这个示例代码中，我们定义了两个函数。函数等待用户按下ESC键退出程序。

编程日记2024/01/15 09:47:53