其他分享
首页 > 其他分享> > 深度学习 之 模型部署【2】-TensorRT 入门

深度学习 之 模型部署【2】-TensorRT 入门

作者:互联网

TensorRT 简介

TensorRT 是 英伟达公司 根据自己的 硬件设备 面向 AI工作者 推出的 一种 模型部署方案;

同时 可以对网络进行 压缩、优化,它通过 combines layers、kernel 优化选择,以及根据指定精度执行归一化和转换成最优的 matrix math 方法,改善网络延迟、吞吐量和效率,实现模型加速,官方称 可以达到 6倍以上;

它支持 多种 深度学习 框架,如 tf、pytroch等,即 它 可以从 深度学习框架中 直接 读取 网络结构 和 权重,没有框架的开销;  【不同的深度学习框架有自己的模型定义方式,TensoRT要获取模型的网络结构和参数权重,必然需要先能够“读懂”框架的“语言”】

它本质上是一个 推理框架;

TensorRT 依赖于Nvidia的深度学习硬件环境,可以是GPU也可以是DLA,如果没有的话则无法使用;

更可喜的是它全面支持 python;

 

windows10 下安装 TensorRT

安装教程 还是 官网,下图为官网部分截图

 说明

1. 在 TensorRT8 以后才支持 在 windows 的 python 操作

2.经测试,无需安装 PyCUDA,可能后面应用时候需要,到时候再说

3.TensorRT 只支持 部分 CUDA 版本      【刚开始没看官网,白折腾半天】

4.注意对 深度学习框架版本 的 支持

 

安装步骤

1. 安装好 cuda 和 cudnn

2. 下载 tensorRT,https://developer.nvidia.com/tensorrt,      【windows 下 python 接口 只能下载 版本8】

3.解压

4.把 lib 里 所有 dll 库 拷贝到 cuda 安装目录的 bin 目录下,或者 把 lib 目录放到 环境变量的 path 里

5.进入 解压后的python目录,选择对应的 tensorrt 版本,pip 安装

pip install tensorrt-8.2.3.0-cp38-none-win_amd64.whl

6.其他非必要步骤 

如果需要读取 onnx 格式模型文件,还需安装 onnx_graphsurgeon,进入该目录

pip install onnx_graphsurgeon-0.3.12-py2.py3-none-any.whl

同理执行

pip install graphsurgeon-0.4.5-py2.py3-none-any.whl
pip install uff-0.6.9-py2.py3-none-any.whl

7.测试是否安装成功

import tensorrt as trt
print(trt.__version__)

 

TensorRT 加速原理 

简单理解下,把 3 次 1x1 卷积 合并了

了解即可 

 

 TensorRT 使用方法

通过 使用流程方法 可进一步理解 TensorRT 是干嘛的

部署流程分为 预处理阶段 和 推理阶段,具体如下:

1. 导出 深度学习 网络定义 和 权重参数 

2. 解析 深度学习 网络定义 和 权重参数    【这两步说明 支持 多种框架】

3. 根据 显卡算子 构造出最优执行计划

4. 将最优执行计划 序列化存储

5. 反序列化 最优执行计划

6. 进行推理

 

补充说明

1. 步骤 3 说明 tensorrt 是和 硬件/显卡、环境/cuda 绑定的,如果 硬件、环境 发生变换,需要重新部署

2. 虽说 tensorrt 支持 多种框架,但 通常 会把 tf、torch 等框架 的模型和参数转换成 onnx 格式,然后用 tensorrt 部署,

因为 onnx 不像 tf、torch 那样需要安装对应的包,onnx 可认为是一种通用 语言,可以把 各种框架 转换成 该 语言,方便后续操作    【具体参考我的其他博客】

 

预推理阶段

该阶段是 结合 网络结构、参数 和 软硬件环境 生成 最优执行计划,并且 序列化 为 xxx.engine 文件;     【时间较长,故序列化】

可以使用 tensorrt 自带的 trtexec.exe 实现(bin目录下),也可用 代码实现;

 

命令行实现方式

trtexec --onnx=xxx.onnx --saveEngine=xxx.engine --fp16

fp16 模型量化的方式,还可取 int8,不推荐,虽然速度快,但精度损失较大

 

python 代码实现预推理

# 导入必用依赖
import tensorrt as trt
# 创建logger:日志记录器
logger = trt.Logger(trt.Logger.WARNING)
 
# 创建构建器builder
builder = trt.Builder(logger)
# 预创建网络
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
# 加载onnx解析器
parser = trt.OnnxParser(network, logger)
success = parser.parse_from_file(onnx_path)
for idx in range(parser.num_errors):
  print(parser.get_error(idx))
if not success:
  pass  # Error handling code here
# builder配置
config = builder.create_builder_config()
# 分配显存作为工作区间,一般建议为显存一半的大小
config.max_workspace_size = 1 << 30  # 1 Mi
serialized_engine = builder.build_serialized_network(network, config)
# 序列化生成engine文件
with open(engine_path, "wb") as f:
   f.write(serialized_engine)
   print("generate file success!")

 

推理部署阶段

该阶段是 反序列化 最优执行计划,然后进行推理;

在 推理阶段,tensorrt 只关注 网络定义和权重参数,对于 输入和输出 需 另外导入;

 

核心代码

#导入必用依赖
import tensorrt as trt
import pycuda.autoinit  #负责数据初始化,内存管理,销毁等
import pycuda.driver as cuda  #GPU CPU之间的数据传输
#创建logger:日志记录器
logger = trt.Logger(trt.Logger.WARNING)
#创建runtime并反序列化生成engine
with open(“sample.engine”, “rb”) as f, trt.Runtime(logger) as runtime:
    engine = runtime.deserialize_cuda_engine(f.read())
#分配CPU锁页内存和GPU显存
h_input = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(0)), dtype=np.float32)
h_output = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(1)), dtype=np.float32)
d_input = cuda.mem_alloc(h_input.nbytes)
d_output = cuda.mem_alloc(h_output.nbytes)
#创建cuda流
stream = cuda.Stream()
#创建context并进行推理
with engine.create_execution_context() as context:
    # Transfer input data to the GPU.
    cuda.memcpy_htod_async(d_input, h_input, stream)
    # Run inference.
    context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
    # Transfer predictions back from the GPU.
    cuda.memcpy_dtoh_async(h_output, d_output, stream)
    # Synchronize the stream
    stream.synchronize()
    # Return the host output. 该数据等同于原始模型的输出数据
    return h_output

 

官方示例

TensorRT-8.4.1.5\samples\python 

 

小结

本文只是 基本教程,TensorRT 还有很多高级用法,比如 不仅可以载入模型,也可以自定义模型,比如支持动态 batch 等

 

 

 

 

参考资料:

https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html    官网 安装

https://blog.csdn.net/hjxu2016/article/details/122868139    TensorRT(10):python版本安装

https://blog.csdn.net/Yang_4881002/article/details/124292512  NVIDIA TensorRT (python win10)安装成功分享   

 

https://www.eet-china.com/mp/a125060.html   TensorRT8.4.xPythonAPI安装配置与测试      安装与 应用案例

https://zhuanlan.zhihu.com/p/165359425           tensorRT 的安装与使用

https://github.com/zhaogangthu/keras-yolo3-ocr-tensorrt    上篇文章的代码

 

https://blog.csdn.net/JianguoChow/article/details/122684310  TensorRT(二)TensorRT使用教程(Python版)    【使用方法 主要参考】

https://zhuanlan.zhihu.com/p/371239130  TensorRT详细入门指北,如果你还不了解TensorRT,过来看看吧!     【很全,有点多了,慢慢消化吧】

https://blog.csdn.net/JianguoChow/article/details/122684310    使用教程 Python 版

标签:入门,tensorrt,TensorRT,cuda,https,深度,安装,trt
来源: https://www.cnblogs.com/yanshw/p/16461169.html