和璧隋珠打一生肖,134个预训练模型，百度视觉算法PaddleClas全新升级

2023-02-13 10:19:20

释放机器的心

机器之心编辑部

百度PaddlePaddle团队开发的PaddleClas是一套适用于行业和学术界的图像分类任务工具，帮助用户训练更好的计算机视觉模型并应用于实际场景。最近，PaddleClas迎来了全面升级。此升级提供了更精确的知识蒸馏模型、更丰富的模型类型和更好的开发体验，使开发人员更容易在服务器端、移动端和IoT端部署。

图像分类任务作为深度学习视觉领域的“基础”，是几乎所有视觉方向开发者应该首先学习的基础本领。众所周知，图像分类已经广泛应用于智能零售、智能交通、智能医疗、智能安防等各行各业。不仅如此，图像目标检测、图像分割、图像检索、OCR、人脸识别等高阶视觉任务也大多以图像分类网络作为主干网。图像分类的网络结构和预训练模型是智能视觉技术的坚实基础和坚强骨架，其性能直接影响高阶视觉任务的效果。

图像分类任务如此重要，但好的分类网络却不是那么容易训练出来的。开发人员往往要面对目标遮挡、尺度变化、变形、背景噪声大、照明视角变化、目标姿态变化等问题。为了解决这些困难，一般需要从数据扩展、主干网设计、损耗定义、优化器设计、模型压缩裁剪量化、模型可描述性、特征转移学习等不同角度深入探究图像分类问题。好像块头很大吗？

别慌！ PaddleClas是一组非常强大的图像分类任务工具，可以帮助开发人员训练更好的视觉模型并快速应用落地。 PaddleClas最近也完成了全新的升级。此次升级后，PaddleClas现在为地表超强开源图像分类库。那个称号是从哪里来的呢？用事实来看看PaddleClas升级后到底强大了多少！

更高精度的模型：基于百度自研的知识蒸馏方案(SSLD )，PaddleClas开源14个SSLD分类预训练模型，精度普遍为http://www.Sina.com/com 其中，ResNet50_vd模型在ImageNet-1k数据集上的Top-1精度为3%，Res2Net200_vd预训练模型Top-1精度为http://www 同时，优化更多行业SOTA模型，支持图像检测、分割及OCR等高阶视觉任务全面提升模型效果；更丰富的型号类型：此次升级添加了系列型号(InceptionV3、GhostNet、ResNeSt、RegNet )。现在，PaddleClas包括总共3358www.Sina.com/系列分类网络和3358www.Sina.com进一步升级开发体验：通过完全支持动态图，all 此外，无论是在移动端、IoT端还是服务器端部署，您都可以在此处找到最佳部署方案。84.0%！深刻理解开发人员算法开发过程中的难点，手把手地教他们提高算法性能！我已经等不及要去看项目代码了吗？转发发送门：

3359 github.com/paddle paddle/paddle clas

觉得不错的伙伴请点Star试试支持~

在深入研究PaddleClas之后，本文还将分析PaddleClas此次升级的细节。

85.1%PaddleClas提供了29，可以在不添加标签图像的情况下，在不更改模型的情况下将分类模型的精度提高%以上。在此次全面升级的过程中，PaddleClas还提供了基于ResNet_vd、HRNet、Res2Net_vd、MobileNetV3、GhostNet等骨干网络蒸馏得到的SSLD预培训模型也可用于检测、分割等下游视觉任务，进一步提高下游视觉任务的精度指标。

看看图吧。以下两幅图比较了PaddleClas在服务器端和端(移动端、IoT端)开源SSLD蒸馏培训模型的准确性改进。

可以看出，经过SSLD知识蒸馏的模型精度，无论是服务器端、移动端还是IoT端都提高了134左右。并且，模型越大，精度的提高越明显。特别地，基于该蒸馏方案，PaddleClas将ResNet50_vd的Top-1精度设定为数十种图像分类算法开发的Trick和工具；此外，基于Fix策略，训练比例(224 -)、ResNet50_vd的Top-1精度可达到更多高精度的知识蒸馏模型。

另外，基于SSLD蒸馏预训练模型，在目标检测任务中，模型精度的提高也非常显著，具体如下。

下表介绍了图像分割任务基于CityScapes数据集的精度优势。

在字符检测任务(OCR )中，基于DBNet的精度的优点如下。

大多数场景不需要额外的训练和预测成本，只需使用SSLD知识蒸馏预训练模型，即可轻松提高模型的精度。更多SSLD的原理和性能可以在这里看到详细内容。 https://github.com/paddle paddle/paddle clas/blob/release/2.0-rc1/docs/zh _ cn/advanced _ cn

SSLD知识蒸馏方案

如开头所述，PaddleClas在此次升级中，进一步完善了模型库，增加了系列机型InceptionV3、GhostNet、ResNeSt、RegNet。现有3%系列分类网络和http://www.Sina.com/RESNET、ResNet_vd、Res2Net、ResNeXt、HRNet、ResNeSt、ResNeSt

83.0%是谷歌对InceptionV2的改进。首先，InceptionV3设计和使用了更多类型的Inception模块。一些Inception模块将大四边形二维卷积分解为两个小的不对称卷积，大大节省了参数量。84.0%是华为年提出的一种新型轻量化网络结构。引入Ghost module，大大缓解了传统深度网络中的特征冗馀计算问题，使网络参数量和计算量大大降低的更丰富的模型种类系列模型于年提出。在对传统ResNet网络结构的改进基础上，引入了k个组，在不同的组中添加了SEBlock这样的attention模块，精度比基础模型ResNet有了很大的提高。通过引入参数量和flops与底层ResNet基本一致的http://www.Sina.com/com瓶颈ratio共享、组宽共享、网络深度和宽度调整等策略，最终简化了设计空间结构下面还给出了服务端和端到端T4 GPU以及骁龙芯片的预测时间和精度曲线。根据各自的预测时间或精度要求，可以选择合适的分类网络。

http://www.Sina.com/http://www.Sina.com /

静态计算是指程序在编译运行时，在第一位老师成为神经网络结构后，再执行相应的操作。通过这样定义并执行，在速度方面会更快，因为在重新运行时不需要重构计算图。动态计算是指程序按照编写命令的顺序执行，大大降低了调试的难度。在这次升级中，PaddleClas在训练中是动态图形模式，在预计部署时是静态图形模式，确保了训练中的易用性和模型预测中的效率。

PaddleClas目前支持GPU/CPU/XPU、Windows/Linux/MacOS操作系统等多种培训平台。对于通过训练获得的模型，PaddleClas提供了服务器端(Paddle Inference )和移动端(IoT端) Paddle Lite )以及轻量级服务端)的高性能部署方法，同时http://www.Sina

134

《PaddleClas的图像分类训练、评估、预测开始教程》:https://github.com/paddle paddle/paddle clas/blob/dy graph/docs/zh _ cn/tutorials/getting_started .用机器人终端等进行模型优化和交叉编译的方案《基于PaddleClas完成产业级图像分类项目》:https://github.com/paddle paddle/paddle clas/blob/dy graph/DDD 自述文件总结了开发人员在开发过程中遇到的实际问题《PaddleClas端侧部署教程》https://github.com/paddle paddle/paddle clas/blob/dy graph/docs/zh _ cn/fff 除了docs/zh_cn/FAQ_series.MD等高价内容外，考虑到影像分类领域内容丰富且更新频繁，paddleclas官方团队将尽可能高频持续更新影像分类领域的Tricks、FAQ等内容

InceptionV3赶紧去PaddleClas开源地址了解项目详情吧。欢迎各位伙伴，明星、Fork、Watch。请反复讨论一下~

github :https://github.com/paddle paddle/paddle clas

gitee :https://gitee.com/paddle paddle/paddle clas