• 新优seo

    扫面微信二维码,及时联系我们

【优化技术】边缘智能模型推理优化技术简介

摘要:在深度学习模型(即模型推理)的部署阶段,为了在计算能力和能耗有限的边缘或终端设备上实现低延迟、高效率的模型推理,现有的优化技术可分为七种:模型压缩、模型分割,模型早期退出、模型选择、边缘缓存、输入过滤、面向应用的优化等。

【优化技术】边缘智能模型推理优化技术简介

在深度学习模型(即模型推理)的部署阶段,为了在计算能力和能耗有限的边缘或终端设备上实现低延迟、高效率的模型推理,现有的优化技术可分为七种:模型压缩、模型分割,模型早期退出、模型选择、边缘缓存、输入过滤、面向应用的优化等。

模型压缩:通过对深度学习模型进行压缩,使模型由“大”变为“小”,降低模型复杂度和资源需求,在资源有限的边缘设备上更好地实现低延迟、低能耗的模型推理。常用的模型压缩方法包括权值剪枝和数据量化。其中,权值剪枝的基本思想是:深度学习模型包含大量的权值参数,但不同的权值参数对模型表示能力(即模型精度)的贡献不同。因此,通过删除重要性较低(即对模型表示能力贡献较小)的权重参数,可以在牺牲少量模型精度的前提下,达到显著降低模型资源消耗的目的。数据量化是另一种主流的模型压缩技术。其基本思想是用8位、4位甚至1位等低精度值来表示权重参数,以降低模型的复杂度和资源消耗。值得注意的是,数据量化也会降低模型的精度。

模型分割:深度学习模型通常由多层神经网络组成,不同的网络层具有不同的资源消耗和中间数据输出。基于这一事实,深度学习模型分割技术将模型分成若干部分,以较小的传输成本将计算密集部分卸载到多个边缘服务器或相邻移动设备上。实现了边缘计算模型的推理,得到了较好的实时性能图。为了实现性能优化,模型分割点的选择通常需要考虑不同节点的可用计算和网络带宽资源。

模型提前退出:为了加快深入的模型推理,模型提前退出技术通过对更***网络层的输出结果进行处理,提前结束模型推理,得到最终的输出结果,节省运行时间。值得注意的是,模型提前退出技术可以有效降低资源消耗,但也会损害模型的准确性。因此,在选择模型的***出口点时,需要权衡优化性能和模型精度。

模型选择:同一深度学习功能通常有多个模型。以视觉应用中常用的目标检测功能为例,常用的模型有Yolo、VGg、Alex-ner等,但对于同一输入,不同模型的资源消耗和识别精度不同。因此,我们可以动态地、自适应地选择***模型作为输入,从而优化资源消耗和模型精度。

边缘缓存:在许多人工智能应用中,有些查询任务具有时间重复的特点。例如,在企业、***或公园的人脸识别应用中,存在大量频繁重复的人脸输入。对于这些重复输入,可以将其识别结果缓存在边缘节点中,避免重复计算,减少延迟和资源消耗。在边缘缓存容量有限的情况下,如何动态调整缓存结果是需要解决的关键问题。

输入过滤:对于许多人工智能应用程序,大量的输入是非目标输入,对查询结果没有意义。例如,在安全监视中,摄像机中的大量输入是非目标视频背景。通过预先识别和去除这些非目标输入,可以有效避免深度学习模型推理的冗余计算,从而显著降低模型推理的资源消耗。

面向应用的优化:面向应用的优化主要考虑应用程序的某些特定属性的优化。例如,对于图像识别应用,图像分辨率对深度学习模型的资源消耗有很大影响。我们可以通过降低输入图像的分辨率来减少资源消耗。此外,对于视频分析应用,我们可以通过同时调整视频输入的分辨率和帧速率来减少视频分析过程中的资源消耗。

在边缘智能系统的设计中,可以综合上述方法以满足应用需求。例如,将模型分割和模型提前退出相结合,提出了一种基于端边协作的深度学习推理加速优化框架edgent。edgent的优化逻辑分为三个阶段:离线训练阶段、在线优化阶段和协同推理阶段。离线训练阶段,对多分支网络(包括模型的早期出口点)进行训练,使其满足任务要求,并对分支网络中不同神经网络层进行回归模型训练,以估计边缘服务器和终端设备上神经网络层的运行时延;在在线优化阶段,利用回归模型寻找满足任务延迟要求的退出点和模型分割点:在协同推理阶段,边缘服务器和终端设备将根据得到的方案进行分布式执行。这样,通过优化出口点和分割点的选择,可以充分利用边缘端的分布式计算资源,满足应用的实时性能要求,同时尽可能提高模型的推理精度。