移動端和邊緣端的深度學習概述

本文轉載自查看原文 2020-07-29 16:56 876 邊緣部署

某些應用場景要求低延時，高安全性及考慮長期成本效益，此時將模型托管在雲端就不再是最好的解決方案。

邊緣計算相比雲計算的優勢

顯然調用雲端服務會有一個信息往返的時間花費。
比如自動駕駛，大的延時可能會引發事故，因為一個突然出現的目標可能僅僅在幾幀的時間內。
因此英偉達提供定制化的板載計算設備來進行邊緣端的推理。

當多個設備連接在同一個網絡中時，由於天然的信道競爭導致有效帶寬降低。邊緣計算則可顯著減少此問題。

eg:

雲服務器易受黑客攻擊，且數據上傳雲端有安全性問題。
多個邊緣設備的部署相比雲服務，擁有去中心化的優勢，更難被攻擊。

如工業場景需要多個不同模型的情況，如果采用雲計算則需要托管多個模型，會帶來費用的明顯增加。

多邊緣端的數據可以在線學習並行訓練

邊緣部署保證了功能的健壯性。一個節點（邊緣設備）故障不影響其他設備

邊緣端更小，尤其可批量定制的邊緣設備。

內存及算力不足

DL網絡的顯著特點：大模型，高算力需求

推理方面

訓練后的模型中有大部分沒用的神經元（接近0），通過對這類節點的剪枝可以節省內存。谷歌的Learn2Compress發現可以在保持97%准確率的前提下，將模型壓縮一倍。
大部分框架采用32位精度訓練，邊緣端進行精度截取比如采用8位就可以壓縮4倍空間。
通常，精度截斷如果是完全隨機的，誤差很有可能互相抵消。但是，零廣泛用於填充、輟學和 ReLU。在低精度浮點格式中無法精確表示零，因此可能會在性能中引入整體偏差。

本質上就是用訓練出的大模型（真值）去訓練出小模型（預測模型）
Learn2Compress也用到了這個手段做模型壓縮，結合遷移學習，可以在不損失太多精度的情況下壓縮模型

Vision Processing Units (VPUs)：例如google的kits及intel的Neural Compute Stick，號稱低功耗高性能
FPGA: 比GPU功耗低，可接受<32位的精度，但是性能比GPU差
ASIC：對於大規模部署來說，最好的解決方案---特定場景定制的專用芯片（CPU是通用計算芯片）一般是AI芯片，如阿里的含光800，地平線征程系列。設計類似Nvidia V100微處理器架構來加速矩陣乘法。----高研發時間成本