zz神經網絡模型量化方法簡介

【轉載請注明出處】chenrudan.github.io

隨着神經網絡算法的發展，網絡性能雖然越來越強大，但是也耗費了太多的計算資源和內存，為了得到更有效率的網絡以及能部署在移動端，近幾年神經網絡的壓縮算法成了一個研究熱點，主要的網絡壓縮途徑有五種，量化、剪枝、低秩分解、教師-學生網絡、輕量化網絡設計，量化就是將以往用32bit或者64bit表達的浮點數用1bit、2bit占用較少內存空間的形式進行存儲。剪枝的目的是為了去掉一些不重要的神經元、連接、通道等，低秩分解主要是通過各種分解方法用精簡的張量來表達復雜張量，教師-學生網絡間接通過提升小網絡性能來壓縮學生網絡的規模，一般可以與其他壓縮方法同時使用，輕量化網絡設計主要是類似MobileNet這種設計的非常精簡但性能又好的網絡。幾種方法都各有特點，都是值得研究和討論的，本文主要針對量化算法近幾年的發展做一個梳理和歸納，我覺得量化算法有幾個特點，理論簡單，公式少，性能穩定且trick多。

下圖1-4我整理了本文涉及到的文章在各個開源數據集上的性能表現，由於各個文章中對比指標不是完全一致，例如MNIST、Cifar10所用到的基礎網絡不一定一樣，對性能感興趣的可以去對照原文看看。

圖1 Cifar10、VGG、GoogLeNet	圖2 AlexNet
圖3 ResNet18	圖4 ResNet34 & ResNet50

圖1 Cifar10、VGG、GoogLeNet	圖2 AlexNet
圖3 ResNet18	圖4 ResNet34 & ResNet50

模型量化主要包括兩個部分，一是針對權重Weight量化，一是針對激活值Activation量化，在一些文章中已經表明了將權重和激活值量化到8bit時就可以等價32bit的性能。在神經網絡中的基本操作就是權重和激活值的卷積、乘加操作， $W * A$

BinnaryConnect

BinnaryConnect[2]是我看到的第一篇歸納出完整量化流程的文章，它提出DNN的前向和反向訓練中用1bit的二值權重替代浮點權重，能夠讓硬件計算將乘法操作簡化成簡單的累加操作，且能大量的減少存儲空間，在MNIST、CIFAR-10、SVHN上接近SOA的性能。

我們知道正是由於神經網絡參數量大，無法直接得到損失函數的最優參數，才采用了梯度下降的方式來逼近最優解，Sgd通過平均權重帶來的梯度來得到一些小的帶噪聲的步長，嘗試更新權重去搜索參數空間，因此這些梯度十分重要，要具有足夠的分辨率，sgd至少需要6~~8bits的精度，大腦突觸的估計精度也是6~~12bits。。如果采用量化權重，就會導致無法對權重直接求導，這種權重可以被看成是帶噪聲的權重。文章認為帶噪聲的權重往往能夠帶來正則化，使得泛化能力更好，類似dropout、dropconnect這種就是對激活值或者權重加入了噪聲，它們表明只有權重的期望值需要是高精度的，添加噪聲往往是有益處的，所以對權重進行量化理論角度是可行的，且在部分文章中發現對梯度隨機取舍能夠提供無偏離散化。

在本文中提出了BinaryConnect，在DNN的前向和反向訓練中用二值權重替代浮點權重，此處的二值權重B取值為{-1,1}，文章中提出了兩種量化方法，判別式和隨機式，其中 $σ (w) = c l i p (\frac{x + 1}{2}, 0, 1)$

w b = {+ 1, if w \geq 0; - 1, otherwise (1)

w b = {+ 1, with probability p = σ (w); - 1, with probability 1-p (2)

完整算法流程如下圖5，C是損失函數，binarize(w)是按照上述公式二值化權重值，clip(w)是截斷權重值，L是層數。前向傳播時，只對權重做二值化，然后逐層求出二值權重得到的激活值，反向傳播時，也是在二值權重上將對每層輸入的導數傳播回來，此時的導數是浮點的，更新參數時，同樣求得的梯度也是浮點的。由於通常求得的梯度數值不是很大但是又非常重要，所以此處參數更新時還是用浮點梯度。由於權重量化時只取符號，浮點權重大於正負1，對結果沒有影響，為了限制浮點權重不會增長過於誇張以及提高正則性，使用了clip函數將浮點權重限制在正負1之間。

圖5 BinnaryConnect算法流程

量化網絡如何inference，一是直接用二值權重。二是用浮點權重，權重二值化只用在訓練階段。三是從浮點權重和隨機二值化可以采樣出很多二值網絡，將它們的預測輸出平均一下作為輸出。論文用第三種方法，訓練過程中用隨機二值權重，測試時用浮點權重可以提升性能，證明了論文前面認為的帶噪聲的權重具有一定的正則性。

這篇文章主要貢獻在於將浮點權重量化到1bit，提出了完整的量化權重流程，且從帶噪聲的權重角度來解釋量化權重。

BNN

BNN[3]與BinnaryConnect是同一個作者，也是這個算法的擴展，在前面只將權重量化到了1bit，本文則進一步將激活值也變成1bit，即減少了內存消耗，也將許多乘加操作簡化成了按位操作XNOR-Count，二值化CNN能夠減少60%的硬件時間復雜度，訓練BNN在MNIST、CIFAR-10、SVHN上達到了SOA的性能。

權重和激活值都量化成了{-1,1}，量化方式也是按照公式1和2，隨機式在硬件實現上具有一定的難度，為了加快訓練速度，文章中用的是判別式。由於符號函數的梯度都是0，離散神經元的梯度可以通過straight-through estimator[25]來解決，即浮點數的梯度等於量化數的梯度 $g_{r} = g_{q} 1_{| r | \leq 1}$

在訓練過程中，需要保存二值權重和浮點權重，在前向后向計算中用二值權重，計算出來的梯度保存成浮點，且更新到浮點權重上。前向傳播時，先對 $W_{k}$

文章中提出了第一個卷積層參數普遍較少，所以第一個卷積層輸入量化到8bit，后面很多論文也采用同樣的策略。與1bit權重相乘方式如公式3， $x^{n}$

s = \sum n = 1 8 2 n - 1 (x n \cdot w b) (3)

BNN算法主要貢獻在於同時對權重和激活值量化到1bit，不僅從實驗角度證明量化算法的可行，還分析針對低bit如何進行更有效的計算，整理出了同時量化權重和激活值到1bit的算法流程，且針對內部的硬件計算，給出了具體實現，例如Shift-based Batch Normalization、XNOR-Count，最終訓練能減少60%的時間，32倍的存儲空間。

XNOR-Net

這篇文章[15]提出了兩個網絡Binary-Weight-Networks(BWN)和XNOR-Net，BWN只將權重量化為二值，XNOR權重和激活值都是二值，速度快了58x，內存節省32x。當AlexNet壓縮成BWN時，性能與浮點網絡一致。

在對浮點值進行量化時，加入了一個scaling factor，例如權重量化中 $W = α B$

J (B, α) = | | W - α B | | 2 α *, B * = a r g m

將公式4對 $α$

XNOR-Net中對激活值也量化 $X = β H$

Cnn訓練分為三個部分，前向傳播、后向傳播、參數更新，在前向后向的計算中使用量化權重，更新時如果直接更新量化權重，那么梯度可能不夠大到改變量化權重的取值，所以還是讓浮點權重進行更新。

XNOR-Net文章主要貢獻在於提出了一個更好的擬合浮點數的方法，即給二值數增加一個尺度因子，而不是簡單的取符號，在alexnet上將權重量化到1bit時能夠達到跟浮點權重一樣的性能。

TWN

前幾篇文章都是將浮點數直接量化到了1bit，TWN[4]則提出將權重量化成2bit，雖然2bit能表達四個數，但是只取了三個數{-1,0,1}，在mnist和cifar10數據集上三值權重性能比二值權重好很多，通過2bit表達，可以達到16x到32x的模型壓縮比例。

一般卷積kernel的尺寸是3x3，針對二值權重，表達能力是2^(33)=512種配置，而三值權重3^(33)=19683種配置，所以說三值權重比二值權重的表達能力要高很多。三值權重取值上多了一個0，實際計算中，由於0值處不需要進行相乘累加，對硬件也是十分友好。

量化公式如公式5，也使用到了尺度因子來擬合浮點權重，最小化量化權重TWN和浮點權重FPWN之間的L2距離。

α *, W t * = a r g m i n α, W t J (α, W t) = | | W -

優化問題就變成了如何求出 $α$

W t i = + 1, ::: i f :: W i > Δ

求閾值則無法直接去求解，因此假設權重服從幾個分布來分析這個閾值的求解途徑，例如假設權重服從均勻分布[-a,a]，閾值 $Δ = 1 / 3 * a$

TWN的主要貢獻通過2bit來近似浮點權重，相比於二值權重性能有較明顯的提升，但由於取值也限於正負1和0，對硬件計算沒有額外的負擔。

BWNH

[5]認為量化的過程可以看成一個hash映射，目標就變成了交替優化方法來學習哈希碼。

在之前文章中的量化優化問題都是找到最優的量化數值來擬合浮點數值，本文中考慮的是最小化內積的量化誤差。本文中是將權重量化到1bit，內積指的是權重和激活值之間相乘，也稱為輸入X和權重W的相似性矩陣 $S = X^{T} W$

m i n L (B) = | | X T W - X T B | | 2 F ::: s . t . B \in {+ 1, -

$g (W) = B A$

此處對A和B求梯度設為0，可以推導出帶有輸入數據關於 $α$

α i = S T i X T B i | | X T B i | | 2 F b = s i

在具體算法流程中，逐層的對每一層的權值做二值化，每一層量化時初始化時B取浮點權重的符號，而A取權重平均絕對值，接着就按照公式8進行交替的優化A和B。最后再對整個網絡進行finetuing。

BWNH只對權重進行了量化，算法主要貢獻在於從哈希角度來解決量化問題，並且提出了逐層的交替更新，相對於之前的二值權重量化方法性能有着較為明顯的提升。

FFN

FFN[16]中只將浮點權重量化到2bit，通過定點化分解方式來求解量化后權重，由於三值權重只有正負1和0，即可以消除最耗費資源的multiply-accumulate operations(MAC)操作，FFN可以得到浮點網絡性能相當的網絡，且乘法運算僅為浮點網絡的千分之一。

通過semidiscrete decomposition(SDD)半離散分解將浮點權重W分解成定點化方式 $W = X D Y^{T}$

圖6 FFN分解

為了更好的恢復浮點權重，算法中保留了X和Y對應的浮點數值 $\hat{X}$

FFN只針對權重做了量化，提出了將浮點權重矩陣用矩陣分解的方式分解成三個簡單矩陣，其中兩個矩陣元素取值為正負1和0，從而間接完成量化的功能。

INQ

INQ[17]提出增量網絡量化方法，通過權重分組、按組量化、重新訓練三個操作將浮點網絡量化到低bit網絡，在resnet18上量化權重后，4bit、3bit、2bit能夠達到甚至超過浮點權重。

文章從網絡剪枝算法中得到靈感，逐步的從已經訓練好的網絡中移除掉不那么重要的權重，最終性能也不會有明顯下降，所以說權重是存在不同的重要性的，但是之前的方法沒有考慮到這點，而是同時將高精度浮點數轉化為低精度數值，因此改變網絡權重的重要性對於減少量化網絡的損失很重要。

本文中低bit權重需要一個符號位，至少從2bit開始，b是比特數，取值范圍是 $P_{l} = \pm 2^{n_{1}}, \dots, \pm 2^{n_{2}}, 0$

W l^(i, j) = β s g n (W l (i, j)) :::: if (α + β) / 2 \leq a b s (

網絡訓練過程中，將權重分割到兩個不相交的組中，第一個組 $A_{l}^{(1)}$

圖7 INQ算法

INQ算法對權重進行了量化，通過逐步增量式的將權重量化，通過保留一部分浮點權重來恢復模型的性能，精度損失得到了一定的遏止。

SQ-B(T)WN

SQ-B(T)WN[6]也是一種增量式量化算法，它從不同權重會導致不同量化誤差角度，在近似實數權重時，可能只是針對部分filter量化error大，部分filter量化error小，文章提出了隨機選擇部分filter量化STOCHASTIC QUANTIZATION，逐漸增加量化比例最終完成全部權重量化。

一層的權重按照輸出channel作為一組數據 $W = W_{1}, \dots, W_{m}$

針對每一個filter $W_{i}$

圖8 隨機channel量化

在圖8中，先計算出4個channel的量化error，假設當前r=50%，根據每個channel計算出來的量化概率挑選2個channel量化。

SQ-B(T)WN算法通過逐步量化權重，比直接全部量化產生的更加合適梯度方向，但是從算法結果上來說，看起來並不是特別好。

Deep Compression

Deep Compression算法[7]結合了剪枝、量化、哈夫曼編碼三種操作，在性能沒有降低的情況下壓縮了35x~49x，目標是減少存儲空間減少inference的耗時，從而能部署在移動設備上。

第一步是剪枝，在訓練過程中來學習各個連接的性能表現，然后裁剪掉權重較小不夠重要的連接，通過設定一個閾值，小於這個閾值移除掉，再重新訓練留下的稀疏連接。剪枝后的稀疏結構用compressed sparse row和compressed sparse row方式存儲，需要保存2a+n+1數據，a是非零值元素個數，n是行數或者列數。這一步中可以在Alexnet和VGG-16上壓縮9x~13x。

第二步是量化，通過讓多個連接共享相同權重來達到量化目的，在有限的bit數中只能表達有限的數值，所以當某些神經元取一樣的數值時，就說它們在共享這個權重。假設權重大小是4*4，權重被量化到4個bin，在相同bin中的權重取值相同，因此只需要保存bin的索引，更新的時候相同bin中的梯度加起來再更新。假如有k個bin，那么需要log2k位來對索引進行編碼，假如網絡有n個連接，每個連接由b個位表達，從而可以得到壓縮比例 $r = \frac{n b}{n l o g 2 (k) + k b}$

huffman編碼是一種無損數據壓縮方法，壓縮非均勻分布的值可節省20%~~30%的網絡存儲。最終經過這三個操作，網絡在性能沒有降低的情況下被壓縮了35x~~49x。

這篇文章操作較多比較復雜，但是性能是穩定可靠的，每個壓縮操作都沒有導致性能下降。

TTQ

TTQ[8]量化浮點權重到三值權重，在開源數據集上相比浮點性能下降很少。

在之前的量化算法中，是通過一個尺度因子和三值權重相乘來擬合浮點權重，像在TWN中給出了經驗公式來計算尺度因子 $α$

首先將浮點權重除以最大值后正則化到正負1之間，所有的層有一個相同的參數t，用來計算閾值 $Δ_{l} = t \times m a x (| \tilde{w} |)$

w t l = W p l : w ~ l > Δ l 0 : | w ~ l | < Δ l -

這里針對正負數有不同的量化levels，即有兩個尺度因子 $W_{l}^{p}$

對尺度因子進行訓練的好處在於，正負尺度因子的不對稱使得模型能力更強，且針對所有層有一個常數稀疏r，調整超參數r可以調整量化閾值，能夠獲得不同稀疏度的三值網絡。

TTQ中將正負量化levels分開考慮，且作為可訓練的參數進行更新，而不是用經驗公式進行計算，性能比TWN也要好一些。

DoReFa-Net

在DoReFa-Net[9]中權重、激活值和參數梯度都設置成了低bit，優點是不只在inference時能夠加速，且訓練時由於梯度也被量化了，訓練時也能加速。所以能夠很好的在硬件平台上直接進行訓練。

當權重和激活值都量化后，就能夠用bitcount操作來計算，即x和y相與的結果后可以直接數出位置為1的個數，而之前的文章中還沒有量化過梯度到8bit以下。在BNN網絡中，浮點梯度在-1到1范圍內時等於量化梯度，超出范圍就等於0，在xnor-net中，浮點梯度直接等於量化梯度，由於加上了一個尺度因子，所以權重能夠表示的范圍就更廣了，在DoReFa-Net中權重量化方式為 $r_{o} = f_{w}^{k} (r_{i}) = 2 q u a n t i z e_{k} (\frac{t a n h (r_{i})}{2 m a x (| t a n h (r_{i}) |)} + \frac{1}{2}) - 1$

激活值的量化先是由一個激活函數將范圍限制在0~1之內，再量化到k bit， $f_{a}^{k} (r) = q u a n t i z e_{k} (r)$

在針對梯度進行量化時，隨機量化是一個比較有效的手段，且梯度是不像激活值可以被限制在某個范圍內，有的位置上梯度取值可能會比較大，激活值由於可以經過一個激活函數，所以能夠限制數值大小。梯度量化公式為 $f_{γ}^{k} (d r) = 2 m a x_{0} (| d_{r} |) [q u a n t i z e_{k} [\frac{d_{r}}{2 m a x_{0} (| d_{r} |)} + \frac{1}{2} + N (k)] - \frac{1}{2}]$

所以DoReFa-Net並不是指定量化到多少bit，而是可以量化到任意的bit，由於整個網絡的輸入數據層channel較少，對於整體網絡復雜度影響較小，因此第一個卷積層的權重不進行量化，第一個卷積層的輸出激活值會被量化，如果輸出類別較少時，最后一個卷積層的權重也不進行量化，最后一層的反向梯度需要量化。

這篇文章主要就是提出對梯度也進行量化，並且支持量化到任意bit。

ABC-Net

二值權重和激活值能夠很大程度的減少內存空間，且能采用按位計算，對硬件很友好，但是現有的方法會導致性能下降，本文主要提出了ABC-net(Accurate-Binary Convolutional)線性組合多個二值權重基來擬合浮點權重，利用多個二值激活值基組合來減少信息損失。

將浮點權重用M組二值權重和尺度因子進行線性組合， $W \approx α_{1} B_{1} + α_{2} B_{2} + \dots + α_{M} B_{M}$

當權重是二值的，卷積操作就沒有了乘法，只剩下加減，如果想要更高效的利用按位操作，最好是將激活值也變為二值。因此類似對權重的處理，文章首先將激活值通過一個clip函數 $h_{v} (x) = c l i p (x + v, 0, 1)$

ABC-Net也是一個不限制bit數的量化算法，性能也接近浮點網絡。

HWGQ

HWGQ[11]主要針對激活值量化，利用了激活值的統計特性和batchnorm操作，在前向計算時能有效的近似浮點值的性能。

針對激活值的量化需要處理不可微的操作，主要切入點在於ReLU函數，神經網絡每個單元都計算了一個激活函數，即權重與輸入相乘后經過一個非線性變換，這個操作的多少決定了整個網絡的復雜度。

本文中估計1bit量化權重，也是基於二值權重和尺度因子相乘去擬合浮點權重，輸入I與量化權重卷積來近似I和浮點權重卷積結果，是二值權重取浮點權重的符號 $B^{*} = s i g n (W)$

在對激活值進行量化時，如果直接按照符號函數來定義量化levels，那么對量化激活值進行求導時，導數處處為0，所以有人提出，對符號函數求導如果輸入絕對值小於1則梯度為1，其他位置取0。結合relu函數，本文對激活值量化的目標是擬合relu函數的輸出。quantizer是一個分段常數函數，量化levels就是量化到的值，量化step就是兩個量化level之間的差，針對每個浮點數值，它只需要保存一個索引值i，對應到第i個量化level，非均勻量化情況下表達浮點權重需要多余 $l o g_{2} m$

首先考慮最基本的relu函數，它對輸入的梯度等於輸出梯度，與正向的HWGQ所需要的梯度是不匹配的，特別是當輸入數值大於最大的量化level時，產生的誤差導致的反向梯度就會特別大。基於這個情況，考慮用clipped后的relu，保證最大值不超過最大的量化level，但是由於clipped的操作，丟失掉了 $q_{m}$

Q l ~ (x) = q m + l o g (x - τ), x > q m x, x \in (0, q m] 0,

HWGQ主要從理論上分析如何去選擇一個激活函數，從而保證激活值量化后低bit網絡性能接近浮點網絡。

Network Sketching

本文提出了Network Sketching[19]用來尋找量化二值權重的網絡，整個過程可以看成是由粗到細的模型近似。

按照輸出channel來划分不同的filter，假設有m組基來擬合一個channel的權重， $W = \sum_{m = 0}^{m - 1} α_{j} B_{j}$

W j^= W - \sum k = 0 j - 1 α k B k (12)

具體在求B和 $α$

本文的sketch就體現在第j個量化權重是在估計當前浮點權重的殘差，量化error越來越精細，就像在逐步的從粗到細描繪出具體的輪廓。

PQ+TS+Guided

本文[20]為了提升量化網絡訓練性能，提出了三個方法，一是兩步優化策略，先量化權重再量化激活值，其次在訓練過程中逐步減少量化位寬，第三聯合訓練浮點網絡和低精度網絡。

量化采用的是Q函數均勻量化， $z_{q} = Q (z_{r}) = \frac{1}{2^{k} - 1} r o u n d ((2^{k} - 1) z_{r})$

為了增加量化的准確性，本文首先提出了兩步優化two-stage optimization(TS)，先量化權重再量化激活值，如果從K-bit的網絡量化得到k-bit的網絡，首先訓練在K-bit激活值下的k-bit權重，在k-bit權重訓練好后訓練k-bit的激活值。而由於訓練過程中近似的梯度不一定是准確的，所以會導致陷入局部最優值的情況，所以本文提出了分階段量化progressive quantization(PQ)的想法，逐步減少量化位寬的方法，例如32bit->16bit->4bit->2bit，量化n次就得完整訓練n次。第三個提升方法是基於教師-學生網絡(Guided)，聯合訓練浮點網絡和低精度網絡，互相適應，因為直接用固定的預訓練好的浮點模型來指導量化網絡不一定最好，且在特征圖層面上進行遷移，為了保持浮點網絡和低精度網絡一致，在相互適應時，將浮點網絡也做同樣的量化，然后再相互遷移。

圖9 Guided訓練

這個方法主要是提出一些有效的trick來輔助訓練量化網絡，且表現非常不錯。

SYQ

SYQ[21]提出了對稱量化能夠提升網絡准確率。

在SYQ中，Codebook C是量化levels的一些可能取值，例如{-1,1}，或者{-1,0,1}，二值化或者三值化權重時通常的方法是采用分段常數函數，並存在 $η$

很多細粒度量化方法能夠提升近似權重分布的能力，本文實現了按像素進行縮放，假設一層權重是 $K \times K \times N \times I$

在SYQ算法流程中，每一層首先通過 $Q_{l} = s i g n (W_{l}) ⨀ M_{l}$

SYQ相對於TTQ沒有特別明顯的改進，增加了 $α$

TSQ

之前方法中都是同時量化權重和激活值，TSQ[12]提出了先量化激活值再量化權重，針對激活值，提出了稀疏量化方法，文章認為網絡壓縮和加速中稀疏能起到很大作用，之前的文章中都很少研究這個方向，且稀疏性在特殊硬件上會更有效，而權重量化可以看成低bit非線性最小二乘回歸問題，通過迭代方式求解。

得到低比特權重是transformations，得到低比特激活值是encodings。在encodings問題中，Relu函數本身就產生了50%的稀疏性，在attention機制的基本假設中，數值較大的激活值比數值較少的激活值更重要。所以將數值較小的正值變成0，這樣量化算法能夠更能關注到較大的數值，量化的會更精細。n-bit均勻量化子quantizer將浮點激活值映射到 $2^{n}$

Q * ϵ (x) = a r g m a x Q ϵ E x \sim N (0, 1), x > ϵ [(Q

對權重進行量化，假設上一層的輸出是X，這一層的輸出是Y，將權重量化的問題變成一個非線性最小平方回歸問題，將浮點尺度因子 $α$

在求解 $α$

對權重量化時，層與層之間可以同時進行，沒有耦合關系，但是獨立進行量化時，量化誤差會在層與層之間累加，所以還是考慮通過按層量化。

TSQ通過稀疏量化激活值和引入一個中間變量z來產生新的量化方法，在alexnet上將權重激活值都量化到2bit時性能與浮點也是一致的。

LQ-Net

LQ-Net[13]目的是希望學習量化任意bit權重和激活值的quantizers，現有的量化方法都是一種人工設計的quantizers，例如均勻量化、對數量化，或者在網絡訓練之時已經計算好的quantizers(HGWQ)，如果針對不同的網絡能自適應的學到不同quantizers，性能應該會有所提升，所以本文就想聯合訓練一個量化的DNN網絡和對應的quantizers。

$q_{l}$

假設網絡被量化到K-bit，一個整數q可以通過一個k維的basis系數向量v和k個bit的二值編碼向量 $e_{l}$

q =< [1 2 \dots 2 K - 1], [b 1 b 2 \dots b K] >

由於二值編碼向量 $e_{l}$

對權重和激活值都進行相同的量化操作，卷積就變成了 $Q_{o u r s} (w, v^{w})^{T} Q_{o u r s} (a, v^{a}) = \sum_{i = 1}^{K_{w}} \sum_{j = 1}^{K_{a}} v_{i}^{w} v_{j}^{a} (b_{i}^{w} ⊙ b_{j}^{a})$

在量化和更新過程中，在訓練開始之前通過一個經驗公式求出初始的v，然后先固定v更新B，此時v是已知的，可以直接計算出所有levels，對比浮點數x落在哪個區間就量化到對應的B。然后固定B更新v，通過最小化量化誤差 $\underset{v, B}{a r g m a x} | | B^{T} v - x | |_{2}^{2}$