浮點數也就是小數點浮動的數,但是因為在計算機中使二進制表示,不同長度有不同的精度。三種常用的浮點數的格式:半精度(float16)、單精度(float32)、雙精度(float64)
- Value=sign*exponent*fraction
- 數值=符號位*指數位*小數位
- 符號位表示正負
- 指數位表示次方
- 小數位表示精度
區別在於指數位和小數位的長度的差異;這樣近似值其實也就是有理數的表示方法;
半精度表示π,最大值和最小值:
單精度表示π,最大值和最小值:
雙精度表示π,最大值和最小值:
Bfloat16
最近還誕生了一種Bfloat16的計數方式,使用和半精度相同的位數,實現了保持和單精度一樣的指數位也就是8位指數位,可以表示和單精度相同的數字范圍,但是犧牲了小數位也就是精度。
參考文獻:
<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">
