int、int16、int32、int64、float、float16、float32、float64 - 碼上歡樂

相關內容簡體繁體

int、int16、int32、int64、float、float16、float32、float64

本文轉載自查看原文 2020-07-06 17:02 5723 深度學習

在做模型量化的時候，經常遇到這幾個類精度表示，做下記錄：

類型		位
float16	半精讀	2個字節
float32	float	4個字節
float64	雙精度	8個字節

注：

bits：位數

bytes：字節 1bytes = 8 bits

單精度用小數用23位存儲，加上默認的小數點前的1為1，2^(23+1) = 16777216.

因為10^7<16777216<10^8,所以說單精度浮點數的有效位數是7位。

雙精度的小數位數是52位存儲，2^(52+1) = 9007199254740992.

因為10^16<9007199254740992<10^17，所以雙精度的有效位數是16位。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 int16, int32, int64等類型說明計算機的基本的存儲單元和基本類型，Int8，Int16，Int32，Int64 有啥不同 float16與float32轉換 Python Theano TypeError: Cannot convert Type TensorType(float64, vector) (of Variable Subtensor{int64:int64:}.0) into Type TensorType(float64, matrix) 使用GPU計算時，單精度float32類型和半精度float16類型運算效率的區別 golang學習筆記13 Golang 類型轉換整理 go語言string、int、int64、float64、complex 互相轉換 golang interface 轉 string、int、float64 [轉]Go語言string，int，int64 ,float之間類型轉換方法 C++ __int64用法 (轉) TypeError: Can not convert a float32 into a Tensor or Operation.

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM