JVM虛擬機Class類文件研究分析


前言

為了研究Class文件,先編寫一個最簡單的代碼:

package com.courage;
public class T0100_ByteCode01 {
}

之所以說最簡單,是因為這個類里面任何方法,變量都沒有,看看編譯之后Class文件的16進制代碼:

2002319-20210201175641063-896578792

在解讀上面的Class文件(后面沒有特殊生命的話都是指16進制)之前,需要先學習幾個前置知識,Java 虛擬機規范規定 Class 文件格式采用一種類似與 C 語言結構體的微結構體來存儲數據,這種偽結構體中只有兩種數據類型:無符號數和表。

  • 無符號數屬於基本的數據類型,以 u1、u2、u4、u8來分別代表 1 個字節、2 個字節、4 個字節和 8 個字節的無符號數,無符號數可以用來描述數字、索引引用、數量值或者按照 UTF-8 編碼結構構成的字符串值。
  • 是由多個無符號數或者其他表作為數據項構成的復合數據類型,所有表都習慣性地以「_info」結尾。表用於描述有層次關系的復合結構的數據,整個 Class 文件就是一張表,它由下表中所示的數據項構成。

有了無符號數這個概念,就可以根據虛擬機規范來解讀上面的文件了:

類型 名稱 含義 數量
u4 magic 魔數,不變 1
u2 minor_version 小版本號:JDK 8_255u中的255u 1
u2 major_version 大版本號,JDK 8_255u中的8 1
u2 constant_pool_count 常量池數量 1
cp_info constant_pool 常量池 constant_pool_count-1
u2 access_flags 訪問修飾符 public static 等 1
u2 this_class 當前類 1
u2 super_class 父類 1
u2 interfaces_count 接口數量 1
u2 interfaces 接口 interfaces_count
u2 fields_count 變量數量 1
field_info fields 變量 fields_count
u2 methods_count 方法數量 1
method_info methods 方法 methods_count
u2 attributes_count 屬性數量 1
attribute_info attributes 屬性 attributes_count

所有的Class文件里面的屬性都按照上表的規則排序,中間沒有空行或其他轉義字符。哪個字節代表什么含義,長度是多少,先后順序如何都是被嚴格限制的,不允許有任何改變。

魔數與 Class 文件版本

每個 Class 文件的頭 4 個字節稱為魔數(Magic Number),它的唯一作用是確定這個文件是否為一個能被虛擬機接收的 Calss 文件。之所以使用魔數而不是文件后綴名來進行識別主要是基於安全性的考慮,因為文件后綴名是可以隨意更改的。Class 文件的魔數值為「0xCAFEBABE」。

緊接着魔數的 4 個字節存儲的是 Class 文件的版本號:第 5 和第 6 兩個字節是次版本號(Minor Version),第 7 和第 8 個字節是主版本號(Major Version)。高版本的 JDK 能夠向下兼容低版本的 Class 文件,虛擬機會拒絕執行超過其版本號的 Class 文件。

常量池

主版本號之后是常量池入口,常量池可以理解為 Class 文件之中的資源倉庫,它是 Class 文件結構中與其他項目關聯最多的數據類型,也是占用 Class 文件空間最大的數據項目之一,同是它還是 Class 文件中第一個出現的表類型數據項目。

因為常量池中常量的數量是不固定的,所以在常量池入口需要放置一個 u2 類型的數據來表示常量池的容量「constant_pool_count」,和計算機科學中計數的方法不一樣,這個容量是從 1 開始而不是從 0 開始計數。之所以將第 0 項常量空出來是為了滿足后面某些指向常量池的索引值的數據在特定情況下需要表達「不引用任何一個常量池項目」的含義,這種情況可以把索引值置為 0 來表示。

Class 文件結構中只有常量池的容量計數是從 1 開始的,其它集合類型,包括接口索引集合、字段表集合、方法表集合等容量計數都是從 0 開始。

常量池中主要存放兩大類常量:字面量符號引用

  • 字面量比較接近 Java 語言層面的常量概念,如字符串、聲明為 final 的常量值等。

  • 符號引用屬於編譯原理方面的概念,包括了以下三類常量:

    • 類和接口的全限定名
    • 字段的名稱和描述符
    • 方法的名稱和描述符

常量池17種數據類型的結構表



訪問標志

緊接着常量池之后的兩個字節代表訪問標志(access_flag),這個標志用於識別一些類或者接口層次的訪問信息,包括這個 Class 是類還是接口;是否定義為 public 類型;是否定義為 abstract 類型;如果是類的話,是否被申明為 final 等。具體的標志位以及標志的含義見下表:

標志名稱 標志值 含義
ACC_PUBLIC 0x0001 是否為 public 類型
ACC_FINAL 0x0010 是否被聲明為 final,只有類可設置
ACC_SUPER 0x0020 是否允許使用 invokespecial 字節碼指令的新語意,invokespecial 指令的語意在 JKD 1.0.2 中發生過改變,微聊區別這條指令使用哪種語意,JDK 1.0.2 編譯出來的類的這個標志都必須為真
ACC_INTERFACE 0x0200 標識這是一個接口
ACC_ABSTRACT 0x0400 是否為 abstract 類型,對於接口或者抽象類來說,此標志值為真,其它類值為假
ACC_SYNTHETIC 0x1000 標識這個類並非由用戶代碼產生
ACC_ANNOTATION 0x2000 標識這是一個注解
ACC_ENUM 0x4000 標識這是一個枚舉

access_flags 中一共有 16 個標志位可以使用,當前只定義了其中的 8 個,沒有使用到的標志位要求一律為 0。

類索引、父類索引與接口索引集合

類索引(this_class)和父類索引(super_class)都是一個 u2 類型的數據,而接口索引集合(interfaces)是一組 u2 類型的數據集合,Class 文件中由這三項數據來確定這個類的繼承關系。

  • 類索引用於確定這個類的全限定名
  • 父類索引用於確定這個類的父類的全限定名
  • 接口索引集合用於描述這個類實現了哪些接口

字段表集合

字段表集合(field_info)用於描述接口或者類中聲明的變量。字段(field)包括類變量和實例變量,但不包括方法內部聲明的局部變量。下面我們看看字段表的結構:

類型 名稱 數量
u2 access_flag 1
u2 name_index 1
u2 descriptor_index 1
u2 attributes_count 1
attribute_info attributes attributes_count

字段修飾符放在 access_flags 中,它與類中的 access_flag 非常相似,都是一個 u2 的數據類型。

標志名稱 標志值 含義
ACC_PUBLIC 0x0001 字段是否為 public
ACC_PRIVATE 0x0002 字段是否為 private
ACC_PROTECTED 0x0004 字段是否為 protected
ACC_STATIC 0x0008 字段是否為 static
ACC_FINAL 0x0010 字段是否為 final
ACC_VOLATILE 0x0040 字段是否為 volatile
ACC_TRANSIENT 0x0080 字段是否為 transient
ACC_SYNTHETIC 0x1000 字段是否由編譯器自動生成
ACC_ENUM 0x4000 字段是否為 enum

方法表集合

Class 文件中對方法的描述和對字段的描述是完全一致的,方法表中的結構和字段表的結構一樣。

因為 volatile 關鍵字和 transient 關鍵字不能修飾方法,所以方法表的訪問標志中沒有 ACC_VOLATILE 和 ACC_TRANSIENT。與之相對的,synchronizes、native、strictfp 和 abstract 關鍵字可以修飾方法,所以方法表的訪問標志中增加了 ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFP 和 ACC_ABSTRACT 標志。

對於方法里的代碼,經過編譯器編譯成字節碼指令后,存放在方法屬性表中一個名為「Code」的屬性里面。

屬性表集合

在 Class 文件、字段表、方法表中都可以攜帶自己的屬性表(attribute_info)集合,用於描述某些場景專有的信息。

屬性表集合不像 Class 文件中的其它數據項要求這么嚴格,不強制要求各屬性表的順序,並且只要不與已有屬性名重復,任何人實現的編譯器都可以向屬性表中寫入自己定義的屬性信息,Java 虛擬機在運行時會略掉它不認識的屬性。

下面就可以對類文件逐行分析了:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM