“一次編寫,到處運行(Write Once,Run Anywhere)“,這是 Java 誕生之時一個非常著名的口號。在學習 Java 之初,就了解到了我們所寫的.java
會被編譯期編譯成.class
文件之后被 JVM 加載運行。JVM 全稱為 Java Virtual Machine
,一直以為 JVM 執行 Java 程序是一件理所當然的事情,但隨着工作過程中接觸到了越來越多的基於 JVM 實現的語言如Groovy
Kotlin
Scala
等,就深刻的理解到了 JVM 和 Java 的無關性,JVM 運行的不是 Java 程序,而是符合 JVM 規范的.class
字節碼文件。字節碼是各種不同平台的虛擬機與所有平台都統一使用的程序儲存格式。是構成Run Anywhere
的基石。因此了解 Class 字節碼文件對於我們開發、逆向都是十分有幫助的。
Class 類文件的結構
概述
Class文件是一組以 8位字節為基礎單位的二進制流,各個數據項目嚴格按照順序緊湊地排列在 Class 文件中,中間沒有添加任何分隔符,這使得整個 Class 文件中存儲的內容幾乎全部是程序運行的必要數據,沒有空隙存在。當遇到需要占用 8 位字節以上空間的數據項時,則會按照Big-Endian
的方式分割成若干個 8 字節進行存儲。Big-Endian
具體是指最高位字節在地址最低位、最低位字節在地址最高位的順序來存儲數據。SPARC
、PowerPC
等處理器默認使用Big-Endian
字節存儲順序,而x86
等處理器則是使用了相反的Little-Endian
順序來存儲數據。因此為了Class文件的保證平台無關性,JVM必須對其規范統一。
Class 文件結構
在講解Class類文件結構之前需要先介紹兩個概念:無符號數和表。一種類似 C 語言結構體的偽結構。
- 無符號數:基本類型數據,一 u1、u2、u4、u8 來分別代表 1 個字節、2 個字節、4 個字節和 8 個字節的無符號數。用來描述數字、索引引用、數量值或者按照UTF-8編碼構成字符串值。
- 表:由多個無符號數或者其他表作為數據項構成的復合數據類型,所有的表都習慣以
_info
結尾,用於描述有層次關系的復合結構的數據。
當需要描述同一類型但數量不定的多個數據時,經常會使用一個前置的容量計數器加若干個連續的數據項的形式,這時就代表此類型的集合。整個 Class文件本質上就是一張表,其數據項如下偽代碼所示:
ClassFile {
u4 magic;
u2 minor_version;
u2 major_version;
u2 constant_pool_count;
cp_info constant_pool[constant_pool_count-1];
u2 access_flags;
u2 this_class;
u2 super_class;
u2 interfaces_count;
u2 interfaces[interfaces_count];
u2 fields_count;
field_info fields[fields_count];
u2 methods_count;
method_info methods[methods_count];
u2 attributes_count;
attribute_info attributes[attributes_count];
}
每項數據項的含義我們可以對照下圖參照表:

同時我們將根據一個具體的 Java 類來分析 Class 文件結構
public class ByteCode {
private String username;
public String getUsername() {
return username;
}
public void setUsername(String username) {
this.username = username;
}
}
其.class 文件內容如下:

使用 javap
命令可以得到反匯編代碼:
Classfile /Users/chenjianyuan/IdeaProjects/blog/blog-web/target/test-classes/tech/techstack/blog/ByteCode.class
Last modified 2020-8-8; size 581 bytes
MD5 checksum 43eb79f48927d9c5bbecfa5507de0f3c
Compiled from "ByteCode.java"
public class tech.techstack.blog.ByteCode
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #4.#21 // java/lang/Object."<init>":()V
#2 = Fieldref #3.#22 // tech/techstack/blog/ByteCode.username:Ljava/lang/String;
#3 = Class #23 // tech/techstack/blog/ByteCode
#4 = Class #24 // java/lang/Object
#5 = Utf8 username
#6 = Utf8 Ljava/lang/String;
#7 = Utf8 <init>
#8 = Utf8 ()V
#9 = Utf8 Code
#10 = Utf8 LineNumberTable
#11 = Utf8 LocalVariableTable
#12 = Utf8 this
#13 = Utf8 Ltech/techstack/blog/ByteCode;
#14 = Utf8 getUsername
#15 = Utf8 ()Ljava/lang/String;
#16 = Utf8 setUsername
#17 = Utf8 (Ljava/lang/String;)V
#18 = Utf8 MethodParameters
#19 = Utf8 SourceFile
#20 = Utf8 ByteCode.java
#21 = NameAndType #7:#8 // "<init>":()V
#22 = NameAndType #5:#6 // username:Ljava/lang/String;
#23 = Utf8 tech/techstack/blog/ByteCode
#24 = Utf8 java/lang/Object
{
public tech.techstack.blog.ByteCode();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 7: 0
LocalVariableTable:
Start Length Slot Name Signature
0 5 0 this Ltech/techstack/blog/ByteCode;
public java.lang.String getUsername();
descriptor: ()Ljava/lang/String;
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: getfield #2 // Field username:Ljava/lang/String;
4: areturn
LineNumberTable:
line 11: 0
LocalVariableTable:
Start Length Slot Name Signature
0 5 0 this Ltech/techstack/blog/ByteCode;
public void setUsername(java.lang.String);
descriptor: (Ljava/lang/String;)V
flags: ACC_PUBLIC
Code:
stack=2, locals=2, args_size=2
0: aload_0
1: aload_1
2: putfield #2 // Field username:Ljava/lang/String;
5: return
LineNumberTable:
line 15: 0
line 16: 5
LocalVariableTable:
Start Length Slot Name Signature
0 6 0 this Ltech/techstack/blog/ByteCode;
0 6 1 username Ljava/lang/String;
MethodParameters:
Name Flags
username
}
SourceFile: "ByteCode.java"
magic
每個 Class 文件的頭 4 個字節0xCAFEBABE
稱為魔數(Magic Number),用來確定這個文件是否為能被虛擬機接受的 Class 文件格式。
minor_version & major_version
第 5、6 個字節為次版本號(minor_version),第 6、7 個字節是主版本號(major version)上圖次版本號 00 00
轉換為 10 進制為 0,主版本號 00 34
轉換為十進制為 52,代表 JDK 1.8。觀察反匯編代碼也能得到次版本和主版本信息。高版本的 JDK 向下兼容低版本的 Class 文件,但低版本不能運行高版本的 Class 文件,即使文件格式沒有發生任何變化,虛擬機也拒絕執行高於其版本號的 Class 文件。
constant_pool_count & constant_pool[]
后面緊跟着的 2 個字節為常量池個數(constant_pool_count),然后后面緊跟 constant_pool_count 個數的常量。constant_pool_count 是從 1 開始而不是從 0 開始,是為了將 0 項空出來標識后面某些指向常量池的索引值的數據在特定情況下不引用常量池,這種情況下就可以把索引值置為 0 來表示。(除常量池計數外,對於其他類型集合包括接口索引集合、字段表集合、方法表集合等的容量計數都與一般習慣相同,是從0開始的)
常量池(constant_pool)主要存放兩大類常量:
- 字面量
- 字符串常量
- final 的常量值
- 其他類文件的引用
- 符號引用
- 類和接口的全限定名
- 字段的名稱和描述符
- 方法的名稱和描述符
常量池中的每一個常量都是一個常量表,常量表開始的第一位是一個u1類型的標志位(tag),來區分常量表的類型。在JDK 1.7之前共有11種結構各不相同的表結構數據,在JDK 1.7中為了更好地支持動態語言調用,又額外增加了3種(CONSTANT_MethodHandle_info、CONSTANT_MethodType_info和CONSTANT_InvokeDynamic_info),14 中常量類型所代表的具體含義如下:
我們對其按照字面量和符號引用類型分類的話可以入下圖所示

Class文件中的常量池結構通過上例匯編代碼可看出:
Constant pool:
#1 = Methodref #4.#21 // java/lang/Object."<init>":()V
#2 = Fieldref #3.#22 // tech/techstack/blog/ByteCode.username:Ljava/lang/String;
#3 = Class #23 // tech/techstack/blog/ByteCode
#4 = Class #24 // java/lang/Object
#5 = Utf8 username
#6 = Utf8 Ljava/lang/String;
#7 = Utf8 <init>
#8 = Utf8 ()V
#9 = Utf8 Code
#10 = Utf8 LineNumberTable
#11 = Utf8 LocalVariableTable
#12 = Utf8 this
#13 = Utf8 Ltech/techstack/blog/ByteCode;
#14 = Utf8 getUsername
#15 = Utf8 ()Ljava/lang/String;
#16 = Utf8 setUsername
#17 = Utf8 (Ljava/lang/String;)V
#18 = Utf8 MethodParameters
#19 = Utf8 SourceFile
#20 = Utf8 ByteCode.java
#21 = NameAndType #7:#8 // "<init>":()V
#22 = NameAndType #5:#6 // username:Ljava/lang/String;
#23 = Utf8 tech/techstack/blog/ByteCode
#24 = Utf8 java/lang/Object
觀察上面Class文件00 19
表示有 25 個常量,依次往后數 24(25-1)個常量則為常量池中的常量。緊隨其后的一個字節為第一個常量表的 tag 位 0A
-> 10
,通過常量表類型查詢可知 10 為 CONSTANT_Methodref_info
,表內數據項為u1: tag
u2: class_info
u2: name_and_type_index
,結合Class文件分析,這表示從第一個常量CONSTANT_Methodref_info
占用 5 個字節,其中第一個字節0A
為標志位,其后兩個字節00 04
-> 4
之后兩個字節為 class_info,緊隨 2 個字節00 15
-> 21
為 name_and_type_index。我們通過查詢匯編代碼常量池中的一個常量表為#1 = Methodref #4.#21
得出一個常量表正是方法引用,其數據項索引也是#4
和#21
。剩下的 24 種常量分析也是如此。也是因為這 14 中常量類型各自均有自己的結構,所以說常量池是最繁瑣的數據。
小知識:
由於Class文件中方法、字段等都需要引用CONSTANT_Utf8_info型常量來描述名稱,所以CONSTANT_Utf8_info型常量的最大長度也就是Java中方法、字段名的最大長度。而這里的最大長度就是length的最大值,既u2類型能表達的最大值65535。所以Java程序中如果定義了超過64KB英文字符的變量或方法名,將會無法編譯。
access_flags
在常量池結束之后,緊接着兩個字節代表訪問標志(access_flag)這個標志用於識別一些類或接口層次的訪問信息。具體標志位以及標志的含義見下表:
invokeSpecial 指令語義在 JDK1.0.2發生過改變,為了區別這條指令使用哪種語意,在 JDK1.0.2之后編譯出來的類的這個標志都必須為真。
分析[Class]文件我們得出 access_flag 為 00 21
,但是查詢上表確沒有查詢到對應的標志,這是因為 ByteCode
是一個普通的 Java 類,不是接口、枚舉或者注解,被public關鍵字修飾但沒有被聲明為final和abstract,並且它使用了JDK 1.2之后的編譯器進行編譯,因此它的ACC_PUBLIC、ACC_SUPER標志應當為真,而其余 6 個標志應當為假,因此它的access_flags的值應為:0x0001|0x0020=0x0021
。而我們通過 ByteCode
匯編代碼查看得到 flags: ACC_PUBLIC, ACC_SUPER
也證明了的確為上述所言。
this_class & super_class &interfaces_count & interfaces[]
類索引(this_class)、父類索引(super_class)和 接口數量(interface_count)是一個 u2類型的數據,而接口索引集合 interfaces[] 是一組 u2 類型的數據的集合。這四項數據直接確定了這個類的繼承關系。Java 不允許多繼承但是允許實現多個接口,這就為什么super_class是一個而 interfaces 是一個集合。我們通過分析[Class]文件可以看出 this_class 對應00 03 -> 3
從常量池中查詢 #3 對應的常量
#3 = Class #23 // tech/techstack/blog/ByteCode
#23 = Utf8 tech/techstack/blog/ByteCode
可以看出 #3 對應的就是當前類 tech/techstack/blog/ByteCode
。后面同樣為占兩個字節的 super_class 對應的``00 04 -> 4`從常量池中查詢出來對應的常量為
#4 = Class #24 // java/lang/Object
#24 = Utf8 java/lang/Object
所以 super_class 表示的為:java/lang/Object
。隨后便是 interface_count 對應的 00 00 -> 0
說明 ByteCode
沒有實現接口,因此就不存在后面的 interfaces[]。
fields_count & fields[]
字段表(field_info)用於描述接口或者類中聲明的變量。字段(field)包括類級變量以及實例級變量,但不包括在方法內部聲明的局部變量。fields_count 類中 field_info 的數量。fields[] 則是 field_info 的集合。field_info 的結構如下圖所示:
字段修飾符 access_flag 和類中的 access_flag十分相似:
在實際情況中,ACC_PUBLIC、ACC_PRIVATE、ACC_PROTECTED三個標志最多只能選擇其一,ACC_FINAL、ACC_VOLATILE不能同時選擇。接口之中的字段必須有ACC_PUBLIC、ACC_STATIC、ACC_FINAL標志。
繼續分析Class文件,00 01 00 02 00 05 00 06 00 00
。其中 00 01 -> 1
表示 field_count,很顯然 ByteCode
類中的字段只有一個 private String username;
。 參照上表繼續取兩個字節00 02 -> 2
表示access_flag,查詢可知修飾符號為ACC_PRIVATE
,繼續取兩個字節00 05 -> 5
表示 name_index,從匯編代碼中查詢常量池#5為
#5 = Utf8 username
繼續取兩個字節00 006 -> 6
表示descriptor_index
,指向的是常量池 #6 的常量
#6 = Utf8 Ljava/lang/String;
后續的 00 00 -> 0
表示attribute_count
的個數,此處為 0。
名詞釋義:
全限定名和簡單名稱
把類名中的.
替換成/
,連續多個全限定名時,為了不產生混淆,在使用時最后一般都會加入一個;
表示全限定名結束。方法、字段索引描述
方法的參數列表(包括數量、類型以及順序)和返回值。根據描述符規則,基本數據類型(byte、char、double、float、int、long、short、boolean)以及代表無返回值的void類型都用一個大寫字符來表示,而對象類型則用字符L加對象的全限定名來表示。
基本數據類型
B---->byte
C---->char
D---->double
F----->float
I------>int
J------>long
S------>short
Z------>boolean
V------->void對象類型
String------>Ljava/lang/String;
數組類型:每一個唯獨都是用一個前置 [ 來表示
int[] ------>[ I,
String [][]------>[[Ljava.lang.String;
用描述符來描述方法的,先參數列表,后返回值的格式,參數列表按照嚴格的順序放在()中
比如源碼 String getUserInfoByIdAndName(int id,String name) 的方法描述符(I,Ljava/lang/String;)Ljava/lang/String;
methods_count & methods[]
Class文件儲存格式中對方法的描述與對字段的描述幾乎采用了完全一致的方式。方法表的結構如下圖所示:
因為volatile關鍵字和transient關鍵字不能修飾方法,所以方法表的訪問標志中沒有了ACC_VOLATILE標志和ACC_TRANSIENT標志。與之相對的,synchronized、native、strictfp和abstract關鍵字可以修飾方法,所以方法表的訪問標志中增加了ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFP和ACC_ABSTRACT標志:
同樣根據Class文件進行分析。00 03
表示 method_count 說明ByteCode
類的方法有三個,根據Method_info繼續取出第一個方法的 8 個字節00 01 00 07 00 08 00 01
,00 01 -> 0
表示的是方法的修飾符 表示的是access_flag 為 acc_public,00 07 -> 7
表示的是方法的名稱(name_index) 指向常量池中#7常量
#7 = Utf8 <init>
表示方法為<init>
的構造方法。00 08 ->8
代表方法的描述符號(descriptor_index),指向常量池 #8 常量
#8 = Utf8 ()V
表示的是無參無返回值。00 01 -> 1
表示有一個方法屬性的個數為 1。
根據 attribute_info 結構繼續從Class文件中取出00 09 00 00 00 2F
。00 09 -> 9
表示方法屬性名稱(attribute_name_index)指向常量池 #9 常量
#9 = Utf8 Code
00 00 00 2F ->
表示Code
屬性的長度為 47 個字節。(特別特別需要注意這47個字節從Code屬性表中第三個開始也就是max_stack開始,因為此 attribute_info為 Code_attribute 本身,attribute_name_index 和 attribute_length 為 Code 的屬性)。
Code_attribute屬性表結構如下:
Code_attribute {
u2 attribute_name_index; // 屬性名索引,常量值固定為"Code"
u4 attribute_length; //屬性值長度,值為整個表的長度減去6個字節(attribute_name_index + attribute_length)
u2 max_stack; //操作數棧深度最大值
u2 max_locals; //局部變量表所需的存儲空間,單位為"Slot",Slot是虛擬機為局部變量分配內存所使用的最小的單位。
u4 code_length; // 存儲Java源程序編譯后生成的字節碼指令,每個指令為u1類型的單字節。虛擬機規范中明確限制了一個方法不允許超過65535條字節指令,實際上只用了u2長度。
u1 code[code_length]; // 方法指向的具體指令碼
u2 exception_table_length; // 異常表的個數
{ u2 start_pc; // start_pc 和 end_pc 表示在 Code 數組中的[start_pc, end_pc)處指令所拋出的異常由這個表處理。
u2 end_pc;
u2 handler_pc; // 異常代碼的開始處
u2 catch_type; // 表示被處理流程的異常類型,指向常量池中具體的某一個異常類,catchType為 0 處理所有的異常
} exception_table[exception_table_length]; // 異常表結構,用於存放異常信息
u2 attributes_count; // 屬性的個數
attribute_info attributes[attributes_count]; // 屬性的集合
}
第一個 Code 的匯編代碼如下:
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 7: 0
LocalVariableTable:
Start Length Slot Name Signature
0 5 0 this Ltech/techstack/blog/ByteCode;
Tips: args_size=1是因為在任何實例方法里面,都可以通過"this"關鍵字訪問到此方法所屬的對象。這個訪問機制對Java程序的編寫很重要,而它的實現卻非常簡單,僅僅是通過Javac編譯器編譯的時候把對this關鍵字的訪問轉變為對一個普通方法參數的訪問,然后在虛擬機調用實例方法時自動傳入此參數而已。因此在實例方法的局部變量表中至少會存在一個指向當前對象實例的局部變量,局部變量表中也會預留出第一個Slot位來存放對象實例的引用,方法參數值從1開始計算。
回到示例代碼,取出 47 位 Code 值:
// _ 是本文自行添加方便表示數據項之間的間隔,Class 文件中是不存在的
00 01 _00 01 _00 00 00 05 _2A B7 00 01 B1 _00 00 _00 02 _00 0A _00 00 00 06 _00 01 _00 00 _00 06 _00 0B _00 00 00 0C _00 01 00 00 00 05 00 0C 00 0D 00 00
00 01 -> 1
表示 操作數棧(max_stack)的最大深度為 1。后面的00 01 -> 1
表示局部變量表的長度(max_locals)為 1,正好與 Code 的匯編代碼stack=1
locals=1
對應。緊接着后面 4 位00 00 00 05 -> 5
表示字節碼指令長度(code_length)為 5。繼續往后數 5 位2A B7 00 01 B1
表示 JVM具體的字節碼指令。
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
00 00
表示異常表個數(exception_table_length)為 0,方法沒有拋出異常。
00 02 -> 2
表示 Code_attribute 結構中屬性表的個數為 2 個。00 0A -> 10
表示 attribute_name_index 指向常量池 #10 LineNumberTable
常量。繼續后面 4 位00 00 00 06 -> 10
表示 attribute_length 即 LineNumberTable 的長度。LineNumberTable 是用來描述Java源碼行號與字節碼行號(字節碼偏移量)之間的對應關系,比如我們平時 debug 某一行代碼。其結構如下所示:
LineNumberTable_attribute {
u2 attribute_name_index;
u4 attribute_length;
u2 line_number_table_length;
{ u2 start_pc;
u2 line_number;
} line_number_table[line_number_table_length];
}
00 01 -> 1
表示行號表的個數為 1,即只存在一個行號表。00 00
表示start_pc為字節碼行號,00 06 -> 6
表示源碼行號為第 7(6+1) 行。
00 0B -> 11
表示第二個屬性表對應常量池 #11 LocalVariableTable
常量。00 00 00 0C -> 12
表示 LocalVariableTable
常量的長度為 12。LocalVariableTable 屬性用於描述棧幀中局部變量表中的變量與Java源碼中定義的變量之間的關系。其結構如下:
LocalVariableTable_attribute {
u2 attribute_name_index;
u4 attribute_length;
u2 local_variable_table_length;
{ u2 start_pc;
u2 length;
u2 name_index;
u2 descriptor_index;
u2 index;
} local_variable_table[local_variable_table_length];
}
LocalVariableTable也不是運行時必需的屬性,但默認會生成到Class文件之中,可以在Javac中分別使用-g:none
或-g:vars
選項來取消或要求生成這項信息。如果沒有生成這項屬性,最大的影響就是當其他人引用這個方法時,所有的參數名稱都將會丟失,IDE將會使用諸如arg0、arg1之類的占位符代替原有的參數名,這對程序運行沒有影響,但是會對代碼編寫帶來較大不便,而且在調試期間無法根據參數名稱從上下文中獲得參數值。
00 01 -> 1
表示本地變量表的個數 local_variable_table_length 為 1。00 00
表示local_variable_table 的 start_pc 為 0,其含義為這個局部變量的生命周期開始的字節碼偏移量。00 05 -> 5
表示 local_variable_table 的 length 為 5,其含義為這個局部變量作用范圍覆蓋的長度。兩者結合起來就是這個局部變量在字節碼之中的作用域范圍。00 0C
00 0D
分別表示 name_index 和 descriptor_index,分別指向常量池中 #12 this
和 #13 Ltech/techstack/blog/ByteCode;
常量。分別代表了局部變量的名稱以及這個局部變量的描述符。00 00
表示了這個變量在本地變量表中的index 即這個局部變量在棧幀局部變量表中Slot的位置。當這個變量數據類型是64位類型時(double和long),它占用的Slot為index和index+1兩個。
attributes_count & attributes[]
屬性表(attribute_info)用於描述某些場景專有的信息。在Class文件、字段表、方法表都可以攜帶自己的屬性表集合。所有的屬性都具有一下常規格式:
attribute_info {
u2 attribute_name_index;
u4 attribute_length;
u1 info [attribute_length];
}
根據The Java® Virtual Machine Specification已經增加到了 23 項。根據其用途可以分為三組:
-
五個屬性對於
class
Java虛擬機正確解釋文件至關重要 : -
十二個屬性對於Java SE平台的類庫正確解釋
class
文件至關重要 : -
六個屬性對於classJava虛擬機或Java SE平台的類庫對文件的正確解釋不是至關重要的 ,但對於工具來說非常有用:
屬性匯總
參考:
[1] 周志明.深入理解Java虛擬機:JVM高級特性與最佳實踐.北京:機械工業出版社,2013.
[2] Chapter 4. Th class File Format
[3] Chapter 6. The Java Virtual Machine Instruction Set
文章首發於陳建源的博客,歡迎訪問。
文章作者:陳建源
文章鏈接:https://www.techstack.tech/post/zi-jie-ma-wen-jian-jie-gou-xiang-jie/