垃圾收集器(一)确认对象生死

垃圾收集器

引言

  诞生于1960年的Lisp是第一门真正使用内存动态分配垃圾收集技术的语言。如今内存的动态分配和内存回收技术已经非常成熟,了解垃圾收集(GC)和内存分配的原理,从而可以在排查内存溢出和内存泄漏问题时,在垃圾收集成为系统提高并发量的瓶颈时,我们有足够的能力进行监控和调节。

  Java内存区域和内存溢出异常中介绍了内存运行时的各个区域,其中程序计数器、虚拟机栈、本地方法栈三个区域和线程共享相同生命周期;栈中的栈帧随着方法进入和退出进行入栈出栈操作,每个栈帧分配的内存大小在确定类结构时便可得知(不考虑JIT编译器优化)因此这些区域的内存分配和回收都具有确定性,在方法或线程结束时便已回收,所以无需多考虑回收问题。

  Java堆和方法区则不同,一个接口的多个实现类需要的内存可能不同,一个方法内的多个分支需要的内存也可能不同,只有程序运行时才能得知要创建多少对象,这些区域的内存分配和回收都是动态的,所以值得讨论。

思维导图

2019091001_GC判断对象生死


第一节 对象已死了吗

  垃圾回收第一件工作便是确认对象是“存活”还是已“死亡”。

1.1 引用计数算法

  常见的判断对象是否存活的算法是这样的:给对象中添加一个引用计数器,每当有地方引用它,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器为0的对象就是不可能再被使用的。

  引用计数算法(Reference Counting)的实现简单,判定效率也很高,所以也有很多著名的应用案例。但主流的Java虚拟机都没有选用引用计数算法来管理内存,主要的原因是它很难解决对象之间相互循环引用的问题。

  比如,以下代码中的testGC()方法。objA和objB互相引用,所以计数都不为0,引用计数算法无法通知GC收集器回收它们。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
/**
* testGC()执行后,objA和objB会不会被GC呢?
*/
public class ReferenceCountingGC {
public Object instance = null;
private static final int _1MB = 1024 * 1024;

/**
* 这个成员属性的唯一意义就是占点内存,以便能在GC日志中看清楚是否被回收过
*/
private byte[] bigSize = new byte[2 * _1MB];

public static void testGC(){
ReferenceCountingGC objA = new ReferenceCountingGC();
ReferenceCountingGC objB = new ReferenceCountingGC();
objA.instance = objB;
objB.instance = objA;

objA = null;
objB = null;

//假设在这行发生GC,objA和objB能否被回收?
System.gc();
}
}

  但运行并观察GC日志,发现虚拟机并没有因为对象互相引用就没有回收,也印证了虚拟机没有采用引用计数算法。


1.2 可达性分析算法

  主流商用程序语言的主流实现都是采用可达性分析(Reachability Analysis)来判定对象是否存活。基本思路是:通过一系列的称为“GC Roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链(Reference Chain),当一个对象到GC Roots没有任何引用链相连时,证明此对象是不可用的。

  如下图所示,对象5、6、7虽然互有关联,但它们到GC Roots是不可达的,所以会被判定为可回收对象。

可达性分析算法判定对象是否可回收

对于Java语言,可被视作GC Roots的对象包括以下几种:

  • 虚拟机栈(栈帧中的本地变量表)中引用的对象
  • 方法区中类静态属性引用的对象
  • 方法区中常量引用的对象
  • 本地方法栈中JNI(即一般说的Native方法)引用的对象

1.3 引用

  无论采用哪种算法,判定对象是否存活都与“引用”有关。在JDK 1.2之前,Java中对引用的定义很传统:如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址,就称这块内存代表着一个引用。这种定义方式使对象只有被引用和没被引用两种状态,而无法描述这样一类对象:当内存空间还足够时,则能保留在内存中;如果内存空间在垃圾收集后还很紧张,则可以清除的对象

  在JDK 1.2以后,Java对引用的概念进行了扩充,将引用分为强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、虚引用(Phantom Reference)4种,这4种引用强度依次逐渐减弱。

  • 强引用就是指在程序代码中普遍存在的,类似“Object obj = new Object()”这类引用,只要强引用还存在,垃圾收集器就不会回收被引用的对象。
  • 软引用是用来描述一些还有用但并非必须的对象。对于软引用关联着的对象,在系统将要发生内存溢出异常之前,会把这些对象列入回收范围之中进行二次回收。如果此次回收仍没有足够内存,才会抛出内存溢出异常。JDK 1.2以后,提供了SoftReference类来实现软引用。
  • 弱引用也是用来描述非必需对象的,但相较软引用更弱一些,被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集器工作时,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。JDK 1.2以后,提供了WeakReference类来实现软引用。
  • 虚引用也叫做幽灵引用或者幻影引用,是最弱的一种引用关系。一个对象是否有虚引用存在,完全不会对其生存时间有任何影响,也无法通过虚引用来获取一个对象实例。为一个对象设置虚引用关联的唯一目的就是能在这个对象被收集器回收时收到一个系统通知。JDK 1.2以后,提供了PhantomReference类来实现软引用。

1.4 生存还是死亡

  即使在可达性分析算法中不可达的对象也并非是“非死不可”的,它们会先处于一个“缓刑”阶段,真正的迎来对象的死亡至少还要经历两次标记过程:如果对象在进行可达性分析后发现没有与GC Roots相连接的引用链,那它将会被第一次标记并且进行一次筛选,筛选的条件是此对象是否有必要执行finalize()方法。当对象没有覆盖finalize()方法,或者finalize()方法已经被虚拟机调用过,虚拟机会将这两种情况都视为“没有必要执行”。

  如果这个对象已经被判定为有必要执行finalize()方法,那么这个对象会被放置在一个叫F-Queue的队列中,并在稍后由一个由虚拟机自动建立的、低优先级的Finalizer线程去“执行”它。执行指的是虚拟机会触发这个方法,但并不承诺会等待它运行结束,如果一个对象在finalize()方法中执行缓慢,或者发生了死循环,将很可能导致F-Queue队列中其他对象永久处于等待状态,甚至导致整个内存回收系统崩溃。finalize()方法是对象逃脱死亡命运的最后一次机会,稍后GC将对F-Queue中的对象进行第二次小规模的标记,如果对象想要在这时“拯救自己”——只要重新与引用链上的任意一个对象建立关联即可(譬如把自己赋值给某个类变量或对象的成员变量),它会在第二次标记时被移除出“即将回收”的集合。

  以下代码演示对象在执行finalize()方法后仍可以存活。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
/**
* 此代码演示了两点:
* 1.对象可以在被GC时自我拯救
* 2.这种自救的机会只有一次,因为一个对象的finalize()方法最多只会被系统自动的调用一次
*/
public class FinalizeEscapeGC {
public static FinalizeEscapeGC SAVE_HOOK = null;

public void isAlive(){
System.out.println("yes, i am still alive :)");
}

@Override
protected void finalize() throws Throwable {
super.finalize();
System.out.println("finalize method executed!");
FinalizeEscapeGC.SAVE_HOOK = this;
}

public static void main(String[] args) throws Throwable{
SAVE_HOOK = new FinalizeEscapeGC();

//对象第一次成功的拯救自己
SAVE_HOOK = null;
System.gc();
//因为finalize方法优先级很低,所以暂停0.5秒以等待它
Thread.sleep(500);
if(SAVE_HOOK != null){
SAVE_HOOK.isAlive();
}else {
System.out.println("no, i am dead :(");
}

//下面代码与上面完全相同,但这次自救却失败了
SAVE_HOOK = null;
System.gc();
//因为finalize方法优先级很低,所以暂停0.5秒以等待它
Thread.sleep(500);
if(SAVE_HOOK != null){
SAVE_HOOK.isAlive();
}else {
System.out.println("no, i am dead :(");
}
}
}

  运行结果如下。SAVE_HOOK对象的finalize()方法确实被GC收集器触发过,且在被收集前成功逃脱了。

1
2
3
finalize method executed!
yes, i am still alive :)
no, i am dead :(

  一个值得注意的地方是,两段相同代码,一次逃脱成功,一次失败。原因就是任何对象的finalize()方法都只会被系统自动调用一次,如果对象面临下一次回收,finalize()方法不会再次执行。

  通过finalize()方法来避免GC并不是一种值得提倡的用法,其运行代价高昂,不确定性大,无法保证各个对象的调用顺序。finalize()方法能做的所有工作try-finally和其他方式都可以做个更好,finalize()可以被开发人员忽略。


1.5 回收方法区

  方法区(HotSpot中的永久代)不强制要求VM实现垃圾收集,在堆中,尤其是新生代中,一次垃圾收集一般可以回收70%~95%的空间,而永久代要远低于此。

  永久代的垃圾回收主要回收两部分内容:废弃常量无用的类

  回收废弃常量类似于回收Java堆中的对象,以常量池中字面量的回收为例,假设一个字符串“abc”已经进入了常量池中,但当前系统没有任何一个String对象是叫“abc”的,也就是没有任何String对象或其他地方引用常量池中的“abc”常量,如果此时发生内存回收,有必要的话会将此常量清理出常量池。常量池中的其他类(接口)、方法、字段的符号引用也与此类似。

判断类是否无用

判断类为无用类的三个条件:

  • 该类所有实例都已经被回收,也就是Java堆中不存在该类的任何实例。
  • 加载该类的ClassLoader已经被回收。
  • 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。

  判断类是否无用相比判断常量是否废弃要苛刻许多,当类满足以上条件时,虚拟机才可以进行回收,但不会像对象一样,不使用就必然会回收。HotSpot虚拟机提供了-Xnoclassgc参数进行控制是否对类进行回收,还可以使用-verbose:class以及-XX:+TraceClassLoading、-XX:+TraceClassUnLoading查看类加载和卸载信息,其中-verbose:class和-XX:+TraceClassLoading可以在Product版的虚拟机中使用,-XX:+TraceClassUnLoading参数需要FastDebug版的虚拟机支持。

  在大量使用反射、动态反射、CGLib等ByteCode框架、动态生成JSP以及OSGi这类频繁自定义ClassLoader的场景都需要虚拟机具备类卸载的功能,以保证永久代不会溢出。


参考博客和文章书籍等:

《深入理解Java虚拟机》

因博客主等未标明不可引用,若部分内容涉及侵权请及时告知,我会尽快修改和删除相关内容