龙空技术网

谁再说Synchronized慢,我跟谁急

Java搬砖工人 103

前言:

如今姐妹们对“java效率低下”大概比较关怀,各位老铁们都想要分析一些“java效率低下”的相关文章。那么小编也在网摘上汇集了一些有关“java效率低下””的相关知识,希望看官们能喜欢,各位老铁们一起来了解一下吧!

模板解释器

我们都知道Java之所以可以一次编译到处运行,完全是因为字节码的原因,字节码就相当于中间层屏蔽了底层细节。但是想要在机器执行,最终还是要翻译成机器指令。

而JVM是通过C/C++来编写的,Java程序编译后,会产生很多字节码指令,每一个字节码指令在JVM底层执行的时候又会编程一堆C代码,这一堆C代码在编译之后又会编程很多的机器指令,这样我们的java代码到最终执行的机器指令那一层,所产生的机器指令时指数级的,这也就导致了Java执行效率低下。

早期的JVM是因为解释执行慢而被人诟病,那么有没有办法优化这个问题呢?我们发现之所以慢是因为java和机器指令之间隔了一层C/C++,而GCC之类的编译器又不能做到绝对的智能编译,所产生的机器码效率就不是很高。因此我们只要跳过C/C++这个层次,直接将Java字节码和本地机器码进行一个对应就可以了。

因此HotSpot的工程师们废弃了早期的解释执行器,而采用了模板执行器。所谓的模板就是将一个 java 字节码通过人工手动的方式编写为固定模式的机器指令,这部分不再需要 GCC 的帮助,这样就可以大大减少最终需要执行的机器指令,所以才能提高效率。

在OpenJdk12源码中,JVM所有的解释器都在src/hotspot/share/interpreter 目录下,templateInterpreter.cpp就是模板解释器的代码位置。分析这里的initialize方法,我们可以在templateTable.cpp中找到和synchronized相关的两个指令(monitorenter,monitorexit)的实现方式,当然这里面还有其他我们熟悉的指令,比如invokedynamic,newarray等指令

def(Bytecodes::_monitorenter, ____|disp|clvm|____, atos, vtos, monitorenter, _);def(Bytecodes::_monitorexit, ____|____|clvm|____, atos, vtos, monitorexit, _ );
monitorenter执行逻辑

这里倒数第二个参数的monitorenter函数和monitorexit函数是对应字节码的机器码模板的位置,这里我们看下monitorenter的实现,因为机器码的实现和CPU相关的,这里我们看下x86的实现(templateTable_x86.cpp),当然也可以在src/hotspot/cpu下看到其他的实现,比如ppc,arm,s390等

void TemplateTable::monitorenter() {  ...    // 将要锁的对象指针放到BasicObjectLock的obj变量中    __ movptr(Address(rmon, BasicObjectLock::obj_offset_in_bytes()), rax);    // 跳转执行 lock_object 函数    __ lock_object(rmon);  ...  }void InterpreterMacroAssembler::lock_object(Register lock_reg) {  // 如果使用重量级锁,则直接进入monitorenter()执行  if (UseHeavyMonitors) {    call_VM(noreg,            CAST_FROM_FN_PTR(address, InterpreterRuntime::monitorenter),            lock_reg);  } else {    ...    // Load object pointer into obj_reg    movptr(obj_reg, Address(lock_reg, obj_offset));    // 关于偏向锁的处理    if (UseBiasedLocking) {      // lock_reg : 存储指向BasicObjectLock的指针      // obj_reg : 存储锁对象的指针      // slow_case : 标记,类似于goto,这里指的是InterpreterRuntime::monitorenter()      // done: 标记,标志着获取锁成功。      // slow_case 和 done 也被传入,这样在biased_locking_enter()中,就可以根据情况跳到这两处了。      biased_locking_enter(lock_reg, obj_reg, swap_reg, tmp_reg, false, done, &slow_case);    }    ...   // slow_case逻辑,需要进入InterpreterRuntime::monitorenter()中获取锁。    bind(slow_case);    // Call the runtime routine for slow case    call_VM(noreg,            CAST_FROM_FN_PTR(address, InterpreterRuntime::monitorenter),            lock_reg);    // 这里的done和上面传入到偏向锁的done是一样的。直接跳到这表明获取锁成功,接下来就会返回进行字节码的执行了。    bind(done);  }}

从代码可以看出如果启用了重量级锁,那么就直接走重量级锁的逻辑(monitorenter),不然会先处理偏向锁的逻辑,然后不满足会再回到monitorenter中

偏向锁: -XX:+UseBiasedLocking , JDK1.6之后默认启用 重量级锁: -XX:+UseHeavyMonitors

偏向锁,轻量级锁以及重量级锁

我们提到了重量级锁和偏向锁,这两个是什么意思呢?

我们都知道Java的线程是映射到操作系统的原生线程之上的,无论是是阻塞还是唤醒一个线程,都需要操作系统的帮助,这就需要从用户态转换到核心态中。而很多人说synchronized慢也正是由于这个原因。之前的文章也说过synchronized实际上是通过操作系统的互斥量来实现的,而这也被称为重量级锁。

相对于重量级锁,还有一个叫做轻量级锁。它的加锁不是通过操作系统来实现的,而是通过CAS配合Mark Word一起实现的,后面我会通过源码来展示它的实现方式。

而偏向锁相对于轻量级锁更加轻量,这里的偏向指的是偏向某一个线程。如果只有一个线程来获取锁,那么锁对象就会偏向这个线程,如果在接下来的执行过程中,该锁没有被其他的线程获取,则持有偏向锁的线程将永远不需要再进行同步。

接下来我们沿着源码从 偏向锁-->轻量级锁-->重量级锁这样来分析下JVM是如何进行优化的。

内存布局

在分析锁实现之前,你可能要先去看看上一篇文章,看看对象在内存中的布局,这里我贴一张图让你再重温下

锁状态转化及对象Mark Word的关系

实际上锁的优化逻辑,在JDK中的wiki中已经有一个提纲挈领的图了,这里我先贴出来。后面的代码分析也会跟着这张图走。

偏向锁

偏向锁的启动

偏向锁会在虚拟机启动后的4秒之后才会生效,我们可以从hotspot/share/runtime/biasedLocking.cpp看到这样的设定

void BiasedLocking::init() {    if (UseBiasedLocking) {    if (BiasedLockingStartupDelay > 0) {      EnableBiasedLockingTask* task = new EnableBiasedLockingTask(BiasedLockingStartupDelay);      task->enroll();    } else {      VM_EnableBiasedLocking op(false);      VMThread::execute(&op);    }  }}// 上面的task最终会调用这个方法,将锁对象的类的mark word的后三位设置为101static void enable_biased_locking(InstanceKlass* k) {  k->set_prototype_header(markOopDesc::biased_locking_prototype());}

BiasedLockingStartupDelay默认时间是4000毫秒,所以会在启动4s之后启动一个定时任务来设置开启偏向锁的设定。

我们可以通过-XX:BiasedLockingStartupDelay=0来设置马上启动偏向锁。这里也填了上一篇的一个坑。

java -XX:+PrintFlagsFinal | grep BiasedLockingStartupDelay

定时任务会调用enable_biased_locking方法,将锁对象的类的Mark Word的后三个字节设置为101,锁对象类的Mark Word被称为prototype_header,记住这个下面分析偏向锁的时候会用到。

MyObject obj = new MyObject();synchronized(obj) {    doSomething();}

上面Java代码中锁对象是obj,其所属类型是MyObject(obj是MyObject的一个实例)。而prototype header实际上就是MyObject的Mark Word。

偏向锁申请

biased_locking_enter()方法比较长,所以我们一段一段来分析。以下代码片段均来自于hotspot/cpu/x86/macroAssembler_x86.cpp::biased_locking_enter中。

首先判断Mark Word中的后三位(是否偏向锁+锁标志位)的值是否为5,即是否为偏向锁状态,如果是则执行后面fast_enter的逻辑,如果不是则执行第2步

Address mark_addr (obj_reg, oopDesc::mark_offset_in_bytes());... 省略部分代码 ...Label cas_label;int null_check_offset = -1;// 如果swap_reg中没存mark_addr,那么就先将mark_addr存入swap_reg中。if (!swap_reg_contains_mark) {  null_check_offset = offset();  movptr(swap_reg, mark_addr);}// 将对象的mark_addr,即markOop指针移入tmp_reg中movptr(tmp_reg, swap_reg);// 将tmp_reg和biased_lock_mask_in_place(111)进行与操作,取出markOop中后三位,即(是否偏向锁+锁标志位)andptr(tmp_reg, markOopDesc::biased_lock_mask_in_place);//查看Mark Word后三位是否为5(biased_lock_pattern为5,即101),如果不相等,则表明不为偏向锁状态,跳往cas_label。否则即为偏向锁状态。cmpptr(tmp_reg, markOopDesc::biased_lock_pattern);jcc(Assembler::notEqual, cas_label);
判断锁对象Mark Word中是否包含当前线程地址,最后三位标志位是否相同,且epoch值和类的epoch值是否相等。如果都相同,那么当前线程持有该偏向锁,可以直接返回。不然执行第3步
// 将类的prototype_header(Mark Word)加载到tmp_reg中load_prototype_header(tmp_reg, obj_reg);//将当前线程地址和类的的prototype_header相或,这样得到的结果为(当前线程id + prototype_header中的(epoch + 分代年龄 + 偏向锁标志 + 锁标志位))orptr(tmp_reg, r15_thread);// 将上面计算得到的结果与锁对象的markOop进行异或,得到一个结果diff(相等的位被置为0)xorptr(tmp_reg, swap_reg);Register header_reg = tmp_reg;// 将header_reg中除了分代年龄之外的其他位取了出来,即将上面异或得到的结果中分代年龄给忽略掉。andptr(header_reg, ~((int) markOopDesc::age_mask_in_place));// 如果除了分代年龄,对象的markOop和(当前线程地址+其他位)相等,那么上面与操作的结果应该为0,表明对象之前已经偏向当前线程,那么跳到done处,执行同步代码块中的代码// 否则表明当前线程还不是偏向锁的持有者,会接着往下走。jcc(Assembler::equal, done);

需要注意的是这里会得到一个异或结果header_reg,会在后面的步骤中使用到。

判断类对象是否支持偏向锁,如果不支持,则跳转到第6步执行移除偏向锁的逻辑。 如果支持则跳转到第4步执行

testptr(header_reg, markOopDesc::biased_lock_mask_in_place);jccb(Assembler::notZero, try_revoke_bias);

header_reg中存储的是(当前线程id + prototype_header中的(epoch + 分代年龄 + 偏向锁标志 + 锁标志位)) 和 锁对象 Mark Word异或的结果,我们要查看后三位(biased_lock_mask_in_place的值是111)的结果是否为0,如果不为0,表示之前异或时锁对象的Mark Word后三位和对象所属类的后三位不一致,所以对象所属类不再支持偏向锁,此时需要跳转到try_revoke_bias进行移除偏向锁操作。

这个testptr的实现实际上是获取第一个参数多少位的值。多少位是根据第二个参数的二进制长度来决定的。

执行到这里表示锁对象以及类对象都支持偏向锁,但是并不是偏向的当前线程。所以接下来会判断异或结果中的epoch是否为0,如果为0,则跳转到第5步执行。如果不为0,则证明锁过期了,跳转到第7步执行重新偏向逻辑

// 测试锁对象的epoch值和锁对象类的epoch是否相等,如果不相等,则证明锁过期了,需要重新偏向testptr(header_reg, markOopDesc::epoch_mask_in_place);jccb(Assembler::notZero, try_rebias);
表明锁对象还未偏向任何线程,则可以尝试去获取锁,使得对象偏向当前线程
// 取出对象Mark Word中除线程地址之外的其他位andptr(swap_reg,       markOopDesc::biased_lock_mask_in_place | markOopDesc::age_mask_in_place | markOopDesc::epoch_mask_in_place);// 将其他位移动至 tmp_regmovptr(tmp_reg, swap_reg);// 将其他位和当前线程进行或,构造成一个新的完整的Mark Word,存入tmp_reg中。新的Mark Word因为保存了当前线程地址,所以会偏向当前线程。orptr(tmp_reg, r15_thread);// 尝试利用CAS操作将新构成的Mark Word存入锁对象的mark_addr(Mark Word),如果设置成功,则获取偏向锁成功。// cmpxchgptr操作会强制将rax寄存器(swap_reg)中内容作为老数据,与第二个参数,在这里即mark_addr处的内容进行比较,如果相等,则将第一个参数的内容,即tmp_reg中的新数据,存入mark_addr。cmpxchgptr(tmp_reg, mark_addr); // compare tmp_reg and swap_reg// 上面CAS操作失败的情况下,表明对象头中的markOop数据已经被篡改,即有其他线程已经获取到偏向锁,因为偏向锁不容许多个线程访问同一个锁对象,所以需要跳到slow_case(InterpreterRuntime::monitorenter)处,去撤销该对象的偏向锁,并进行锁升级。if (slow_case != NULL) {  jcc(Assembler::notZero, *slow_case);}//上面CAS成功的情况下,直接就跳往done处,回去执行方法的字节码了。jmp(done);
try_revoke_bias使用CAS操作,重置mark word。撤销偏向锁后后续所有操作都走轻量级锁的加锁过程

try_revoke_bias和try_rebias的代码定义也在biased_locking_enter中

bind(try_revoke_bias);// 类的prototype_header中已经支持偏向锁的位了,即这个类的所有对象都不再支持偏向锁了,但是当前对象仍为偏向锁状态,所以我们需要重置下当前对象的markOop为无锁态。// 将锁对象所属类的prototype_header送入tmp_reg。load_prototype_header(tmp_reg, obj_reg);// 尝试用CAS操作,使对象的markOop重置为无锁态。这里是否失败无所谓,即使失败了,也表明其他线程已经移除了对象的偏向锁标志。cmpxchgptr(tmp_reg, mark_addr); 
try_rebias就是将使得锁对象重新偏向当前线程,如果失败则走slow_case(InterpreterRuntime::monitorenter)进行偏向锁撤销逻辑
bind(try_rebias);// 将锁对象所属类的prototype_header送入tmp_reg。load_prototype_header(tmp_reg, obj_reg);//将当前线程地址和类的的prototype header(Mark Word)相或,这样得到的结果为(当前线程id + prototype_header中的(epoch + 分代年龄 + 偏向锁标志 + 锁标志位))orptr(tmp_reg, r15_thread);// 尝试用CAS操作,成功表示重偏向加锁成功cmpxchgptr(tmp_reg, mark_addr); // 如果CAS失败,则表明Mark Word已经被其他线程更改,需要跳往slow_case进行撤销偏向锁,否则跳往done处,执行字节码。if (slow_case != NULL) {  jcc(Assembler::notZero, *slow_case);}jmp(done);

偏向锁的撤销

slow_case(偏向锁的撤销)的逻辑是在InterpreterRuntime::monitorenter中

IRT_ENTRY_NO_ASYNC(void, InterpreterRuntime::monitorenter(JavaThread* thread, BasicObjectLock* elem))  Handle h_obj(thread, elem->obj());  if (UseBiasedLocking) {    // Retry fast entry if bias is revoked to avoid unnecessary inflation    ObjectSynchronizer::fast_enter(h_obj, elem->lock(), true, CHECK);  } else {    ObjectSynchronizer::slow_enter(h_obj, elem->lock(), CHECK);  }IRT_ENDvoid ObjectSynchronizer::fast_enter(Handle obj, BasicLock* lock,                                    bool attempt_rebias, TRAPS) {  if (UseBiasedLocking) {    if (!SafepointSynchronize::is_at_safepoint()) {      BiasedLocking::Condition cond = BiasedLocking::revoke_and_rebias(obj, attempt_rebias, THREAD);      if (cond == BiasedLocking::BIAS_REVOKED_AND_REBIASED) {        return;      }    } else {      assert(!attempt_rebias, "can not rebias toward VM thread");      // 移除偏向锁      BiasedLocking::revoke_at_safepoint(obj);    }    assert(!obj->mark()->has_bias_pattern(), "biases should be revoked by now");  }  slow_enter(obj, lock, THREAD);}

BiasedLocking::revoke_and_rebias也会再重试下看能否使用偏向锁,逻辑基本和上面分析的一致,你要是看了这里面的代码你还会发现如果你调用了System.identityHashCode()是会移除偏向锁的。

由于偏向锁的移除需要在全局安全点的时候执行,所以如果当有大量线程竞争同一个锁资源时,我们可以通过关闭偏向锁来调优系统性能。

接下来我们来看revoke_at_safepoint会做哪些事情

update_heuristics()方法会将类对象上revoke次数加1

// 增加revoke次数if (revocation_count <= BiasedLockingBulkRevokeThreshold) {  revocation_count = k->atomic_incr_biased_lock_revocation_count();}// 如果revoke次数等于BiasedLockingBulkRevokeThreshold(默认40)if (revocation_count == BiasedLockingBulkRevokeThreshold) {  return HR_BULK_REVOKE;}// 如果revoke次数等于BiasedLockingBulkRebiasThreshold(默认20)if (revocation_count == BiasedLockingBulkRebiasThreshold) {  return HR_BULK_REBIAS;}return HR_SINGLE_REVOKE;
如果撤销次数等于BiasedLockingBulkRebiasThreshold(默认20),则认为类对象还可以重偏向,因此要做以下操作(bulk rebias)
if (klass->prototype_header()->has_bias_pattern()) {  int prev_epoch = klass->prototype_header()->bias_epoch();  // 将类对象的prototype_header中的epoch值加1  klass->set_prototype_header(klass->prototype_header()->incr_bias_epoch());  int cur_epoch = klass->prototype_header()->bias_epoch(); // 遍历所有线程的栈,找到所有类对象的实例,将它们Mark Word中的epoch值加1  for (; JavaThread *thr = jtiwh.next(); ) {    GrowableArray<MonitorInfo*>* cached_monitor_info = get_or_compute_monitor_info(thr);    for (int i = 0; i < cached_monitor_info->length(); i++) {      MonitorInfo* mon_info = cached_monitor_info->at(i);      oop owner = mon_info->owner();      markOop mark = owner->mark();      if ((owner->klass() == k_o) && mark->has_bias_pattern()) {        assert(mark->bias_epoch() == prev_epoch || mark->bias_epoch() == cur_epoch, "error in bias epoch adjustment");        owner->set_mark(mark->set_bias_epoch(cur_epoch));      }    }  }}// At this point we're done. All we have to do is potentially// adjust the header of the given object to revoke its biasrevoke_bias(o, attempt_rebias_of_object && klass->prototype_header()->has_bias_pattern(), true, requesting_thread, NULL);

在bulk rebias过程中,首先会将类对象的epoch值加1,然后遍历所有线程的栈,找到所有该类对象的实例,将它们的epoch值加1,最后会移除掉锁对象的偏向信息。

如果你想查看bulk revoke bias的过程以及结果,你可以使用 这个回答(stackoverflow.com/questions/4…

如果类对象的撤销次数等于BiasedLockingBulkRevokeThreshold,则认为类对象不合适使用偏向锁,因此要做bulk revoke

代码和上面的类似,我就不贴出来了,主要做下面两件事情

将类对象的prototype header设置为不可偏向状态遍历所有线程的栈,找到所有类的实例,修改mark word的状态位为001以及对应的lock record,并将偏向锁修改为轻量级锁轻量级锁

轻量级锁的代码实现是在slow_enter方法里面

void ObjectSynchronizer::slow_enter(Handle obj, BasicLock* lock, TRAPS) {  // 省略其他代码。。。  // 判断是否是无锁状态  if (mark->is_neutral()) {    // 直接把mark保存到BasicLock对象的_displaced_header字段    lock->set_displaced_header(mark);        // 通过CAS将mark word更新为指向BasicLock对象的指针,更新成功表示获得了轻量级锁    if (mark == obj()->cas_set_mark((markOop) lock, mark)) {      return;    }  }  ...}class BasicLock {  private volatile markOop _displaced_header;}

首先判断Mark Word是否是中立的,即Mark Word的最后三个字节的值是否为1(001),如果是中立的,则表示此时处于未锁定,且不可偏向。

因此首先会将锁对象的mark word放入到lock对象(这就是我们常说的Lock Record)的displaced_header属性中,然后使用CAS将对象的Mark Word更新为指向Lock Record的指针,如果更新成功,表示这个线程就拥有了该对象的锁。并且Mark Word的锁标志位(Mark Word的最后2bit)将转变为00,即表示此对象处于轻量级锁定状态。

重量级锁

如果CAS更新失败,就会膨胀称为重量级锁了,锁标志的状态值也变成10,Mark Word中存储的就是指向重量级锁的指针,后面等待锁的线程也要进入阻塞状态。

ObjectSynchronizer::inflate(THREAD,                          obj(),                          inflate_cause_monitor_enter)->enter(THREAD);

inflate主要是一些状态的判断,看注释还是比较容易理解的,我们重点看下enter函数中的执行逻辑

void ObjectMonitor::EnterI(TRAPS) {...  // 已经是锁的持有者直接返回  if (Self->is_lock_owned ((address)cur)) {    assert(_recursions == 0, "internal state error");    _recursions = 1;    _owner = Self;    return;  }  // 为了避免昂贵的线程阻塞、唤醒等操作,会在进入阻塞状态前先自适应自旋  if (TrySpin(Self) > 0) {    assert(_owner == Self, "invariant");    assert(_recursions == 0, "invariant");    assert(((oop)(object()))->mark() == markOopDesc::encode(this), "invariant");    Self->_Stalled = 0;    return;  }  ...}

在重量级锁的判定中,不会马上去申请锁,而是会先自适应自旋几次看能否获取到锁,如果不能再去申请锁。

自适应的自旋锁,它会由前一次在同一个锁上的自旋时间以及锁的拥有者状态来决定,如果同一个锁上自旋刚获得,那么就认为这次也有很大几率获取到,就多自旋几次,如果对于某个锁说,自旋很少获取到,就认为没戏,就不自旋了,直接去挂起了。

for (;;) {    if (TryLock(Self) > 0) break;    ...    if ((SyncFlags & 2) && _Responsible == NULL) {      Atomic::replace_if_null(Self, &_Responsible);    }    // park self    if (_Responsible == Self || (SyncFlags & 1)) {      TEVENT(Inflated enter - park TIMED);      Self->_ParkEvent->park((jlong) recheckInterval);           recheckInterval *= 8;      if (recheckInterval > MAX_RECHECK_INTERVAL) {        recheckInterval = MAX_RECHECK_INTERVAL;      }    } else {      TEVENT(Inflated enter - park UNTIMED);      Self->_ParkEvent->park();    }    if (TryLock(Self) > 0) break;    ...}

然后再去申请锁之前还要自旋(贼心不死),最后没成功才会park当前线程,而park的实现就是我们之前文章提到过的pthread的实现。

void os::PlatformEvent::park() {  ...  int status = pthread_mutex_lock(_mutex);  ...  status = pthread_cond_wait(_cond, _mutex);  ...  status = pthread_mutex_unlock(_mutex);}

自旋状态还带来另外一个副作用,那便是不公平的锁机制。处于阻塞状态的线程,并没有办法立刻竞争被释放的锁。然而,处于自旋状态的线程,则很有可能优先获得这把锁。

当线程获取到重量级锁之后就可以执行方法了,但是即使锁被释放之后也不会被恢复到最初的那种无锁状态了

好消息和坏消息

我们可以看到偏向锁非常之负责,为了支持偏向锁整个代码复杂度大幅度提升,而许多受益于偏向锁的应用程序都是早期Java集合api,比如HashTable,Vector等。

所以好消息是在JDK15就把偏向锁禁用了,并在以后删除它。

坏消息是现在大部分应用使用的都是JDK8,并且还会使用很多年。

作者:think123

链接:

来源:掘金

标签: #java效率低下