有没有可能出现两次选举成功的间隔小于election_timeout导致lease read失效？ #405

cangfengzhs · 2023-06-21T16:31:30Z

如下case：

三节点{A, B, C}

1. A向BC请求投票
2. BC都成功给A投票
3. B选举超时，开始preVote
4. A当选为Leader （Term=1），之后开始向BC发送心跳
5. B向AC请求投票
6. C成给B投票
7. B当选为Leader（Term=2）

follower在handleRequestVoteRequest中vote成功时，并没有renew follower_lease。这种情况下follower(B)在vote成功后会立即开始新的一轮选举，导致AB两个node在很短时间内先后当选为Leader

会有这种情况发生吗？

The text was updated successfully, but these errors were encountered:

hnwyllmm · 2023-06-22T02:35:43Z

Prevote为什么不失败呢？

cangfengzhs · 2023-06-22T05:30:26Z

B向C请求preVote，C会返回成功啊

cangfengzhs · 2023-06-22T06:18:16Z

https://github.com/sofastack/sofa-jraft/blob/19ed179e02ee9108adc0bbf66badb47f62c62af8/jraft-core/src/main/java/com/alipay/sofa/jraft/core/NodeImpl.java#L1291

在JRaft的stepdown中有更新updateLastLeaderTimestamp，保证了之后的handleElectionTimeout在尝试选举前检查lastLeaderTimestamp间隔小于选举间隔。

在Braft中起到类似作用的应该是FollowerLease，但是在step_down函数中，并没有调用_follower_lease.renew()。

是有其他机制来避免我上面说的问题吗

ehds · 2023-06-23T08:12:01Z

https://github.com/sofastack/sofa-jraft/blob/19ed179e02ee9108adc0bbf66badb47f62c62af8/jraft-core/src/main/java/com/alipay/sofa/jraft/core/NodeImpl.java#L1291

在JRaft的stepdown中有更新updateLastLeaderTimestamp，保证了之后的handleElectionTimeout在尝试选举前检查lastLeaderTimestamp间隔小于选举间隔。

在Braft中起到类似作用的应该是FollowerLease，但是在step_down函数中，并没有调用_follower_lease.renew()。

是有其他机制来避免我上面说的问题吗

从目前实现来看，当raft_enable_leader_lease 开启时，的确可能发生上述现象。即节点刚投票成功后，等待 leader 的心跳前，如果此时 election_timer 超时, 或者已经超时，只不过在等待锁。那么该节点可以成功发起 PrevVote, 从而触发下一个 term 的选举，而上一个 term 的 leader 却还在 lease有效期内。

但是在实际情况中，该问题不会导致严重的后果。因为当 leader 当选成功后，并不会立即调用 fsm->on_leader_start, 而是会先将当前最新的 configuration 复制到大多数节点（commit）后才会正式对外提供服务。所以，即使发生上述情况，老term的 leader 会无法完成第一个日志的复制，并且发现已经有新的leader产生，从而转为follwer。

综上上述现象会发生，但是仅发生在老 term 的 leader 当选以及第一次日志复制过程中，而该过程并不会对外提供服务，所以是安全的。
对于该问题，论文 $5.2 节描述如下：

server remains in follower state as long as it receives valid RPCs from a leader or candidate.

所以从更严格的角度来说，是应该在投票后（收到了candidate的请求）进行重新计时。

cangfengzhs · 2023-06-26T03:43:25Z

万分感谢！

ehds mentioned this issue Jun 23, 2023

renew follower lease after voting #406

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有没有可能出现两次选举成功的间隔小于election_timeout导致lease read失效？ #405

有没有可能出现两次选举成功的间隔小于election_timeout导致lease read失效？ #405

cangfengzhs commented Jun 21, 2023

hnwyllmm commented Jun 22, 2023 via email

cangfengzhs commented Jun 22, 2023

cangfengzhs commented Jun 22, 2023

ehds commented Jun 23, 2023 •

edited

cangfengzhs commented Jun 26, 2023

有没有可能出现两次选举成功的间隔小于election_timeout导致lease read失效？ #405

有没有可能出现两次选举成功的间隔小于election_timeout导致lease read失效？ #405

Comments

cangfengzhs commented Jun 21, 2023

hnwyllmm commented Jun 22, 2023 via email

cangfengzhs commented Jun 22, 2023

cangfengzhs commented Jun 22, 2023

ehds commented Jun 23, 2023 • edited

cangfengzhs commented Jun 26, 2023

ehds commented Jun 23, 2023 •

edited