大家好,我是小林。


(資料圖片)

收到一位讀者的私信,說(shuō)字節(jié)面試有這么一個(gè)問(wèn)題:服務(wù)端掛了,客戶端的 TCP 連接會(huì)發(fā)生什么?

如果「服務(wù)端掛掉」指的是「

但是,如果「服務(wù)端掛掉」指的是「

如果客戶端會(huì)發(fā)送數(shù)據(jù),由于服務(wù)端已經(jīng)不存在,客戶端的數(shù)據(jù)報(bào)文會(huì)超時(shí)重傳,當(dāng)重傳次數(shù)達(dá)到一定閾值后,會(huì)斷開(kāi) TCP 連接;如果客戶端一直不會(huì)發(fā)送數(shù)據(jù),再看客戶端有沒(méi)有開(kāi)啟 TCP keepalive 機(jī)制?

如果有開(kāi)啟,客戶端在一段時(shí)間后,檢測(cè)到服務(wù)端的 TCP 連接已經(jīng)不存在,則會(huì)斷開(kāi)自身的 TCP 連接;

如果沒(méi)有開(kāi)啟,客戶端的 TCP 連接會(huì)一直存在,并不會(huì)斷開(kāi)。

上面屬于精簡(jiǎn)回答了,下面我們?cè)敿?xì)聊聊。

服務(wù)端進(jìn)程崩潰,客戶端會(huì)發(fā)生什么?

TCP 的連接信息是由內(nèi)核維護(hù)的,所以當(dāng)服務(wù)端的進(jìn)程崩潰后,內(nèi)核需要回收該進(jìn)程的所有 TCP 連接資源,于是內(nèi)核會(huì)發(fā)送第一次揮手 FIN 報(bào)文,后續(xù)的揮手過(guò)程也都是在內(nèi)核完成,并不需要進(jìn)程的參與,所以即使服務(wù)端的進(jìn)程退出了,還是能與客戶端完成 TCP四次揮手的過(guò)程。

我自己也做了實(shí)驗(yàn),使用 kill -9 命令來(lái)模擬進(jìn)程崩潰的情況,發(fā)現(xiàn)在 kill 掉進(jìn)程后,服務(wù)端會(huì)發(fā)送 FIN 報(bào)文,與客戶端進(jìn)行四次揮手。

服務(wù)端主機(jī)宕機(jī)后,客戶端會(huì)發(fā)生什么?

當(dāng)服務(wù)端的主機(jī)突然斷電了,這種情況就是屬于服務(wù)端主機(jī)宕機(jī)了。

當(dāng)服務(wù)端的主機(jī)發(fā)生了宕機(jī),是沒(méi)辦法和客戶端進(jìn)行四次揮手的,所以在服務(wù)端主機(jī)發(fā)生宕機(jī)的那一時(shí)刻,客戶端是沒(méi)辦法立刻感知到服務(wù)端主機(jī)宕機(jī)了,只能在后續(xù)的數(shù)據(jù)交互中來(lái)感知服務(wù)端的連接已經(jīng)不存在了。

因此,我們要分兩種情況來(lái)討論:

服務(wù)端主機(jī)宕機(jī)后,客戶端會(huì)發(fā)送數(shù)據(jù);服務(wù)端主機(jī)宕機(jī)后,客戶端一直不會(huì)發(fā)送數(shù)據(jù);

服務(wù)端主機(jī)宕機(jī)后,如果客戶端會(huì)發(fā)送數(shù)據(jù)

在服務(wù)端主機(jī)宕機(jī)后,客戶端發(fā)送了數(shù)據(jù)報(bào)文,由于得不到響應(yīng),在等待一定時(shí)長(zhǎng)后,客戶端就會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳未得到響應(yīng)的數(shù)據(jù)報(bào)文。

當(dāng)重傳次數(shù)達(dá)到達(dá)到一定閾值后,內(nèi)核就會(huì)判定出該 TCP 連接有問(wèn)題,然后通過(guò) Socket 接口告訴應(yīng)用程序該 TCP 連接出問(wèn)題了,于是客戶端的 TCP 連接就會(huì)斷開(kāi)。

那 TCP 的數(shù)據(jù)報(bào)文具體重傳幾次呢?

在 Linux 系統(tǒng)中,提供了一個(gè)叫 tcp_retries2 配置項(xiàng),默認(rèn)值是 15,如下圖:

這個(gè)內(nèi)核參數(shù)是控制,在 TCP 連接建立的情況下,超時(shí)重傳的最大次數(shù)。

不過(guò) tcp_retries2 設(shè)置了 15 次,并不代表 TCP 超時(shí)重傳了 15 次才會(huì)通知應(yīng)用程序終止該 TCP 連接,內(nèi)核會(huì)根據(jù) tcp_retries2 設(shè)置的值,計(jì)算出一個(gè) timeout(如果 tcp_retries2 =15,那么計(jì)算得到的 timeout = 924600 ms),如果重傳間隔超過(guò)這個(gè) timeout,則認(rèn)為超過(guò)了閾值,就會(huì)停止重傳,然后就會(huì)斷開(kāi) TCP 連接。

在發(fā)生超時(shí)重傳的過(guò)程中,每一輪的超時(shí)時(shí)間(RTO)都是倍數(shù)增長(zhǎng)的,比如如果第一輪 RTO 是 200 毫秒,那么第二輪 RTO 是 400 毫秒,第三輪 RTO 是 800 毫秒,以此類推。

而 RTO 是基于 RTT(一個(gè)包的往返時(shí)間) 來(lái)計(jì)算的,如果 RTT 較大,那么計(jì)算出來(lái)的 RTO 就越大,那么經(jīng)過(guò)幾輪重傳后,很快就達(dá)到了上面的 timeout 值了。

舉個(gè)例子,如果 tcp_retries2 =15,那么計(jì)算得到的 timeout = 924600 ms,如果重傳總間隔時(shí)長(zhǎng)達(dá)到了 timeout 就會(huì)停止重傳,然后就會(huì)斷開(kāi) TCP 連接:

如果 RTT 比較小,那么 RTO 初始值就約等于下限 200ms,也就是第一輪的超時(shí)時(shí)間是 200 毫秒,由于 timeout 總時(shí)長(zhǎng)是 924600 ms,表現(xiàn)出來(lái)的現(xiàn)象剛好就是重傳了 15 次,超過(guò)了 timeout 值,從而斷開(kāi) TCP 連接如果 RTT 比較大,假設(shè) RTO 初始值計(jì)算得到的是 1000 ms,也就是第一輪的超時(shí)時(shí)間是 1 秒,那么根本不需要重傳 15 次,重傳總間隔就會(huì)超過(guò) 924600 ms。

最小 RTO 和最大 RTO 是在 Linux 內(nèi)核中定義好了:

#define TCP_RTO_MAX ((unsigned)(120*HZ))#define TCP_RTO_MIN ((unsigned)(HZ/5))

Linux 2.6+ 使用 1000 毫秒的 HZ,因此TCP_RTO_MIN?約為 200 毫秒,TCP_RTO_MAX約為 120 秒。

如果tcp_retries?設(shè)置為15,且 RTT 比較小,那么 RTO 初始值就約等于下限 200ms,這意味著它需要 924.6 秒才能將斷開(kāi)的 TCP 連接通知給上層(即應(yīng)用程序),每一輪的 RTO 增長(zhǎng)關(guān)系如下表格:

服務(wù)端主機(jī)宕機(jī)后,如果客戶端一直不發(fā)數(shù)據(jù)

在服務(wù)端主機(jī)發(fā)送宕機(jī)后,如果客戶端一直不發(fā)送數(shù)據(jù),那么還得看是否開(kāi)啟了 TCP keepalive 機(jī)制 (TCP ?;顧C(jī)制)。

如果沒(méi)有開(kāi)啟TCP keepalive 機(jī)制,在服務(wù)端主機(jī)發(fā)送宕機(jī)后,如果客戶端一直不發(fā)送數(shù)據(jù),那么客戶端的 TCP 連接將一直保持存在,所以我們可以得知一個(gè)點(diǎn),在沒(méi)有使用 TCP 保活機(jī)制,且雙方不傳輸數(shù)據(jù)的情況下,一方的 TCP 連接處在 ESTABLISHED 狀態(tài)時(shí),并不代表另一方的 TCP 連接還一定是正常的。

而如果開(kāi)啟了 TCP keepalive 機(jī)制,在服務(wù)端主機(jī)發(fā)送宕機(jī)后,即使客戶端一直不發(fā)送數(shù)據(jù),在持續(xù)一段時(shí)間后,TCP 就會(huì)發(fā)送探測(cè)報(bào)文,探測(cè)服務(wù)端是否存活:

如果對(duì)端是正常工作的。當(dāng) TCP ?;畹奶綔y(cè)報(bào)文發(fā)送給對(duì)端, 對(duì)端會(huì)正常響應(yīng),這樣TCP ?;顣r(shí)間會(huì)被重置,等待下一個(gè) TCP ?;顣r(shí)間的到來(lái)。如果對(duì)端主機(jī)崩潰,或?qū)Χ擞捎谄渌驅(qū)е聢?bào)文不可達(dá)。當(dāng) TCP ?;畹奶綔y(cè)報(bào)文發(fā)送給對(duì)端后,石沉大海,沒(méi)有響應(yīng),連續(xù)幾次,達(dá)到?;钐綔y(cè)次數(shù)后,TCP 會(huì)報(bào)告該 TCP 連接已經(jīng)死亡。

所以,TCP keepalive 機(jī)制可以在雙方?jīng)]有數(shù)據(jù)交互的情況,通過(guò)探測(cè)報(bào)文,來(lái)確定對(duì)方的 TCP 連接是否存活。

TCP keepalive 機(jī)制具體是怎么樣的?

TCP keepalive 機(jī)制機(jī)制的原理是這樣的:

定義一個(gè)時(shí)間段,在這個(gè)時(shí)間段內(nèi),如果沒(méi)有任何連接相關(guān)的活動(dòng),TCP ?;顧C(jī)制會(huì)開(kāi)始作用,每隔一個(gè)時(shí)間間隔,發(fā)送一個(gè)探測(cè)報(bào)文,該探測(cè)報(bào)文包含的數(shù)據(jù)非常少,如果連續(xù)幾個(gè)探測(cè)報(bào)文都沒(méi)有得到響應(yīng),則認(rèn)為當(dāng)前的 TCP 連接已經(jīng)死亡,系統(tǒng)內(nèi)核將錯(cuò)誤信息通知給上層應(yīng)用程序。

在 Linux 內(nèi)核可以有對(duì)應(yīng)的參數(shù)可以設(shè)置?;顣r(shí)間、?;钐綔y(cè)的次數(shù)、保活探測(cè)的時(shí)間間隔,以下都為默認(rèn)值:

net.ipv4.tcp_keepalive_time=7200net.ipv4.tcp_keepalive_intvl=75 net.ipv4.tcp_keepalive_probes=9

每個(gè)參數(shù)的意思,具體如下:

tcp_keepalive_time=7200:表示?;顣r(shí)間是 7200 秒(2小時(shí)),也就 2 小時(shí)內(nèi)如果沒(méi)有任何連接相關(guān)的活動(dòng),則會(huì)啟動(dòng)?;顧C(jī)制tcp_keepalive_intvl=75:表示每次檢測(cè)間隔 75 秒;tcp_keepalive_probes=9:表示檢測(cè) 9 次無(wú)響應(yīng),認(rèn)為對(duì)方是不可達(dá)的,從而中斷本次的連接。

也就是說(shuō)在 Linux 系統(tǒng)中,最少需要經(jīng)過(guò) 2 小時(shí) 11 分 15 秒才可以發(fā)現(xiàn)一個(gè)「死亡」連接。

注意,應(yīng)用程序如果想使用 TCP ?;顧C(jī)制,需要通過(guò) socket 接口設(shè)置SO_KEEPALIVE選項(xiàng)才能夠生效,如果沒(méi)有設(shè)置,那么就無(wú)法使用 TCP ?;顧C(jī)制。

TCP keepalive 機(jī)制探測(cè)的時(shí)間也太長(zhǎng)了吧?

對(duì)的,是有點(diǎn)長(zhǎng)。

TCP keepalive 是TCP 層(內(nèi)核態(tài))實(shí)現(xiàn)的,它是給所有基于 TCP 傳輸協(xié)議的程序一個(gè)兜底的方案。

實(shí)際上,我們應(yīng)用層可以自己實(shí)現(xiàn)一套探測(cè)機(jī)制,可以在較短的時(shí)間內(nèi),探測(cè)到對(duì)方是否存活。

比如,web 服務(wù)軟件一般都會(huì)提供keepalive_timeout參數(shù),用來(lái)指定 HTTP 長(zhǎng)連接的超時(shí)時(shí)間。如果設(shè)置了 HTTP 長(zhǎng)連接的超時(shí)時(shí)間是 60 秒,web 服務(wù)軟件就會(huì)啟動(dòng)一個(gè)定時(shí)器,如果客戶端在完后一個(gè) HTTP 請(qǐng)求后,在 60 秒內(nèi)都沒(méi)有再發(fā)起新的請(qǐng)求,定時(shí)器的時(shí)間一到,就會(huì)觸發(fā)回調(diào)函數(shù)來(lái)釋放該連接。

總結(jié)

如果「服務(wù)端掛掉」指的是「服務(wù)端進(jìn)程崩潰」,服務(wù)端的進(jìn)程在發(fā)生崩潰的時(shí)候,內(nèi)核會(huì)發(fā)送 FIN 報(bào)文,與客戶端進(jìn)行四次揮手。

但是,如果「服務(wù)端掛掉」指的是「服務(wù)端主機(jī)宕機(jī)」,那么是不會(huì)發(fā)生四次揮手的,具體后續(xù)會(huì)發(fā)生什么?還要看客戶端會(huì)不會(huì)發(fā)送數(shù)據(jù)?

如果客戶端會(huì)發(fā)送數(shù)據(jù),由于服務(wù)端已經(jīng)不存在,客戶端的數(shù)據(jù)報(bào)文會(huì)超時(shí)重傳,當(dāng)重傳總間隔時(shí)長(zhǎng)達(dá)到一定閾值(內(nèi)核會(huì)根據(jù) tcp_retries2 設(shè)置的值計(jì)算出一個(gè)閾值)后,會(huì)斷開(kāi) TCP 連接;如果客戶端一直不會(huì)發(fā)送數(shù)據(jù),再看客戶端有沒(méi)有開(kāi)啟 TCP keepalive 機(jī)制?

如果有開(kāi)啟,客戶端在一段時(shí)間沒(méi)有進(jìn)行數(shù)據(jù)交互時(shí),會(huì)觸發(fā) TCP keepalive 機(jī)制,探測(cè)對(duì)方是否存在,如果探測(cè)到對(duì)方已經(jīng)消亡,則會(huì)斷開(kāi)自身的 TCP 連接;

如果沒(méi)有開(kāi)啟,客戶端的 TCP 連接會(huì)一直存在,并且一直保持在 ESTABLISHED 狀態(tài)。

標(biāo)簽: