數(shù)據(jù)包的發(fā)送流程

首先,我們兩個(gè)手機(jī)的綠皮聊天軟件客戶端,要通信,中間會通過它們家服務(wù)器。大概長這樣。

聊天軟件三端通信


(資料圖片僅供參考)

但為了簡化模型,我們把中間的服務(wù)器給省略掉,假設(shè)這是個(gè)端到端的通信。且為了保證消息的可靠性,我們盲猜它們之間用的是TCP協(xié)議進(jìn)行通信。

聊天軟件兩端通信

為了發(fā)送數(shù)據(jù)包,兩端首先會通過三次握手,建立TCP連接。

一個(gè)數(shù)據(jù)包,從聊天框里發(fā)出,消息會從聊天軟件所在的用戶空間拷貝到內(nèi)核空間的發(fā)送緩沖區(qū)(send buffer),數(shù)據(jù)包就這樣順著傳輸層、網(wǎng)絡(luò)層,進(jìn)入到數(shù)據(jù)鏈路層,在這里數(shù)據(jù)包會經(jīng)過流控(qdisc),再通過RingBuffer發(fā)到物理層的網(wǎng)卡。數(shù)據(jù)就這樣順著網(wǎng)卡發(fā)到了紛繁復(fù)雜的網(wǎng)絡(luò)世界里。這里頭數(shù)據(jù)會經(jīng)過n多個(gè)路由器和交換機(jī)之間的跳轉(zhuǎn),最后到達(dá)目的機(jī)器的網(wǎng)卡處。

此時(shí)目的機(jī)器的網(wǎng)卡會通知DMA將數(shù)據(jù)包信息放到RingBuffer中,再觸發(fā)一個(gè)硬中斷給CPU,CPU觸發(fā)軟中斷讓ksoftirqd去RingBuffer收包,于是一個(gè)數(shù)據(jù)包就這樣順著物理層,數(shù)據(jù)鏈路層,網(wǎng)絡(luò)層,傳輸層,最后從內(nèi)核空間拷貝到用戶空間里的聊天軟件里。

網(wǎng)絡(luò)發(fā)包收包全景圖

畫了那么大一張圖,只水了200字做解釋,我多少是有些心痛的。

到這里,拋開一些細(xì)節(jié),大家大概知道了一個(gè)數(shù)據(jù)包從發(fā)送到接收的宏觀過程。

可以看到,這上面全是密密麻麻的名詞。

整條鏈路下來,有不少地方可能會發(fā)生丟包。

但為了不讓大家保持蹲姿太久影響身體健康,我這邊只重點(diǎn)講下幾個(gè)常見容易發(fā)生丟包的場景。

建立連接時(shí)丟包

TCP協(xié)議會通過三次握手建立連接。大概長下面這樣。

TCP三次握手

在服務(wù)端,第一次握手之后,會先建立個(gè)半連接,然后再發(fā)出第二次握手。這時(shí)候需要有個(gè)地方可以暫存這些半連接。這個(gè)地方就叫半連接隊(duì)列。

如果之后第三次握手來了,半連接就會升級為全連接,然后暫存到另外一個(gè)叫全連接隊(duì)列的地方,坐等程序執(zhí)行??accept()??方法將其取走使用。

半連接隊(duì)列和全連接隊(duì)列

是隊(duì)列就有長度,有長度就有可能會滿,如果它們滿了,那新來的包就會被丟棄。

可以通過下面的方式查看是否存在這種丟包行為。

# 全連接隊(duì)列溢出次數(shù)# netstat -s | grep overflowed 4343 times the listen queue of a socket overflowed# 半連接隊(duì)列溢出次數(shù)# netstat -s | grep -i "SYNs to LISTEN sockets dropped" 109 times the listen queue of a socket overflowed

從現(xiàn)象來看就是連接建立失敗。

流量控制丟包

應(yīng)用層能發(fā)網(wǎng)絡(luò)數(shù)據(jù)包的軟件有那么多,如果所有數(shù)據(jù)不加控制一股腦沖入到網(wǎng)卡,網(wǎng)卡會吃不消,那怎么辦?讓數(shù)據(jù)按一定的規(guī)則排個(gè)隊(duì)依次處理,也就是所謂的qdisc(QueueingDisciplines,排隊(duì)規(guī)則),這也是我們常說的流量控制機(jī)制。

排隊(duì),得先有個(gè)隊(duì)列,而隊(duì)列有個(gè)長度。

我們可以通過下面的ifconfig命令查看到,里面涉及到的txqueuelen后面的數(shù)字1000,其實(shí)就是流控隊(duì)列的長度。

當(dāng)發(fā)送數(shù)據(jù)過快,流控隊(duì)列長度txqueuelen又不夠大時(shí),就容易出現(xiàn)丟包現(xiàn)象。

qdisc丟包

可以通過下面的ifconfig命令,查看TX下的dropped字段,當(dāng)它大于0時(shí),則有可能是發(fā)生了流控丟包。

# ifconfig eth0eth0: flags=4163 mtu 1500 inet 172.21.66.69 netmask 255.255.240.0 broadcast 172.21.79.255 inet6 fe80::216:3eff:fe25:269f prefixlen 64 scopeid 0x20 ether 00:16:3e:25:26:9f txqueuelen 1000 (Ethernet) RX packets 6962682 bytes 1119047079 (1.0 GiB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 9688919 bytes 2072511384 (1.9 GiB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0

當(dāng)遇到這種情況時(shí),我們可以嘗試修改下流控隊(duì)列的長度。比如像下面這樣將eth0網(wǎng)卡的流控隊(duì)列長度從1000提升為1500.

# ifconfig eth0 txqueuelen 1500網(wǎng)卡丟包

網(wǎng)卡和它的驅(qū)動導(dǎo)致丟包的場景也比較常見,原因很多,比如網(wǎng)線質(zhì)量差,接觸不良。除此之外,我們來聊幾個(gè)常見的場景。

RingBuffer過小導(dǎo)致丟包

上面提到,在接收數(shù)據(jù)時(shí),會將數(shù)據(jù)暫存到RingBuffer接收緩沖區(qū)中,然后等著內(nèi)核觸發(fā)軟中斷慢慢收走。如果這個(gè)緩沖區(qū)過小,而這時(shí)候發(fā)送的數(shù)據(jù)又過快,就有可能發(fā)生溢出,此時(shí)也會產(chǎn)生丟包。

RingBuffer滿了導(dǎo)致丟包

我們可以通過下面的命令去查看是否發(fā)生過這樣的事情。

# ifconfigeth0: RX errors 0 dropped 0 overruns 0 frame 0

查看上面的overruns指標(biāo),它記錄了由于RingBuffer長度不足導(dǎo)致的溢出次數(shù)。

當(dāng)然,用ethtool命令也能查看。

# ethtool -S eth0|grep rx_queue_0_drops

但這里需要注意的是,因?yàn)橐粋€(gè)網(wǎng)卡里是可以有多個(gè)RingBuffer的,所以上面的rx_queue_0_drops里的0代表的是第0個(gè)RingBuffer的丟包數(shù),對于多隊(duì)列的網(wǎng)卡,這個(gè)0還可以改成其他數(shù)字。但我的家庭條件不允許我看其他隊(duì)列的丟包數(shù),所以上面的命令對我來說是夠用了。

當(dāng)發(fā)現(xiàn)有這類型丟包的時(shí)候,可以通過下面的命令查看當(dāng)前網(wǎng)卡的配置。

#ethtool -g eth0Ring parameters for eth0:Pre-set maximums:RX: 4096RX Mini: 0RX Jumbo: 0TX: 4096Current hardware settings:RX: 1024RX Mini: 0RX Jumbo: 0TX: 1024

上面的輸出內(nèi)容,含義是RingBuffer最大支持4096的長度,但現(xiàn)在實(shí)際只用了1024。

想要修改這個(gè)長度可以執(zhí)行ethtool -G eth1 rx 4096 tx 4096將發(fā)送和接收RingBuffer的長度都改為4096。

RingBuffer增大之后,可以減少因?yàn)槿萘啃《鴮?dǎo)致的丟包情況。

網(wǎng)卡性能不足

網(wǎng)卡作為硬件,傳輸速度是有上限的。當(dāng)網(wǎng)絡(luò)傳輸速度過大,達(dá)到網(wǎng)卡上限時(shí),就會發(fā)生丟包。這種情況一般常見于壓測場景。

我們可以通過ethtool加網(wǎng)卡名,獲得當(dāng)前網(wǎng)卡支持的最大速度。

# ethtool eth0Settings for eth0: Speed: 10000Mb/s

可以看到,我這邊用的網(wǎng)卡能支持的最大傳輸速度speed=1000Mb/s。

也就是俗稱的千兆網(wǎng)卡,但注意這里的單位是Mb,這里的b是指bit,而不是Byte。1Byte=8bit。所以10000Mb/s還要除以8,也就是理論上網(wǎng)卡最大傳輸速度是1000/8 = 125MB/s。

我們可以通過sar命令從網(wǎng)絡(luò)接口層面來分析數(shù)據(jù)包的收發(fā)情況。

# sar -n DEV 1Linux 3.10.0-1127.19.1.el7.x86_64 2022年07月27日 _x86_64_ (1 CPU)08時(shí)35分39秒 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s08時(shí)35分40秒 eth0 6.06 4.04 0.35 121682.33 0.00 0.00 0.00

其中txkB/s是指當(dāng)前每秒發(fā)送的字節(jié)(byte)總數(shù),rxkB/s是指每秒接收的字節(jié)(byte)總數(shù)。

當(dāng)兩者加起來的值約等于12~13w字節(jié)的時(shí)候,也就對應(yīng)大概125MB/s的傳輸速度。此時(shí)達(dá)到網(wǎng)卡性能極限,就會開始丟包。

遇到這個(gè)問題,優(yōu)先看下你的服務(wù)是不是真有這么大的真實(shí)流量,如果是的話可以考慮下拆分服務(wù),或者就忍痛充錢升級下配置吧。

接收緩沖區(qū)丟包

我們一般使用TCP socket進(jìn)行網(wǎng)絡(luò)編程的時(shí)候,內(nèi)核都會分配一個(gè)發(fā)送緩沖區(qū)和一個(gè)接收緩沖區(qū)。

當(dāng)我們想要發(fā)一個(gè)數(shù)據(jù)包,會在代碼里執(zhí)行send(msg),這時(shí)候數(shù)據(jù)包并不是一把梭直接就走網(wǎng)卡飛出去的。而是將數(shù)據(jù)拷貝到內(nèi)核發(fā)送緩沖區(qū)就完事返回了,至于什么時(shí)候發(fā)數(shù)據(jù),發(fā)多少數(shù)據(jù),這個(gè)后續(xù)由內(nèi)核自己做決定。

tcp_sendmsg邏輯

而接收緩沖區(qū)作用也類似,從外部網(wǎng)絡(luò)收到的數(shù)據(jù)包就暫存在這個(gè)地方,然后坐等用戶空間的應(yīng)用程序?qū)?shù)據(jù)包取走。

這兩個(gè)緩沖區(qū)是有大小限制的,可以通過下面的命令去查看。

# 查看接收緩沖區(qū)# sysctl net.ipv4.tcp_rmemnet.ipv4.tcp_rmem = 4096 87380 6291456# 查看發(fā)送緩沖區(qū)# sysctl net.ipv4.tcp_wmemnet.ipv4.tcp_wmem = 4096 16384 4194304

不管是接收緩沖區(qū)還是發(fā)送緩沖區(qū),都能看到三個(gè)數(shù)值,分別對應(yīng)緩沖區(qū)的最小值,默認(rèn)值和最大值 (min、default、max)。緩沖區(qū)會在min和max之間動態(tài)調(diào)整。

那么問題來了,如果緩沖區(qū)設(shè)置過小會怎么樣?

對于發(fā)送緩沖區(qū),執(zhí)行send的時(shí)候,如果是阻塞調(diào)用,那就會等,等到緩沖區(qū)有空位可以發(fā)數(shù)據(jù)。

send阻塞

如果是非阻塞調(diào)用,就會立刻返回一個(gè)EAGAIN錯(cuò)誤信息,意思是 Try again。讓應(yīng)用程序下次再重試。這種情況下一般不會發(fā)生丟包。

send非阻塞

當(dāng)接受緩沖區(qū)滿了,事情就不一樣了,它的TCP接收窗口會變?yōu)?,也就是所謂的零窗口,并且會通過數(shù)據(jù)包里的win=0,告訴發(fā)送端,"球球了,頂不住了,別發(fā)了"。一般這種情況下,發(fā)送端就該停止發(fā)消息了,但如果這時(shí)候確實(shí)還有數(shù)據(jù)發(fā)來,就會發(fā)生丟包。

recv_buffer丟包

我們可以通過下面的命令里的TCPRcvQDrop查看到有沒有發(fā)生過這種丟包現(xiàn)象。

cat /proc/net/netstatTcpExt: SyncookiesSent TCPRcvQDrop SyncookiesFailedTcpExt: 0 157 60116

但是說個(gè)傷心的事情,我們一般也看不到這個(gè)TCPRcvQDrop,因?yàn)檫@個(gè)是5.9版本里引入的打點(diǎn),而我們的服務(wù)器用的一般是2.x~3.x左右版本。你可以通過下面的命令查看下你用的是什么版本的linux內(nèi)核。

# cat /proc/versionLinux version 3.10.0-1127.19.1.el7.x86_64兩端之間的網(wǎng)絡(luò)丟包

前面提到的是兩端機(jī)器內(nèi)部的網(wǎng)絡(luò)丟包,除此之外,兩端之間那么長的一條鏈路都屬于外部網(wǎng)絡(luò),這中間有各種路由器和交換機(jī)還有光纜啥的,丟包也是很經(jīng)常發(fā)生的。

這些丟包行為發(fā)生在中間鏈路的某些個(gè)機(jī)器上,我們當(dāng)然是沒權(quán)限去登錄這些機(jī)器。但我們可以通過一些命令觀察整個(gè)鏈路的連通情況。

ping命令查看丟包

比如我們知道目的地的域名是baidu.com。想知道你的機(jī)器到baidu服務(wù)器之間,有沒有產(chǎn)生丟包行為??梢允褂胮ing命令。

ping查看丟包

倒數(shù)第二行里有個(gè)100% packet loss,意思是丟包率100%。

但這樣其實(shí)你只能知道你的機(jī)器和目的機(jī)器之間有沒有丟包。

那如果你想知道你和目的機(jī)器之間的這條鏈路,哪個(gè)節(jié)點(diǎn)丟包了,有沒有辦法呢?

有。

mtr命令

mtr命令可以查看到你的機(jī)器和目的機(jī)器之間的每個(gè)節(jié)點(diǎn)的丟包情況。

像下面這樣執(zhí)行命令。

mtr_icmp

其中-r是指report,以報(bào)告的形式打印結(jié)果。

可以看到Host那一列,出現(xiàn)的都是鏈路中間每一跳的機(jī)器,Loss的那一列就是指這一跳對應(yīng)的丟包率。

需要注意的是,中間有一些是host是???,那個(gè)是因?yàn)閙tr默認(rèn)用的是ICMP包,有些節(jié)點(diǎn)限制了ICMP包,導(dǎo)致不能正常展示。

我們可以在mtr命令里加個(gè)-u,也就是使用udp包,就能看到部分???對應(yīng)的IP。

mtr-udp

把ICMP包和UDP包的結(jié)果拼在一起看,就是比較完整的鏈路圖了。

還有個(gè)小細(xì)節(jié),Loss那一列,我們在icmp的場景下,關(guān)注最后一行,如果是0%,那不管前面loss是100%還是80%都無所謂,那些都是節(jié)點(diǎn)限制導(dǎo)致的虛報(bào)。

但如果最后一行是20%,再往前幾行都是20%左右,那說明丟包就是從最接近的那一行開始產(chǎn)生的,長時(shí)間是這樣,那很可能這一跳出了點(diǎn)問題。如果是公司內(nèi)網(wǎng)的話,你可以帶著這條線索去找對應(yīng)的網(wǎng)絡(luò)同事。如果是外網(wǎng)的話,那耐心點(diǎn)等等吧,別人家的開發(fā)會比你更著急。

發(fā)生丟包了怎么辦

說了這么多。只是想告訴大家,丟包是很常見的,幾乎不可避免的一件事情。

但問題來了,發(fā)生丟包了怎么辦?

這個(gè)好辦,用TCP協(xié)議去做傳輸。

TCP是什么

建立了TCP連接的兩端,發(fā)送端在發(fā)出數(shù)據(jù)后會等待接收端回復(fù)ack包,ack包的目的是為了告訴對方自己確實(shí)收到了數(shù)據(jù),但如果中間鏈路發(fā)生了丟包,那發(fā)送端會遲遲收不到確認(rèn)ack,于是就會進(jìn)行重傳。以此來保證每個(gè)數(shù)據(jù)包都確確實(shí)實(shí)到達(dá)了接收端。

假設(shè)現(xiàn)在網(wǎng)斷了,我們還用聊天軟件發(fā)消息,聊天軟件會使用TCP不斷嘗試重傳數(shù)據(jù),如果重傳期間網(wǎng)絡(luò)恢復(fù)了,那數(shù)據(jù)就能正常發(fā)過去。但如果多次重試直到超時(shí)都還是失敗,這時(shí)候你將收獲一個(gè)紅色感嘆號。

這時(shí)候問題又來了。

假設(shè)某綠皮聊天軟件用的就是TCP協(xié)議。

那文章開頭提到的女生,她男朋友回她的消息時(shí)為什么還會丟包?畢竟丟包了會重試,重試失敗了還會出現(xiàn)紅色感嘆號。

于是乎,問題就變成了,用了TCP協(xié)議,就一定不會丟包嗎?

用了TCP協(xié)議就一定不會丟包嗎

我們知道TCP位于傳輸層,在它的上面還有各種應(yīng)用層協(xié)議,比如常見的HTTP或者各類RPC協(xié)議。

四層網(wǎng)絡(luò)協(xié)議

TCP保證的可靠性,是傳輸層的可靠性。也就是說,TCP只保證數(shù)據(jù)從A機(jī)器的傳輸層可靠地發(fā)到B機(jī)器的傳輸層。

至于數(shù)據(jù)到了接收端的傳輸層之后,能不能保證到應(yīng)用層,TCP并不管。

假設(shè)現(xiàn)在,我們輸入一條消息,從聊天框發(fā)出,走到傳輸層TCP協(xié)議的發(fā)送緩沖區(qū),不管中間有沒有丟包,最后通過重傳都保證發(fā)到了對方的傳輸層TCP接收緩沖區(qū),此時(shí)接收端回復(fù)了一個(gè)ack,發(fā)送端收到這個(gè)ack后就會將自己發(fā)送緩沖區(qū)里的消息給扔掉。到這里TCP的任務(wù)就結(jié)束了。

TCP任務(wù)是結(jié)束了,但聊天軟件的任務(wù)沒結(jié)束。

聊天軟件還需要將數(shù)據(jù)從TCP的接收緩沖區(qū)里讀出來,如果在讀出來這一刻,手機(jī)由于內(nèi)存不足或其他各種原因,導(dǎo)致軟件崩潰閃退了。

發(fā)送端以為自己發(fā)的消息已經(jīng)發(fā)給對方了,但接收端卻并沒有收到這條消息。

于是乎,消息就丟了。

使用TCP協(xié)議卻發(fā)生丟包

雖然概率很小,但它就是發(fā)生了。

合情合理,邏輯自洽。

所以從這里,我鏗鏘有力的得出結(jié)論,我的讀者已經(jīng)回了這位女生消息了,只是因?yàn)榘l(fā)生了丟包所以女生才沒能收到,而丟包的原因是女生的手機(jī)聊天軟件在接收消息的那一刻發(fā)生了閃退。

到這里。女生知道自己錯(cuò)怪她男朋友了,哭著表示,一定要讓她男朋友給她買一臺不閃退的最新款iphone。

額。兄弟們覺得我做得對的,請?jiān)谠u論區(qū)扣個(gè)"正能量"。

這類丟包問題怎么解決?

故事到這里也到尾聲了,感動之余,我們來聊點(diǎn)掏心窩子的話。

其實(shí)前面說的都對,沒有一句是假話。

但某綠皮聊天軟件這么成熟,怎么可能沒考慮過這一點(diǎn)呢。

大家應(yīng)該還記得我們文章開頭提到過,為了簡單,就將服務(wù)器那一方給省略了,從三端通信變成了兩端通信,所以才有了這個(gè)丟包問題。

現(xiàn)在我們重新將服務(wù)器加回來。

聊天軟件三端通信

大家有沒有發(fā)現(xiàn),有時(shí)候我們在手機(jī)里聊了一大堆內(nèi)容,然后登錄電腦版,它能將最近的聊天記錄都同步到電腦版上。也就是說服務(wù)器可能記錄了我們最近發(fā)過什么數(shù)據(jù),假設(shè)每條消息都有個(gè)id,服務(wù)器和聊天軟件每次都拿最新消息的id進(jìn)行對比,就能知道兩端消息是否一致,就像對賬一樣。

對于發(fā)送方,只要定時(shí)跟服務(wù)端的內(nèi)容對賬一下,就知道哪條消息沒發(fā)送成功,直接重發(fā)就好了。

如果接收方的聊天軟件崩潰了,重啟后跟服務(wù)器稍微通信一下就知道少了哪條數(shù)據(jù),同步上來就是了,所以也不存在上面提到的丟包情況。

可以看出,TCP只保證傳輸層的消息可靠性,并不保證應(yīng)用層的消息可靠性。如果我們還想保證應(yīng)用層的消息可靠性,就需要應(yīng)用層自己去實(shí)現(xiàn)邏輯做保證。

那么問題叒來了,兩端通信的時(shí)候也能對賬,為什么還要引入第三端服務(wù)器?

主要有三個(gè)原因。

第一,如果是兩端通信,你聊天軟件里有1000個(gè)好友,你就得建立1000個(gè)連接。但如果引入服務(wù)端,你只需要跟服務(wù)器建立1個(gè)連接就夠了,聊天軟件消耗的資源越少,手機(jī)就越省電。第二,就是安全問題,如果還是兩端通信,隨便一個(gè)人找你對賬一下,你就把聊天記錄給同步過去了,這并不合適吧。如果對方別有用心,信息就泄露了。引入第三方服務(wù)端就可以很方便的做各種鑒權(quán)校驗(yàn)。第三,是軟件版本問題。軟件裝到用戶手機(jī)之后,軟件更不更新就是由用戶說了算了。如果還是兩端通信,且兩端的軟件版本跨度太大,很容易產(chǎn)生各種兼容性問題,但引入第三端服務(wù)器,就可以強(qiáng)制部分過低版本升級,否則不能使用軟件。但對于大部分兼容性問題,給服務(wù)端加兼容邏輯就好了,不需要強(qiáng)制用戶更新軟件。

所以看到這里大家應(yīng)該明白了,我把服務(wù)端去掉,并不單純是為了簡單。

總結(jié)數(shù)據(jù)從發(fā)送端到接收端,鏈路很長,任何一個(gè)地方都可能發(fā)生丟包,幾乎可以說丟包不可避免。平時(shí)沒事也不用關(guān)注丟包,大部分時(shí)候TCP的重傳機(jī)制保證了消息可靠性。當(dāng)你發(fā)現(xiàn)服務(wù)異常的時(shí)候,比如接口延時(shí)很高,總是失敗的時(shí)候,可以用ping或者mtr命令看下是不是中間鏈路發(fā)生了丟包。TCP只保證傳輸層的消息可靠性,并不保證應(yīng)用層的消息可靠性。如果我們還想保證應(yīng)用層的消息可靠性,就需要應(yīng)用層自己去實(shí)現(xiàn)邏輯做保證。

最后給大家留個(gè)問題吧,mtr命令是怎么知道每一跳的IP地址的?

標(biāo)簽: TCP協(xié)議