TCP连接不释放,应用产生大量CLOSE_WAIT状态TCP
一、起源
23年元旦期间,大家都沉浸在一片祥和的过节气氛当中。
“滴滴滴”,这头同事的电话响起,具体说些什么我也没太在意,但见同事接完电话之后展现出了一副懊恼夹杂着些许不耐烦的表情。
我不解问道:“怎么了?”
同事:“刚刚运营反馈系统开始刷白屏了,所有的请求一直处于pending状态。”
此刻我的大脑开始飞速旋转,界面白屏?前端是不是有一个初始化的请求?这个初始化的请求有问题导致前端没有往下运行并渲染页面?
我:“已经登陆进系统的用户可以正常使用吗?”
同事:“也不可以”。
那就不是初始化请求失败的问题了。
再往下分析,应用进程应该没有宕机,否则接口会快速响应404。
我:“所有接口都阻塞住了还是单个接口的问题,最近有没有项目发版?”
同事:“运营反馈是所有接口都有阻塞情况,这段时间一直没有发版”。
那就怪了,近期没有发版,而且所有接口均有问题。
到此,基本可以判定出,这个问题与业务无关,而是类似基础设施出现问题导致了,比如网络问题、Java GC问题、线程池线程短缺出现业务饥饿问题等。
这种问题勾起了我的兴趣,我决定自己上手问题,开始排查…
二、表象
打开系统,发现浏览器发出的接口确实都处于“pending”状态。(Ps:pending是浏览器发出请求之后的一种状态,代表该请求还未得到服务器响应,如果接口RT延迟高,你就有可能经常看到这种状态);
接口处于pending状态,我在本地使用telnet ip port命令连接应用服务器端口也是正常的,到此说明网络与应用进程都是完好的。
三、排查
打开监控系统查看了Java GC耗时、次数两项指标,发现和平时也没什么不一样。
查看了系统调用量发现与往常相似,没有什么流量突刺。
同事查看了那段时间的系统日志也未发现明显的错误。
我手里的鼠标一直向下滑动着,我和同事紧张的看着电脑,紧盯着各项指标,希望能看出些端倪,并能以此为突破口。
果然,还是看到了…
下图是近几天的TCP连接数曲线图:

TCP涨势图.jpeg
发现TCP连接一直处于只涨不降的趋势(除了中间几次的人为重启机器)。
我进入服务器,熟练的敲起Linux命令:
[root] $ **netstat -na | grep '8089' | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
LISTEN 8
CLOSE_WAIT 35
ESTABLISHED 108
SYN_SENT 1
TIME_WAIT 9**[root] $ netstat -ntp | grep 'CLOSE_WAIT'
tcp 1 0 本机ip:端口 nginx机器 CLOSE_WAIT pid/java
....
观察了十分钟,发现CLOSE_WAT状态的TCP连接数一直处于增长的状态。并且观察到所有的CLOSE_WAIT状态的TCP都是与Nginx建立的,问了运维同学,这台Nginx是这台后端应用的代理。
同事:“啊,原来是TCP连接数捣鬼,一直上涨但不释放”。
这一点和浏览器发出的接口一直处于Pending状态刚好吻合起来了。一定是代码出现了什么问题,导致接口延迟上升,所有的HTTP请求映射到底层就是TCP连接,应用服务器一直没有返回内容,那么TCP自然也不会释放了(这里我们先不考虑现代HTTP协议的KeepAlive机制)。
只见同事为了止血抓紧去重启机器了,好让这些TCP连接被强制关闭。
但我还有一点疑问,TCP未能及时释放确实有问题不假,但即便是这样,区区500个TCP连接,也不至于达到操作系统的阈值,要知道操作系统对端口的限制理论上可以达到65535个。
那一定是有一个短板的中间件因达到了阈值而限制了整个系统,很快我便想到了Tomcat,因为Tomcat一定是每个业务接口都绕不过的中间件。
虽然机器已经重启了,但我们有服务治理相关的平台可以调出任意一个时间点的线程状态,不看不知道,一看吓一跳,所有以“http-nio-xxx”为前缀的线程全部阻塞在方法:SocketInputStream.read0方法中。熟悉这个前缀线程的人都知道,这是Tomcat线程池。
我:”查一下日志,看看接口AOP有没有捕捉到请求信息?“
同事:“捕捉到了”
我:“随机抽取几个请求,看看接口AOP是否捕捉到了接口响应信息”
同事抓紧去查了,不一会儿惊讶的说道:“老朱,还真有很多请求接口响应AOP没有捕获到,那就是说这些请求一直没有处理完”。
同事又说道:“老朱,这个项目比较特殊,项目中所有的接口基本只做了透传的事情,项目只是做简单的数据加工,然后请求其他系统,最后针对结果集再进行过滤、转换返回给前端”
我:“啊,原来是这样,目前使用的HTTP客户端是什么?”
同事:“Apache HttpClient”
我:“Apache HttpClient?三个超时时间都设置了吧?“
同事:“嗯,都设置了,connectTimeout、socketTimeout、connectionRequestTimeout都根据项目的性质调试过了,并且数据流也都妥善处理了”
我有些不解,所有的超时时间都设置好了,那为什么还会有大量的Tomcat线程阻塞在SocketInputstream.read0方法中呢,最终导致TCP持续飙高。
我和同事都陷入了困境,进入两难处境,不知道如何继续排查,机器重启确实可以强制释放TCP但是这方法治标不治本。
同事:“啊,这,怎么会这样”
我:“怎么了?!吞吞吐吐”
同事:“我记得之前明明在这些应用里都加了接口AOP日志,刚刚看到我们项目有日志,但是其他系统中居然没有日志…
至此我有个大胆的猜测,请求进入项目之后,项目加工请求并转发给其他项目,但转发给系统项目的这段网络出现了什么问题(因为其他系统并未收到请求),又因为种种原因导致超时时间并未生效,慢慢的项目中所有Tomcat线程都阻塞在了SocketInputstream中的read0方法中,最后Tomcat无空闲线程可去处理用户提交的新的请求。
但是什么情况下Apache HttpClient中的超时时间不生效呢?
直到我看到了一篇JDK官网说明:
Bug ID: JDK-8172578 SocketInputStream.socketRead0 can hang even with soTimeout set
SocketInputStream.socketRead0 can hang even with soTimeout set
在第二篇文章中有详细描述了SocketTimeOut参数失效的原因,大致意思是:因为OS select方法存在虚假唤醒的问题导致线程提前进行读取,但又因为并没有实际数据因此造成了读取阻塞。
而我们的JDK版本是1.8.0_91,也就是低于JDK修复版本,当OS发出虚假唤醒之后,导致Java线程进入阻塞读取状态,最终导致socketTimeout失效。
事情到这就解释的通了,我再来根据现象与各项指标结合起来从头到尾的阐述一波。

应用拓扑图.png
这里先祭出项目的拓扑图。
应用A是这次案发地点,应用A的大多数功能只是做请求透传工作,将用户请求的参数做过滤、筛选、添油加醋发送给应用B。
根据上述的拓扑性质,以应用A为中心会有两段请求,这里标识为A段、B段。
案发时间前几个小时,起初系统稳如老狗。应用A稳定的处理着Nginx转发来的前端请求,并包装发送给应用B,然后将应用B返回来的数据进行筛选、处理然后返回给用户。
然而好景不长,B段出现了一些网络丢包、抖动等情况变得开始不稳定了,搭配上JDK8U152版本之前可能会受到操作系统的select虚假唤醒的情况,慢慢的Tomcat很多线程都阻塞在了SocketInputstream的read0方法上,这一点和之前看到的线程Dump信息一致。
看了眼项目对Tomcat的线程数配置:server.tomcat.max-threads=**400**,而线程Dump出的信息中刚好有400个线程阻塞在了read0方法中。
嗯,没错,就是这样,最后Tomcat成为了整个项目的瓶颈。
四、解决
知道了,问题就非常方便解决了,我主要采取了三个措施:
- 将项目中使用的BIO HttpClient化成NIO的方式:HttpAsyncClient
- 升级JDK为JDK8u152版本
- 添加耗时兜底方案,若超过SocketTimeout时间,应用A请求B应用还未结束,则手动关闭TCP连接,Tomcat主线程继续向下运行
其中第二点不用说,我通过一段伪代码来说明一下1和3.
public static String getHttpClientResult(CloseableHttpAsyncClient asyncHttpClient, HttpRequestBase httpMethod) throws IOException {String content = ""; // TCP强制断开标志boolean abortFlag = true;HttpResponse response = null;// 执行请求Future<HttpResponse> httpResponseFuture = asyncHttpClient.execute(httpMethod, null);try {httpResponse = httpResponseFuture.get(SOCKET_TIMEOUT, TimeUnit.MILLISECONDS);abortFlag = false;// 获取返回结果if (httpResponse.getEntity() != null) {content = EntityUtils.toString(httpResponse.getEntity(), ENCODING);}} catch (InterruptedException e) {// 线程被打断,重新设置标志并且向下运行Thread.currentThread().interrupt();} catch (ExecutionException e) {// http执行异常,包括readTimeOut、connectTimeOutlog.error("当前线程:{},请求异常,发送TCP RST包强制断开", Thread.currentThread().getName());} catch (TimeoutException e) {/*** future get 超时 兜底方案,避免主线程阻塞在read方法中* @see java.net.SocketInputStream#socketRead0(java.io.FileDescriptor, byte[], int, int, int)* 若超时则发送RST包以强制连接双方断开TCP*/log.error("当前线程:{},超时:{}秒,仍未获取到数据,发送RST包", Thread.currentThread().getName(), SOCKET_TIMEOUT);} finally {if (abortFlag) {httpMethod.abort();}// 释放资源if (!Objects.isNull(httpResponse)&& !Objects.isNull(httpResponse.getEntity())&& !Objects.isNull(httpResponse.getEntity().getContent())) {httpResponse.getEntity().getContent().close();}}return abortFlag ? null : content;}
代码优化完毕,赶紧发版,目前我的这位同事在也没有被运维‘骚扰’过了,目前TCP升降趋势稳定喜人 ,如下:

修复后的TCP涨势图.jpeg
相关文章:
TCP连接不释放,应用产生大量CLOSE_WAIT状态TCP
一、起源 23年元旦期间,大家都沉浸在一片祥和的过节气氛当中。 “滴滴滴”,这头同事的电话响起,具体说些什么我也没太在意,但见同事接完电话之后展现出了一副懊恼夹杂着些许不耐烦的表情。 我不解问道:“怎么了&…...
Spring基础核心概念理解(常见面试题:什么是IoC?什么是DI?什么是Spring?)
目录 IoC 和 SpringIoC DI Spring IoC 和 SpringIoC IoC是控制反转的意思,它意味着控制权(依赖对象)的反转,将控制权进行反转,它是一种思想. 举个例子,理解一下什么是控制反转 现在有三个对象A,B,C. A的创建依赖于B,B的创建依赖于C,当我们想要创建A的时候创建B,同理也要…...
牛客小白月赛 D.遗迹探险 - DP
题目描述 小Z是一名探险家。有一天,小Z误入了一个魔法遗迹。以下是该遗迹的具体组成: 1. 在 x 轴和 y 轴构成的平面上,满足在 1≤x≤n,1≤y≤m 的区域中(坐标(x,y)表示平面上的第x行的第y列),每个整数坐标 (x,y) 都有…...
前端架构师-week6-require源码解析
require 源码解析——彻底搞懂 npm 模块加载原理 require 的使用场景 加载模块类型 加载内置模块:require(fs)加载 node_modules 模块:require(ejs)加载本地模块:require(./utils)支持文件类型 加载 .js 文件加载 .mjs 文件加载 .json 文件…...
作为 IT 行业的过来人,你有什么话想对后辈说的?
作为 IT 行业的过来人,我想对后辈们说,要不断学习和探索新技术,但同时也要注意保持专注和耐心。在这个快速变化的时代,技术更新换代太快,可能会让人感到焦虑和无助,但只要有耐心并专注于自己所做的事情&…...
表数据编辑(数据库)
目录 一、插入数据 1.插入单个元组: INSERT…VALUES语句 2.插入子查询的结果: INSERT…SELECT语句 3.使用SELECT…INTO语句进行数据插入 二、修改数据 1、数据修改语句:UPDATE 2、修改给定表的所有行 3、基于给定表修改某…...
考虑多能负荷不确定性的区域综合能源系统鲁棒规划(Python代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
RocketMQ整理
RocketMQ在阿里云上的商业版本,集成了阿里内部一些更深层次的功能及运维定制。开源版本,功能上略有缺失,但大体上是一样的。 使用Java开发,便于深度定制。最早叫MetaQ。消息吞吐量虽然依然不如Kafka,但是却比RabbitMQ高很多。在阿里内部,RocketMQ集群每天处理的请求数超过…...
Springboot +Flowable,会签、或签简单使用(二)
一.简介 **会签:**在一个流程中的某一个 Task 上,这个 Task 需要多个用户审批,当多个用户全部审批通过,或者多个用户中的某几个用户审批通过,就算通过。 例如:之前的请假流程,假设这个请假流程…...
将核心交换机配置为NTP服务器
AR配置外源NTP 1.配置ntp <XQ-R1220>sys [XQ-R1220]ntp-service unicast-server 120.25.115.20 #阿里云ntp [XQ-R1220]ntp-service unicast-server 203.107.6.88 #阿里云ntp 2.查看ntp状态 <XQ-R1220>display ntp status clock sta…...
application.properties文件注释
这是一个常用的Spring Boot配置文件 在这里,我们可以配置应用程序的各种属性 服务器端口号 server.port8080 数据库配置 spring.datasource.urljdbc:mysql://localhost:3306/test spring.datasource.usernameroot spring.datasource.password123456 spring.datasou…...
MySql查询报错this is incompatible with sql_mode=only_full_group_by
错误示例 Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column ‘yiliaohaocai_new.a.id’ which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_modeonly_full_group_by 原因 SQL …...
VMware Workstation 网络备忘 + 集群规模
概述 在虚拟机中部署服务,进行IP规划,进行相关的前期准备 3 张网卡 2个不同的网段 1个NAT 概述截图 NAT 截图 VMnet0 截图 VMnet1 截图 总结: 网卡(网络适配器)名称IP网段备注NATens33192.168.139.0VMnet0ens34VMne…...
被裁现状,给找工作的同学一些建议
2022 到 2023 国内知名互联网公司腾讯、阿里、百度、快手、滴滴、京东、阿里、爱奇艺、知乎、字节跳动、小米等公司均有裁员,其中有不少公司,在过去年的一整年,进行了多轮裁员,以下是网传的一张 “2022 年裁员企业名单”。 这些裁…...
编程到底难在哪里?
编程是一门非常有挑战性的技术,能够让人们使用计算机来完成各种任务。它不仅需要掌握各种计算机语言和框架,还需要在实际应用中充分发挥自己的专业知识和创造力。 然而,对于初学者来说,在编程过程中遇到的难点可能是多方面的。以…...
C++ 仿函数(一)
目录 一、仿函数是什么? 二、仿函数的特点 1.仿函数在使用时,可以像普通函数那样调用, 可以有参数,可以有返回值 2.仿函数超出普通函数的概念,可以有自己的状态 编辑3.仿函数可以作为参数传递。 三、谓词 一元谓词示例&a…...
MATLAB连续LTI系统的时域分析(十)
目录 1、实验目的: 2、实验内容: 1、实验目的: 1)掌握利用MATLAB对系统进行时域分析的方法; 2)掌握连续时间系统零输入响应的求解方法; 3)掌握连续时间系统零状态响应、冲激响应和…...
HBuilderX使用
HBuilderX使用(Vue前后端分离) 概述:DCloud开发者后台 DAccount Service 1、官网下载开发工具:HBuilderX-高效极客技巧 注意:安装目录路径中不能出现中文特殊字符,否则会造成项目无法编译。比如C:/Progr…...
【JavaSE】多态(多态实现的条件 重写 向上转移和向下转型 向上转型 向下转型 多态的优缺点 避免在构造方法种调用重写的方法)
文章目录 多态多态实现的条件重写向上转移和向下转型向上转型向下转型 多态的优缺点避免在构造方法种调用重写的方法 多态 一种事物,多种形态。 多态的概念:去完成某个行为,当不同对象去完成时会产生出不同的状态。 多态实现的条件 1.必须…...
MySQL学习---13、存储过程与存储函数
1、存储过程概述 MySQL从5.0版本开始支持存储过程和函数。存储过程和函数能够将负杂的SQL逻辑封装在一起,应用程序无序关注存储过程和函数内部复杂的SQL逻辑,而只需要简单的调用存储过程和函数就可以。 1.1 理解 含义:存储过程的英文是Sto…...
XCTF-web-easyupload
试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...
从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...
多种风格导航菜单 HTML 实现(附源码)
下面我将为您展示 6 种不同风格的导航菜单实现,每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...
代理篇12|深入理解 Vite中的Proxy接口代理配置
在前端开发中,常常会遇到 跨域请求接口 的情况。为了解决这个问题,Vite 和 Webpack 都提供了 proxy 代理功能,用于将本地开发请求转发到后端服务器。 什么是代理(proxy)? 代理是在开发过程中,前端项目通过开发服务器,将指定的请求“转发”到真实的后端服务器,从而绕…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...
sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!
简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...
LOOI机器人的技术实现解析:从手势识别到边缘检测
LOOI机器人作为一款创新的AI硬件产品,通过将智能手机转变为具有情感交互能力的桌面机器人,展示了前沿AI技术与传统硬件设计的完美结合。作为AI与玩具领域的专家,我将全面解析LOOI的技术实现架构,特别是其手势识别、物体识别和环境…...
k8s从入门到放弃之HPA控制器
k8s从入门到放弃之HPA控制器 Kubernetes中的Horizontal Pod Autoscaler (HPA)控制器是一种用于自动扩展部署、副本集或复制控制器中Pod数量的机制。它可以根据观察到的CPU利用率(或其他自定义指标)来调整这些对象的规模,从而帮助应用程序在负…...
保姆级【快数学会Android端“动画“】+ 实现补间动画和逐帧动画!!!
目录 补间动画 1.创建资源文件夹 2.设置文件夹类型 3.创建.xml文件 4.样式设计 5.动画设置 6.动画的实现 内容拓展 7.在原基础上继续添加.xml文件 8.xml代码编写 (1)rotate_anim (2)scale_anim (3)translate_anim 9.MainActivity.java代码汇总 10.效果展示 逐帧…...
解析两阶段提交与三阶段提交的核心差异及MySQL实现方案
引言 在分布式系统的事务处理中,如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议(2PC)通过准备阶段与提交阶段的协调机制,以同步决策模式确保事务原子性。其改进版本三阶段提交协议(3PC…...
