如何在Nginx中利用Upstream-Check实现对后端微服务节点的平滑下线监控-趣主题

如何在nginx中利用upstream-check实现对后端微服务节点的平滑下线监控

Upstream-Check 模块不是 Nginx 官方内置功能

直接在默认编译的 Nginx 中使用 check、check_http_send 等指令会报错：unknown directive "check"。这是因为 nginx_upstream_check_module 是第三方模块，需在编译 Nginx 时显式添加。如果你用的是 apt/yum 安装的包（如 Ubuntu 的 nginx-full 或 CentOS 的 nginx），大概率不含该模块——此时 reload 配置一定会失败。

验证方式很简单：

nginx -V 2>&1 | grep -o ‘upstream_check’

没输出就说明没启用。临时补救只有两个选择：自己编译带模块的 Nginx，或改用官方健康检查（health_check 指令，仅限 Plus 版本）或基于 proxy_next_upstream 的简易探测（无主动探活能力）。

配置 Upstream-Check 时必须关闭 keepalive 冲突

常见错误是把 keepalive 和 check 放在同一 upstream 块里，例如：

upstream backend { server 10.0.1.10:8080; check interval=3 rise=2 fall=3 timeout=1; keepalive 32;}

这会导致 Nginx 启动失败，报错：keepalive cannot be used with health check。原因是 upstream_check_module 自己维护连接池，与官方 keepalive 机制不兼容。

正确做法是：

移除 upstream 块内的 keepalive 指令若需长连接，在 location 块中用 proxy_http_version 1.1 + proxy_set_header Connection "" 透传给后端对上游连接复用依赖 check 自带的连接管理（它会在探活时复用底层 socket）

平滑下线依赖 check 的状态同步与 proxy_next_upstream 配合

upstream_check_module 本身只负责探测并标记节点为 down，但 Nginx 默认不会自动跳过已 down 的节点——除非你明确告诉它“哪些失败要重试”。否则，请求仍可能打到刚被标记为 down、但尚未从负载均衡列表中剔除的节点上（尤其在高并发下）。

关键配置组合如下：

upstream backend { server 10.0.1.10:8080 max_fails=0 fail_timeout=0; server 10.0.1.11:8080 max_fails=0 fail_timeout=0; check interval=3 rise=2 fall=3 timeout=1 type=http; check_http_send "HEAD /actuator/health HTTP/1.1\r\nHost: localhost\r\n\r\n"; check_http_expect_alive http_2xx http_3xx;}server { location / { proxy_pass http://backend; proxy_next_upstream error timeout http_500 http_502 http_503 http_504; proxy_next_upstream_tries 3; proxy_next_upstream_timeout 5s; }}

注意点：

max_fails=0 必须设为 0，否则 Nginx 会用自己的被动健康检查逻辑覆盖 check 的结果check_http_send 要匹配后端真实健康接口路径和协议头（Spring Boot 默认是 /actuator/health，且需支持 HEAD）proxy_next_upstream 必须包含 error 和 timeout，才能在节点被 check 标记为 down 后，首次请求失败时触发重试

如何确认节点真的“平滑”下线了

光看 check 日志（如 upstream_check_status 页面）显示某节点为 down 不够——得验证流量是否彻底绕过它。最直接的方式是：

在目标后端节点停服务前，用 curl -v http://your-nginx/ 多次请求，记录响应头中的 X-Upstream-Addr（可配合 proxy_set_header X-Upstream-Addr $upstream_addr; 输出）手动停掉该节点（比如 kill -15 Spring Boot 进程）等待 3–6 秒（即 interval × fall），再快速发 10+ 请求，检查返回的 X-Upstream-Addr 是否完全不包含该节点 IP

如果仍有请求打过去，大概率是 proxy_next_upstream 没生效，或者客户端（如浏览器）因 HTTP/1.1 keepalive 复用了旧连接，误以为还在通信——这时需要加 proxy_force_ranges off 或更激进地设 proxy_buffering off 来暴露问题。真正平滑的下线，是业务无感知的，而这个“无感知”的边界，往往卡在连接复用和重试策略的缝隙里。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

如何在Nginx中利用Upstream-Check实现对后端微服务节点的平滑下线监控

Upstream-Check 模块不是 Nginx 官方内置功能

配置 Upstream-Check 时必须关闭 keepalive 冲突

平滑下线依赖 check 的状态同步与 proxy_next_upstream 配合

如何确认节点真的“平滑”下线了

评论(0)

提示：请文明发言取消回复

排行榜展示

如何解决 Win11 系统提示“管理员已阻止此应用” 修复受限制程序运行

如何解决 Win11 系统桌面图标乱动修复重启后图标位置自动重排问题

如何解决 Win11 系统外接蓝牙耳机延迟高开启低延迟音频模式方法

Win11怎么禁用自动安装应用_Win11如何阻止商店偷偷下载软件【方法】

邮政快递查询入口手机号一键精准查询

如何在 Windows 中查看 NVMe 固态硬盘的 PCIe 通道速度检查硬件性能

近期文章

近期评论

如何在Nginx中利用Upstream-Check实现对后端微服务节点的平滑下线监控

Upstream-Check 模块不是 Nginx 官方内置功能

配置 Upstream-Check 时必须关闭 keepalive 冲突

平滑下线依赖 check 的状态同步与 proxy_next_upstream 配合

如何确认节点真的“平滑”下线了

评论(0)

提示：请文明发言 取消回复

相关文章

排行榜展示

标签云

近期文章

近期评论

提示：请文明发言取消回复