当前位置: 首页 > article >正文

DNS解析故障排查实战:从“网络不通“到定位根因的完整方法论

DNS解析故障排查实战从网络不通到定位根因的完整方法论为什么 DNS 故障总是最难发现的那一类网络故障里DNS 问题有一个特殊的迷惑性它让你以为是别的问题。用户反馈网络断了——其实是 DNS 解析失败HTTP 请求还没发出去就挂掉了。用户反馈网站打不开——其实某个 CDN 域名解析返回了过期 IPTCP 连接超时。用户反馈系统登录很慢——其实内网 AD 域控的 DNS 响应延迟从 5ms 涨到了 800ms。SNMP 看不见 DNS 问题ping 测不出来带宽利用率也完全正常。但用户就是用不了。本文从实战角度整理 DNS 故障排查的完整方法从现象识别到工具使用到根因定位覆盖企业内网常见的 DNS 故障场景。一、快速判断是否是 DNS 问题遇到网络不通类投诉第一步先排除 DNS# 直接用 IP 访问绕过 DNScurl-vhttp://192.168.10.50:8080/health# 用 nslookup 测试解析nslookuperp.company.internal# 指定 DNS 服务器测试nslookuperp.company.internal192.168.1.1# 测试公网 DNSnslookupbaidu.com8.8.8.8判断逻辑用 IP 能访问、用域名不行 → DNS 问题内网域名解析失败、公网正常 → 内网 DNS 服务器问题内网和公网都失败 → DNS 服务器本身不可达或上游 DNS 故障解析正常但访问慢 → 不是 DNS 问题往应用层或路由层查二、DNS 排查核心工具1. nslookup / dig基础诊断# dig 查询详细信息推荐用 dig比 nslookup 信息更全digerp.company.internal 192.168.1.1# 关注输出字段# QUESTION SECTION你查询的是什么# ANSWER SECTION解析结果是什么# Query timeDNS 响应时间毫秒# SERVER实际响应的 DNS 服务器看 Query time10ms正常10-100ms可接受但值得关注100ms明显偏高可能有 DNS 服务器问题超时;; connection timed outDNS 服务器不可达# 批量测试多个域名的解析时间fordomaininerp.company.internal db.company.internal mail.company.internal;doecho-n$domain: dig$domain192.168.1.1|grepQuery timedone2. tcpdump抓 DNS 流量DNS 走 UDP 53 端口大响应会回退到 TCP 53# 抓所有 DNS 流量tcpdump-ieth0 port53-w/tmp/dns_capture.pcap# 实时显示 DNS 查询不保存文件tcpdump-ieth0 port53-n# 只抓特定客户端的 DNS 请求tcpdump-ieth0 srchost192.168.50.100 and port53在 Wireshark 里打开抓包文件过滤 DNSdns重点关注没有 DNS Response 的 DNS Query请求发出去了但没有回应——DNS 服务器宕机或网络不通DNS Response 里 RCODE 不是 NOERRORNXDOMAIN域名不存在可能 DNS 记录配置错误SERVFAILDNS 服务器内部错误可能上游 DNS 故障REFUSEDDNS 服务器拒绝响应可能 ACL 配置问题3. Wireshark DNS 过滤技巧# 只看解析失败的响应 dns.flags.rcode ! 0 # 只看响应时间超过 200ms 的 DNS 请求 dns.time 0.2 # 看特定域名的 DNS 解析 dns.qry.name contains company.internal # 找没有对应 Response 的 DNS Query孤立请求 dns.flags.response 0 and !dns.response_in三、企业内网常见 DNS 故障场景场景一内网域名解析失败公网正常现象内部 ERP/OA 系统域名解析 NXDOMAIN但 baidu.com 解析正常。排查步骤确认客户端 DNS 服务器配置# Linuxcat/etc/resolv.conf# Windowsipconfig /all|findstrDNS Servers确认内网 DNS 服务器上有没有对应的 Zone 和记录# 在 DNS 服务器上查询digerp.company.internal 127.0.0.1# 列出所有 DNS 区域Windows DNS Serverdnscmd /enumzones常见根因客户端 DNS 服务器配置错误指向了不知道内部域名的 DNS比如直接用 8.8.8.8内网 DNS Zone 存在但记录已被删除或过期企业 DNS 分裂视图Split DNS配置错误场景二DNS 解析慢影响应用响应时间现象用户反馈应用响应慢但服务器本身响应时间正常。用 curl 加-w参数分析发现time_namelookup很高。# 用 curl 分析各阶段时间curl-wDNS: %{time_namelookup}s\nConnect: %{time_connect}s\nTotal: %{time_total}s\n\-o/dev/null-shttp://erp.company.internal排查步骤对比多个 DNS 服务器的响应时间# 对比主备 DNS 服务器响应时间digerp.company.internal 192.168.1.1|grepQuery timedigerp.company.internal 192.168.1.2|grepQuery time检查 DNS 服务器的负载DNS 服务器 CPU / 内存是否过高是否有异常大量 DNS 查询DNS DDoS、蠕虫感染导致的 DNS 风暴抓包确认延迟来自哪个环节tcpdump-ieth0 port53-n# 对比 DNS Query 和 Response 的时间戳确定延迟是网络层还是 DNS 服务器处理层场景三DNS 解析结果错误返回了错误 IP现象域名能解析但解析结果是错的连接建立后立即失败或行为异常。# 对比不同 DNS 服务器的解析结果digerp.company.internal 192.168.1.1digerp.company.internal 192.168.1.2digerp.company.internal 8.8.8.8# 公网 DNS 作为参照常见根因DNS 缓存中毒Cache PoisoningDNS 服务器缓存了错误的记录可能是攻击也可能是配置失误旧 IP 的 DNS 记录没有清除服务器 IP 变更后DNS 记录更新了但 TTL 未到期部分服务器还在缓存旧记录搭便车的内网 DHCP DNS 注册某台机器意外注册了和业务系统相同的 DNS 名称解决# 清除 DNS 服务器上特定记录的缓存Windows DNS Serverdnscmd /clearcache# 强制刷新客户端 DNS 缓存# Windows:ipconfig /flushdns# Linux:systemctl restart systemd-resolved# macOS:sudodscacheutil-flushcache场景四特定时间段 DNS 解析失败现象每天上午 9-10 点内网 DNS 解析偶发超时其他时间正常。这类间歇性问题最难排查靠临时抓包往往抓不到。需要持续监控。监控方法# 脚本每 30 秒测一次 DNS 解析记录时间和耗时whiletrue;doecho-n$(date%H:%M:%S)- digerp.company.internal 192.168.1.1|grepQuery time||echoTIMEOUTsleep30done/tmp/dns_monitor.log用全流量分析工具则更直接可以看到每一次 DNS 查询的完整时序哪个时间点开始出现超时、超时的 Query 发往哪个 DNS 服务器、有没有对应的 Response——这些信息在事后也可以回溯查询不需要在故障发生时恰好在抓包。四、DNS 故障排查检查清单□ 客户端 DNS 服务器配置是否正确 □ DNS 服务器本身是否可达ping/telnet 53 □ 内网 Zone 是否存在Zone 内记录是否正确 □ DNS 响应时间是否正常10ms 为优 □ DNS Response RCODE 是否为 NOERROR □ 有没有大量 NXDOMAIN 或 SERVFAIL 响应可能是 DNS 风暴 □ 主备 DNS 服务器解析结果是否一致 □ TTL 是否合理内网记录建议 300-600s太长导致变更慢太短增加 DNS 查询频率 □ 是否存在 DNS 缓存不一致不同客户端解析结果不同五、持续 DNS 监控的价值单次 dig / tcpdump 排查解决的是已知故障。真正让运维省心的是在问题变成用户投诉之前就发现它。建议在核心链路上持续监控 DNS 流量实时统计 DNS 解析成功率、平均响应时间、NXDOMAIN 比例对解析时间 100ms 的查询实时告警保留历史 DNS 查询记录支持事后回溯AnaTraf 网络全流量分析仪 在核心交换机 SPAN 口部署后自动解析 DNS 协议可以实时展示各 DNS 服务器的响应时间分布、解析失败率并支持按域名、客户端 IP、时间段检索历史 DNS 记录——把 DNS 故障从靠猜变成有数据。总结现象优先排查方向工具域名不通但 IP 可达DNS 解析失败nslookup / dig应用响应慢DNS 解析延迟curl -w / dig Query time解析结果不稳定DNS 缓存不一致对比多台 DNS 服务器特定时间段失败间歇性 DNS 超时持续监控脚本 / 全流量分析SERVFAIL 错误上游 DNS 故障dig 各级DNS服务器DNS 是所有应用的基础设施。它出问题的时候表现往往是应用层症状所以很容易被误诊。掌握这套排查方法能让你在 DNS 故障面前少走很多弯路。

相关文章:

DNS解析故障排查实战:从“网络不通“到定位根因的完整方法论

DNS解析故障排查实战:从"网络不通"到定位根因的完整方法论 为什么 DNS 故障总是最难发现的那一类 网络故障里,DNS 问题有一个特殊的迷惑性:它让你以为是别的问题。 用户反馈"网络断了"——其实是 DNS 解析失败&#x…...

用 QClaw 打造 AI 小说家,30 万字签约全流程复盘

文章目录前言第一步:下载安装 QClaw第二步:新建自定义 Agent第三步:精心设计小说家人设第四步:对 AI 小说家进行专项培训第五步:明确平台调性,设计世界观第六步:正式派发创作任务总结前言 最近…...

别再花钱买NAS了!用HFS+Nat123在Windows上5分钟搭建个人网盘(附中文汉化)

零成本打造个人云存储:WindowsHFSNat123实战指南 手里有台闲置的Windows电脑?别让它吃灰了。今天我要分享的这套方案,能让你用不到5分钟时间,把旧电脑变成随时可访问的私人云盘。相比动辄上千元的NAS设备,这套方案不仅…...

从零到一:三维重建技术全流程解析

从零到一:三维重建技术全流程解析 三维重建技术正在重塑我们与数字世界的交互方式。想象一下,仅凭几张普通照片就能在计算机中还原出物体的三维形态——这项看似科幻的能力,如今已成为医疗影像、工业检测、文化遗产保护等领域的常规操作。不…...

用PyTorch3D玩转3D艺术:手把手教你生成渐变小牛和旋转植物GIF

用PyTorch3D玩转3D艺术:手把手教你生成渐变小牛和旋转植物GIF 在数字艺术与创意编程的交汇处,PyTorch3D正成为技术爱好者手中的魔法棒。当传统3D建模软件需要复杂操作时,这个基于PyTorch的库让代码生成炫酷视觉效果变得像搭积木一样简单。本文…...

用PyTorch的F.cosine_similarity实现文本/向量两两相似度计算:以推荐系统为例

PyTorch向量相似度计算的工程实践:从原理到推荐系统实战 在推荐系统和自然语言处理领域,向量相似度计算是最基础也最频繁的操作之一。想象一下这样的场景:你的推荐系统需要实时为百万级用户计算他们可能感兴趣的物品,而每个用户和…...

<climits>

简介这个头文件比较特殊,不包含复杂的函数,而是定义了一系列宏常量,用于描述当前编译平台下各种整型数据类型的取值范围(最小值和最大值)UCHAR_MAX //(255U): 无符号字符型的最大值。U 表示无符号常量SCHAR_MIN //-12…...

文档批量加水印这个工具帮我解决了文档版权追踪的问题

在日常工作中,文档的版权保护一直是个头疼的问题。特别是对于需要向外部分发的文件,怎么证明"这份文档是从我这儿出去的",怎么在泄露发生时能够追踪到源头?这篇文章介绍一个能批量给文档添加不可见水印的工具&#xff0…...

告别几十个ECU!手把手拆解车身域控制器(附SPC58NH/S32G方案选型指南)

车身域控制器实战指南:从传统ECU到集中式架构的硬件整合 车身电子系统正经历一场从分散到集中的革命。想象一下,一辆现代汽车内部可能分布着上百个独立工作的电子控制单元(ECU),它们各自为政,通过复杂的线束网络相互连接。这不仅增…...

AO3镜像站:为创意自由搭建的桥梁

AO3镜像站:为创意自由搭建的桥梁 【免费下载链接】AO3-Mirror-Site 项目地址: https://gitcode.com/gh_mirrors/ao/AO3-Mirror-Site 在数字时代的创作海洋中,Archive of Our Own(AO3)如同一个巨大的创意港湾,汇…...

来自学习的第二天

今天是我学习编程的第二天,希望能够学好,能够学得多,以后当个大佬,我相信我一定可以的...

平衡二叉树的奥秘:AVLTree高效实现解析

平衡二叉树(AVLTree)平衡二叉树(AVLTree)是一种自平衡二叉搜索树,由 Adelson-Velsky 和 Landis 于 1962 年提出。它通过维护每个节点的平衡因子(定义为左子树高度减去右子树高度)来确保树的高度…...

别再傻傻分不清!用一杯水和一把尺子,5分钟搞懂ADC的LSB与精度

用一杯水破解ADC的奥秘:分辨率与精度的生活实验 实验室里那些闪烁的示波器和密密麻麻的数据手册总让人望而生畏,但理解模数转换(ADC)的核心概念其实可以像观察一杯水那样简单。今天我们就用厨房里最常见的量杯和直尺,来…...

C++函数模板:OOP中的万能利器

C 面向对象编程中的函数模板在C面向对象编程(OOP)中,类和对象是核心概念。函数模板是一种强大的特性,允许我们编写通用的、可复用的代码,适用于多种数据类型。结合OOP,函数模板可以用于类的方法中&#xff…...

递归算法:合并与反转链表的艺术

合并两个有序链表合并两个有序链表是将两个升序排列的链表合并成一个新的升序链表。使用递归方法时,核心思路是:比较两个链表的头节点值,选择较小的节点作为新链表的头,然后递归地合并剩余部分。如果其中一个链表为空,…...

CREO实战宝典:从阵列到骨架模型,解锁十大经典零件设计全流程(曲柱、风扇叶、齿轮参数化、油缸等)

1. CREO零件设计实战入门:从零到精通的必经之路 刚开始接触CREO时,我总被那些复杂的参数和命令搞得晕头转向。直到后来才发现,掌握几个核心功能就能解决80%的日常设计需求。阵列、参数化设计和骨架模型这三个功能,就像设计界的&qu…...

Untrunc终极指南:三步修复损坏MP4/MOV视频的完整教程

Untrunc终极指南:三步修复损坏MP4/MOV视频的完整教程 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经因为意外断电、传输中断或存储错误而丢失…...

解决VisualStudio2026中文打印报错或者乱码

...

鸣潮自动化终极指南:如何用ok-ww实现智能自动战斗与资源收集

鸣潮自动化终极指南:如何用ok-ww实现智能自动战斗与资源收集 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 鸣潮自动化…...

【AGI军事伦理红区预警】:20年国防科技专家首次公开3大不可逾越的AI作战红线

第一章:AGI与军事应用的伦理边界 2026奇点智能技术大会(https://ml-summit.org) 通用人工智能(AGI)在军事系统中的深度集成正以前所未有的速度推进,从自主侦察分析到动态战术推演,其能力已超越传统自动化范畴。然而&…...

告别拖拽画布:用ABAP Dialog Screen手搓一个订单管理界面(附完整代码)

从零构建ABAP Dialog Screen订单管理系统的实战指南 在SAP生态中,Dialog Screen开发一直是ABAP程序员的核心技能之一。与简单的拖拽式界面设计不同,真正掌握Dialog Screen开发意味着能够深入理解屏幕背后的运行机制,构建出既美观又高效的业务…...

【卷卷观察】Vibe Coding 时代:有些人已经在用 AI 写代码,有些人还在争论 AI 能不能写代码

结论先说:Vibe Coding 这事,已经不是"趋势"了,是既成事实。92% 的美国开发者每天在用,41% 的代码是 AI 生成的。但这篇文章不想重复这些数字——数字你网上随便都能查到。我想聊的是:这事到底意味着什么&…...

VLN 与世界模型的关系

先唠两句:参数就像餐厅点单 把API想象成一家餐厅的“后厨系统”。 ? 路径参数/dishes/{dish_id} -> 好比你要点“宫保鸡丁”这道具体的菜,它是菜单(资源路径)的一部分。查询参数/dishes?spicytrue&typeSichuan -> 好比…...

自建 code-server vs CloudStudio:为什么插件不能用?

# 自建 code-server vs CloudStudio:为什么插件不能用?## 问题背景办公室有一台 Lubuntu 电脑,安装了 code-server,通过内网穿透在家的浏览器可以正常访问和使用。但是有两个问题:- CodeBuddy 插件无法使用- MySQL 插件…...

Claude Code vs Codex:谁才是最强 AI 编程工具?我的真实体验分享

pagehelper整合 引入依赖com.github.pagehelperpagehelper-spring-boot-starter2.1.0compile编写代码 GetMapping("/list/{pageNo}") public PageInfo findAll(PathVariable int pageNo) {// 设置当前页码和每页显示的条数PageHelper.startPage(pageNo, 10);// 查询数…...

避开这些坑,你的Android设备才能顺利通过Google认证:XTS测试环境与版本配置指南

避开这些坑,你的Android设备才能顺利通过Google认证:XTS测试环境与版本配置指南 在Android设备生态中,Google认证是确保设备兼容性和质量的重要门槛。然而,许多团队在送测前常因环境配置和版本管理的疏忽而反复失败。本文将深入剖…...

嵌入式GUI框架怎么选?从LVGL、TouchGFX到AWTK,5分钟帮你理清思路

嵌入式GUI框架选型实战指南:从LVGL到QT的深度解析 在嵌入式系统开发中,图形用户界面(GUI)的设计往往成为项目成败的关键因素之一。面对市场上琳琅满目的GUI框架,开发者常常陷入选择困难——是追求极致性能还是开发效率?是选择开源…...

CLAUDE.md:90%人用错了

CLAUDE.md:90%人用错了 我用这个文件,让AI记住我项目的所有秘密。先讲个故事 上周,团队新来一个实习生。 我让他帮改个功能,3小时没搞定。后来我自己上,10分钟改完了。 差距在哪? 不是我比他强,…...

Canvas水印实战:5分钟搞定前端图片防盗,附完整代码与避坑指南

Canvas水印实战:5分钟实现前端图片版权保护 在数字内容爆炸式增长的今天,图片盗用已成为困扰创作者的核心痛点。最近一位独立摄影师发现,其发布于社交平台的作品被某电商商家直接盗用,导致每月损失近万元订单。这样的案例并非孤例…...

2026年,泉州创业者资源对接会哪个好用?

创业这条道路,就像是在茫茫大海中航行,充满了未知和挑战。对于泉州的创业者们来说,找到靠谱的资源对接会,就如同找到了一座明亮的灯塔,能指引我们少走弯路。最近就有不少朋友问我,2026年泉州创业者资源对接…...