当前位置: 首页 > news >正文

【Linux】分析hung_panic生成的vmcore

简介

1、遇到一个问题:
上述日志是oom_kill,下述日志是hung_panic
2、分别解释两层含义,全部日志如下:

[75834.243209] kodo invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=968
[75834.245657] CPU: 0 PID: 23476 Comm: kodo Kdump: loaded Tainted: G           OE     4.19.90-2305.1.0.019
9.78.uel20.x86_64 #1
[75834.248210] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 1.11.0-2.el7 04/01/2014
[75834.250623] Call Trace:
[75834.252090]  dump_stack+0x66/0x8b
[75834.253680]  dump_header+0x4a/0x1ec
[75834.255234]  oom_kill_process+0x24f/0x270
[75834.257018]  out_of_memory+0x141/0x570
[75834.259117]  mem_cgroup_out_of_memory+0xb5/0xd0
[75834.260763]  try_charge+0x723/0x770
[75834.262496]  ? mem_cgroup_commit_charge+0x7f/0x4e0
[75834.264713]  mem_cgroup_try_charge+0x86/0x180
[75834.266306]  __add_to_page_cache_locked+0x60/0x290
[75834.268318]  add_to_page_cache_lru+0x4a/0xf0
[75834.270041]  iomap_readpages_actor+0x129/0x2a0
[75834.271760]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.273816]  iomap_apply+0xba/0x160
[75834.275765]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.277348]  iomap_readpages+0xaa/0x1e0
[75834.279000]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.280679]  read_pages+0x6d/0x1d0
[75834.282123]  ? __do_page_cache_readahead+0x16c/0x1d0
[75834.283745]  __do_page_cache_readahead+0x16c/0x1d0
[75834.285347]  filemap_fault+0x298/0x8a0
[75834.286755]  ? kmem_cache_free+0x180/0x1b0
[75834.288988]  __xfs_filemap_fault+0x72/0x200 [xfs]
[75834.290618]  __do_fault+0x33/0x110
[75834.291988]  do_fault+0x12e/0x490
[75834.293451]  __handle_mm_fault+0x613/0x690
[75834.295491]  handle_mm_fault+0xc4/0x200
[75834.296884]  __do_page_fault+0x240/0x4c0
[75834.298539]  do_page_fault+0x31/0x130
[75834.300068]  ? async_page_fault+0x8/0x30
[75834.301720]  async_page_fault+0x1e/0x30
[75834.303468] memory: usage 12582792kB, limit 12582912kB, failcnt 317157
[75834.305486] memory+swap: usage 12582792kB, limit 9007199254740988kB, failcnt 0
[75834.308073] kmem: usage 0kB, limit 9007199254740988kB, failcnt 0
[75834.310515] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a: cache:
0KB rss:0KB rss_huge:0KB shmem:0KB mapped_file:0KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB acti
ve_anon:0KB inactive_file:0KB active_file:0KB unevictable:0KB
[75834.317024] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/5feef66
2206c588f4751444e30c4257c1dfe6f62bec8d5c20bec457186b70fe7: cache:0KB rss:0KB rss_huge:0KB shmem:0KB mapped
_file:0KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB active_anon:0KB inactive_file:0KB active_file
:0KB unevictable:0KB
[75834.324632] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/4e74f07
4587671f5e770d3f8071c630a70ede73ee423d59a6dd49149c3a6c734: cache:17524KB rss:12562956KB rss_huge:6912000KBshmem:0KB mapped_file:1188KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB active_anon:12562956KB in
active_file:16140KB active_file:12KB unevictable:0KB
[75834.333179] Tasks state (memory values in pages):
[75834.335680] [  pid  ]   uid  tgid total_vm      rss pgtables_bytes swapents oom_score_adj name
[75834.338171] [  22697]     0 22697      256        1    32768        0          -998 pause
[75834.340836] [  23362]     0 23362  3470438  3140655 25550848        0           968 kodo
[75834.343473] oom-kill:constraint=CONSTRAINT_MEMCG,nodemask=(null),cpuset=4e74f074587671f5e770d3f8071c630
a70ede73ee423d59a6dd49149c3a6c734,mems_allowed=0,oom_memcg=/kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-
7cd399c77b7a,task_memcg=/kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/4e74f074587671f5e770d3
f8071c630a70ede73ee423d59a6dd49149c3a6c734,task=kodo,pid=23362,uid=0
[75834.354192] Memory cgroup out of memory: Kill process 23362 (kodo) score 1968 or sacrifice child
[75834.357745] Killed process 23362 (kodo) total-vm:13881752kB, anon-rss:12562620kB, file-rss:0kB, shmem-r
ss:0kB
[75834.736239] oom_reaper: reaped process 23362 (kodo), now anon-rss:0kB, file-rss:0kB, shmem-rss:0kB
[76349.203912] TCP: request_sock_TCP: Possible SYN flooding on port 9527. Sending cookies.  Check SNMP cou
nters.
[85988.503793] INFO: task kodo:2939685 blocked for more than 1200 seconds.
[85988.506238]       Tainted: G           OE     4.19.90-2305.1.0.0199.78.uel20.x86_64 #1
[85988.508710] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[85988.512771] kodo            D    0 2939685 2939616 0x00000080
[85988.515238] Call Trace:
[85988.517192]  ? __schedule+0x286/0x740
[85988.517199]  schedule+0x29/0xc0
[85988.521494]  schedule_preempt_disabled+0xa/0x10
[85988.523722]  __mutex_lock.isra.7+0x20b/0x470
[85988.525780]  ? fuse_lock_inode+0x27/0x30 [fuse]
[85988.527911]  fuse_lock_inode+0x27/0x30 [fuse]
[85988.529928]  fuse_lookup+0x46/0x140 [fuse]
[85988.531907]  ? d_alloc_parallel+0x95/0x4d0
[85988.533942]  __lookup_slow+0x97/0x150
[85988.536004]  lookup_slow+0x35/0x50
[85988.537910]  walk_component+0x1c4/0x340
[85988.539882]  ? fuse_permission+0x30/0x150 [fuse]
[85988.541908]  link_path_walk.part.33+0x2a6/0x510
[85988.544042]  ? path_init+0x192/0x320
[85988.545916]  path_lookupat+0x95/0x210
[85988.547837]  filename_lookup+0xb6/0x190
[85988.549753]  ? audit_alloc_name+0x7e/0xd0
[85988.551710]  ? path_get+0x11/0x30
[85988.553669]  ? __audit_getname+0x9f/0xb0
[85988.555655]  ? getname_flags+0xb9/0x1e0
[85988.557672]  ? vfs_statx+0x73/0xe0
[85988.559591]  vfs_statx+0x73/0xe0
[85988.561361]  __do_sys_newfstatat+0x31/0x70
[85988.563200]  ? syscall_trace_enter+0x1df/0x2e0
[85988.565182]  ? __audit_syscall_exit+0x238/0x2c0
[85988.567047]  do_syscall_64+0x5f/0x240
[85988.568865]  entry_SYSCALL_64_after_hwframe+0x5c/0xc1
[85988.571261] INFO: task kodo:2939695 blocked for more than 1200 seconds.
[85988.573951]       Tainted: G           OE     4.19.90-2305.1.0.0199.78.uel20.x86_64 #1
[85988.576253] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[85988.578441] kodo            D    0 2939695 2939616 0x00000080
[85988.580330] Call Trace:
[85988.581734]  ? __schedule+0x286/0x740
[85988.583394]  schedule+0x29/0xc0
[85988.584843]  schedule_preempt_disabled+0xa/0x10
[85988.586632]  __mutex_lock.isra.7+0x20b/0x470
[85988.588191]  ? fuse_lock_inode+0x27/0x30 [fuse]
[85988.589818]  fuse_lock_inode+0x27/0x30 [fuse]
[85988.591278]  fuse_lookup+0x46/0x140 [fuse]
[85988.592731]  ? d_alloc_parallel+0x95/0x4d0
[85988.594174]  __lookup_slow+0x97/0x150
[85988.595469]  lookup_slow+0x35/0x50
[85988.596873]  walk_component+0x1c4/0x340
[85988.598236]  ? fuse_permission+0x30/0x150 [fuse]
[85988.599717]  link_path_walk.part.33+0x2a6/0x510
[85988.601101]  ? path_init+0x192/0x320
[85988.602401]  path_lookupat+0x95/0x210
[85988.603898]  filename_lookup+0xb6/0x190
[85988.605247]  ? audit_alloc_name+0x7e/0xd0
[85988.606482]  ? path_get+0x11/0x30
[85988.607660]  ? __audit_getname+0x9f/0xb0
[85988.609270]  ? getname_flags+0xb9/0x1e0
[85988.610547]  ? vfs_statx+0x73/0xe0
[85988.611757]  vfs_statx+0x73/0xe0
[85988.612875]  __do_sys_newfstatat+0x31/0x70
[85988.615046]  ? syscall_trace_enter+0x1df/0x2e0
[85988.616437]  ? __audit_syscall_exit+0x238/0x2c0
[85988.617825]  do_syscall_64+0x5f/0x240
[85988.619091]  entry_SYSCALL_64_after_hwframe+0x5c/0xc1
[85988.620778] Kernel panic - not syncing: hung_task: blocked tasks
[85988.622425] CPU: 15 PID: 175 Comm: khungtaskd Kdump: loaded Tainted: G           OE     4.19.90-2305.1.
0.0199.78.uel20.x86_64 #1
[85988.625743] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 1.11.0-2.el7 04/01/2014
[85988.627659] Call Trace:
[85988.628806]  dump_stack+0x66/0x8b
[85988.630119]  panic+0x106/0x2b6
[85988.631539]  watchdog+0x270/0x400
[85988.632777]  ? hungtask_pm_notify+0x40/0x40
[85988.634134]  kthread+0x113/0x130
[85988.635459]  ? kthread_create_worker_on_cpu+0x70/0x70
[85988.636981]  ret_from_fork+0x35/0x40

oom-kill内容分析

截取日志如下:

[75834.243209] kodo invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=968
[75834.245657] CPU: 0 PID: 23476 Comm: kodo Kdump: loaded Tainted: G           OE     4.19.90-2305.1.0.019
9.78.uel20.x86_64 #1
[75834.248210] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 1.11.0-2.el7 04/01/2014
[75834.250623] Call Trace:
[75834.252090]  dump_stack+0x66/0x8b
[75834.253680]  dump_header+0x4a/0x1ec
[75834.255234]  oom_kill_process+0x24f/0x270
[75834.257018]  out_of_memory+0x141/0x570
[75834.259117]  mem_cgroup_out_of_memory+0xb5/0xd0
[75834.260763]  try_charge+0x723/0x770
[75834.262496]  ? mem_cgroup_commit_charge+0x7f/0x4e0
[75834.264713]  mem_cgroup_try_charge+0x86/0x180
[75834.266306]  __add_to_page_cache_locked+0x60/0x290
[75834.268318]  add_to_page_cache_lru+0x4a/0xf0
[75834.270041]  iomap_readpages_actor+0x129/0x2a0
[75834.271760]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.273816]  iomap_apply+0xba/0x160
[75834.275765]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.277348]  iomap_readpages+0xaa/0x1e0
[75834.279000]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.280679]  read_pages+0x6d/0x1d0
[75834.282123]  ? __do_page_cache_readahead+0x16c/0x1d0
[75834.283745]  __do_page_cache_readahead+0x16c/0x1d0
[75834.285347]  filemap_fault+0x298/0x8a0
[75834.286755]  ? kmem_cache_free+0x180/0x1b0
[75834.288988]  __xfs_filemap_fault+0x72/0x200 [xfs]
[75834.290618]  __do_fault+0x33/0x110
[75834.291988]  do_fault+0x12e/0x490
[75834.293451]  __handle_mm_fault+0x613/0x690
[75834.295491]  handle_mm_fault+0xc4/0x200
[75834.296884]  __do_page_fault+0x240/0x4c0
[75834.298539]  do_page_fault+0x31/0x130
[75834.300068]  ? async_page_fault+0x8/0x30
[75834.301720]  async_page_fault+0x1e/0x30
[75834.303468] memory: usage 12582792kB, limit 12582912kB, failcnt 317157
[75834.305486] memory+swap: usage 12582792kB, limit 9007199254740988kB, failcnt 0
[75834.308073] kmem: usage 0kB, limit 9007199254740988kB, failcnt 0
[75834.310515] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a: cache:
0KB rss:0KB rss_huge:0KB shmem:0KB mapped_file:0KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB acti
ve_anon:0KB inactive_file:0KB active_file:0KB unevictable:0KB
[75834.317024] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/5feef66
2206c588f4751444e30c4257c1dfe6f62bec8d5c20bec457186b70fe7: cache:0KB rss:0KB rss_huge:0KB shmem:0KB mapped
_file:0KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB active_anon:0KB inactive_file:0KB active_file
:0KB unevictable:0KB
[75834.324632] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/4e74f07
4587671f5e770d3f8071c630a70ede73ee423d59a6dd49149c3a6c734: cache:17524KB rss:12562956KB rss_huge:6912000KBshmem:0KB mapped_file:1188KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB active_anon:12562956KB in
active_file:16140KB active_file:12KB unevictable:0KB

第一段,因系统内存不足,kodo进程触发了oom-killer

[75834.243209] kodo invoked oom-killer: gfp_mask=0x600040(GFP_NOFS), order=0, oom_score_adj=968
[75834.245657] CPU: 0 PID: 23476 Comm: kodo Kdump: loaded Tainted: G           OE     4.19.90-2305.1.0.019
9.78.uel20.x86_64 #1

第二段,栈堆是系统遇到了内存不足的问题,内核执行了oom进行回收内存的一个详细说明

[75834.250623] Call Trace:
[75834.252090]  dump_stack+0x66/0x8b
[75834.253680]  dump_header+0x4a/0x1ec
[75834.255234]  oom_kill_process+0x24f/0x270
[75834.257018]  out_of_memory+0x141/0x570
[75834.259117]  mem_cgroup_out_of_memory+0xb5/0xd0
[75834.260763]  try_charge+0x723/0x770
[75834.262496]  ? mem_cgroup_commit_charge+0x7f/0x4e0
[75834.264713]  mem_cgroup_try_charge+0x86/0x180
[75834.266306]  __add_to_page_cache_locked+0x60/0x290
[75834.268318]  add_to_page_cache_lru+0x4a/0xf0
[75834.270041]  iomap_readpages_actor+0x129/0x2a0
[75834.271760]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.273816]  iomap_apply+0xba/0x160
[75834.275765]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.277348]  iomap_readpages+0xaa/0x1e0
[75834.279000]  ? iomap_dio_bio_end_io+0x190/0x190
[75834.280679]  read_pages+0x6d/0x1d0
[75834.282123]  ? __do_page_cache_readahead+0x16c/0x1d0
[75834.283745]  __do_page_cache_readahead+0x16c/0x1d0
[75834.285347]  filemap_fault+0x298/0x8a0
[75834.286755]  ? kmem_cache_free+0x180/0x1b0
[75834.288988]  __xfs_filemap_fault+0x72/0x200 [xfs]
[75834.290618]  __do_fault+0x33/0x110
[75834.291988]  do_fault+0x12e/0x490
[75834.293451]  __handle_mm_fault+0x613/0x690
[75834.295491]  handle_mm_fault+0xc4/0x200
[75834.296884]  __do_page_fault+0x240/0x4c0
[75834.298539]  do_page_fault+0x31/0x130
[75834.300068]  ? async_page_fault+0x8/0x30
[75834.301720]  async_page_fault+0x1e/0x30

第三段意思,内存限制为12G,当前内存使用了12G,由于内存不足有30万次分配失败

内存:
usage 12582792kB: 当前内存使用量为 12,582,792 KB。
limit 12582912kB: 内存限制为12,582,912 KB。
failcnt 317157: 表示由于内存不足,发生了 317,157 次分配失败。

交换内存:
usage 12582792kB: 当前内存加交换空间的使用量。
limit 9007199254740988kB:交换空间的限制非常大,接近无限制。
failcnt 0: 目前没有因交换空间不足而导致的失败。

内核内存:
usage 0kB: 内核内存使用为 0 KB。
limit 9007199254740988kB: 内核内存限制非常大。
failcnt 0: 内核内存分配没有失败。

[75834.303468] memory: usage 12582792kB, limit 12582912kB, failcnt 317157
[75834.305486] memory+swap: usage 12582792kB, limit 9007199254740988kB, failcnt 0
[75834.308073] kmem: usage 0kB, limit 9007199254740988kB, failcnt 0
[75834.310515] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a: cache:
0KB rss:0KB rss_huge:0KB shmem:0KB mapped_file:0KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB acti
ve_anon:0KB inactive_file:0KB active_file:0KB unevictable:0KB
[75834.317024] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/5feef66
2206c588f4751444e30c4257c1dfe6f62bec8d5c20bec457186b70fe7: cache:0KB rss:0KB rss_huge:0KB shmem:0KB mapped
_file:0KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB active_anon:0KB inactive_file:0KB active_file
:0KB unevictable:0KB
[75834.324632] Memory cgroup stats for /kubepods/burstable/podd5e7b3e0-de6a-4965-91c6-7cd399c77b7a/4e74f07
4587671f5e770d3f8071c630a70ede73ee423d59a6dd49149c3a6c734: cache:17524KB rss:12562956KB rss_huge:6912000KBshmem:0KB mapped_file:1188KB dirty:0KB writeback:0KB swap:0KB inactive_anon:0KB active_anon:12562956KB in
active_file:16140KB active_file:12KB unevictable:0KB

总结

1、因k8s的每个pod内存最大使用限制为12G,而pod中的内存使用量已经超过了12G。
2、从上述日志可以表明,由于k8s容器pod内存限制导致分配不足,触发内核oom,而kodo为最优考虑而被杀掉,来保证业务正常运行。

hung_panic内容分析

截取日志如下:

[85988.571261] INFO: task kodo:2939695 blocked for more than 1200 seconds.
[85988.573951]       Tainted: G           OE     4.19.90-2305.1.0.0199.78.uel20.x86_64 #1
[85988.576253] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[85988.578441] kodo            D    0 2939695 2939616 0x00000080
[85988.580330] Call Trace:
[85988.581734]  ? __schedule+0x286/0x740
[85988.583394]  schedule+0x29/0xc0
[85988.584843]  schedule_preempt_disabled+0xa/0x10
[85988.586632]  __mutex_lock.isra.7+0x20b/0x470
[85988.588191]  ? fuse_lock_inode+0x27/0x30 [fuse]
[85988.589818]  fuse_lock_inode+0x27/0x30 [fuse]
[85988.591278]  fuse_lookup+0x46/0x140 [fuse]
[85988.592731]  ? d_alloc_parallel+0x95/0x4d0
[85988.594174]  __lookup_slow+0x97/0x150
[85988.595469]  lookup_slow+0x35/0x50
[85988.596873]  walk_component+0x1c4/0x340
[85988.598236]  ? fuse_permission+0x30/0x150 [fuse]
[85988.599717]  link_path_walk.part.33+0x2a6/0x510
[85988.601101]  ? path_init+0x192/0x320
[85988.602401]  path_lookupat+0x95/0x210
[85988.603898]  filename_lookup+0xb6/0x190
[85988.605247]  ? audit_alloc_name+0x7e/0xd0
[85988.606482]  ? path_get+0x11/0x30
[85988.607660]  ? __audit_getname+0x9f/0xb0
[85988.609270]  ? getname_flags+0xb9/0x1e0
[85988.610547]  ? vfs_statx+0x73/0xe0
[85988.611757]  vfs_statx+0x73/0xe0
[85988.612875]  __do_sys_newfstatat+0x31/0x70
[85988.615046]  ? syscall_trace_enter+0x1df/0x2e0
[85988.616437]  ? __audit_syscall_exit+0x238/0x2c0
[85988.617825]  do_syscall_64+0x5f/0x240
[85988.619091]  entry_SYSCALL_64_after_hwframe+0x5c/0xc1
[85988.620778] Kernel panic - not syncing: hung_task: blocked tasks
[85988.622425] CPU: 15 PID: 175 Comm: khungtaskd Kdump: loaded Tainted: G           OE     4.19.90-2305.1.
0.0199.78.uel20.x86_64 #1
[85988.625743] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 1.11.0-2.el7 04/01/2014
[85988.627659] Call Trace:
[85988.628806]  dump_stack+0x66/0x8b
[85988.630119]  panic+0x106/0x2b6
[85988.631539]  watchdog+0x270/0x400
[85988.632777]  ? hungtask_pm_notify+0x40/0x40
[85988.634134]  kthread+0x113/0x130
[85988.635459]  ? kthread_create_worker_on_cpu+0x70/0x70
[85988.636981]  ret_from_fork+0x35/0x40

第一段:
是kodo:2939695进程由于长时间处于阻塞状态而被标记为“挂起任务”并提醒执行:"echo 0 > /proc/sys/kernel/hung_task_timeout_secs"可以忽略挂起任务超时提醒(默认超时1200后提醒)

[85988.571261] INFO: task kodo:2939695 blocked for more than 1200 seconds.
[85988.573951]       Tainted: G           OE     4.19.90-2305.1.0.0199.78.uel20.x86_64 #1
[85988.576253] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[85988.578441] kodo            D    0 2939695 2939616 0x00000080

第二段:
触发了内核panic

[85988.620778] Kernel panic - not syncing: hung_task: blocked tasks
[85988.622425] CPU: 15 PID: 175 Comm: khungtaskd Kdump: loaded Tainted: G           OE     4.19.90-2305.1.
0.0199.78.uel20.x86_64 #1

第三段:
详细解释触发panic的栈堆

[85988.627659] Call Trace:
[85988.628806]  dump_stack+0x66/0x8b
[85988.630119]  panic+0x106/0x2b6
[85988.631539]  watchdog+0x270/0x400
[85988.632777]  ? hungtask_pm_notify+0x40/0x40
[85988.634134]  kthread+0x113/0x130
[85988.635459]  ? kthread_create_worker_on_cpu+0x70/0x70
[85988.636981]  ret_from_fork+0x35/0x40

panic生成vmcore分析

vmcore解开的错误日志:

      KERNEL: vmlinux  [TAINTED]                                       DUMPFILE: /root/vmcore  [PARTIAL DUMP]CPUS: 32DATE: Sat Aug 10 02:05:30 CST 2024UPTIME: 23:53:08
LOAD AVERAGE: 36.80, 28.43, 21.99TASKS: 2151NODENAME: tcs-30-34-22-251RELEASE: 4.19.90-2305.1.0.0199.78.uel20.x86_64VERSION: #1 SMP Wed Feb 28 12:31:25 CST 2024MACHINE: x86_64  (2699 Mhz)MEMORY: 64 GBPANIC: "Kernel panic - not syncing: hung_task: blocked tasks"PID: 175COMMAND: "khungtaskd"TASK: ffff9a2c46e2b000  [THREAD_INFO: ffff9a2c46e2b000]CPU: 15STATE: TASK_RUNNING (PANIC)

说明:

KERNEL: 内核版本,显示为 [TAINTED] 表示有可能有未签名的模块或其他因素导致内核状态不纯净。
DUMPFILE: 崩溃转储文件的位置,显示为 [PARTIAL DUMP] 表示转储可能不完整。
CPUS: 系统有 32 个 CPU。
UPTIME: 系统运行时间为 23 小时 53 分钟。
LOAD AVERAGE: 系统负载情况,显示平均负载较高,1分,10分,15分。
TASKS: 当前运行的任务数量为 2151。
NODENAME: 主机名。
RELEASE: 内核版本号。
VERSION: 内核构建时间和信息。
MACHINE: 机器架构和主频。
MEMORY: 系统内存为 64 GB。
PANIC: 内核 panic 信息,提示因 hung_task(挂起任务)导致系统无法同步。
PID: 崩溃时的进程 ID 为 175。
COMMAND: 崩溃时正在运行的命令是 khungtaskd,这是处理挂起任务的内核线程。
TASK: 崩溃时的线程信息。
CPU: 崩溃时的 CPU 号为 15。
STATE: 任务状态显示为 TASK_RUNNING(运行中)并处于 panic 状态。

panic的内核栈堆:

PID: 175    TASK: ffff9a2c46e2b000  CPU: 15  COMMAND: "khungtaskd"0 [ffff9a303c0b7d18] machine_kexec at ffffffffb6857b0f1 [ffff9a303c0b7d70] __crash_kexec at ffffffffb695b9812 [ffff9a303c0b7e30] panic at ffffffffb68b0c703 [ffff9a303c0b7eb8] watchdog at ffffffffb698f5e04 [ffff9a303c0b7f10] kthread at ffffffffb68d54e35 [ffff9a303c0b7f50] ret_from_fork at ffffffffb7400245

说明:
进程:175 CPU:15 命令:khungtaskd 触发的panic

总结

1、处理kodo进程超时,任务挂起1200秒并打印到日志提醒
2、由于负载过高,kodo又挂起时间过长,内核khungtaskd进程检测到这一情况,并执行了panic

详细回答

从oom到hung日志都在指向kodo进程,所以基本可以判断是由于此进程导致系统负载过高从而触发了panic。

相关文章:

【Linux】分析hung_panic生成的vmcore

简介 1、遇到一个问题: 上述日志是oom_kill,下述日志是hung_panic 2、分别解释两层含义,全部日志如下: [75834.243209] kodo invoked oom-killer: gfp_mask0x600040(GFP_NOFS), order0, oom_score_adj968 [75834.245657] CPU: 0…...

unity 画线写字

效果 1.界面设置 2.涉及两个脚本UIDraw.cs和UIDrawLine.cs UIDraw.cs using System; using System.Collections.Generic; using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.UI;public class UIDraw : MonoBehaviour, IPointerEnterHandler, IPointerEx…...

GitHub的详细介绍

GitHub是一个面向开源及私有软件项目的托管平台,它建立在Git这个分布式版本控制系统之上,为开发者提供了在云端存储、管理和共享代码的便捷方式。以下是对GitHub的详细介绍: ### 一、GitHub的基本功能 1. **代码托管**:GitHub允…...

【鸿蒙学习】HarmonyOS应用开发者基础 - 构建更加丰富的页面之Tabs(三)

学完时间:2024年8月14日 一、前言叨叨 学习HarmonyOS的第六课,人数又成功的降了500名左右,到了3575人了。 本文接上一文章【鸿蒙学习】HarmonyOS应用开发者基础 - 构建更加丰富的页面(一),继续记录构建更…...

Detectron2 安装指南

文章目录 前言Detectron2官方文档官方指南 安装 Detectron2虚拟环境安装 PyTorch安装 Detectron2 总结 前言 Detectron2 是 Meta AI 的一个机器视觉相关的库,建立在 Detectron 和 maskrcnn-benchmark 基础之上,可以进行目标检测、语义分割、全景分割&am…...

亚马逊 Linux mysql5.7 安装纪录

wget https://downloads.mysql.com/archives/get/p/23/file/mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz cp /home/admin/mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz /usr/local/mysql #解压压缩包 tar -zxvf mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz 重命名mysql-…...

ZLMediaKit编译webrtc

ZLMediaKit官方文档写的挺详细的,但是也不算特别详细。 按照上面的文档,执行到cmake的时候,会提示“srtp 未找到, WebRTC 相关功能打开失败”,但是cmke还是可以继续啊。此时看文档说webrtc比较复杂,默认是不编译的&am…...

KEEPALIVED高可用集群最详解

目录 一、高可用集群 1.1 集群的类型 1.2 实现高可用 1.3 VRRP:Virtual Router Redundancy Protocol 1.3.1 VRRP相关术语 1.5.2 VRRP 相关技术 二、部署KEEPALIVED 2.1 keepalived 简介 2.2 Keepalived 架构 2.3 Keepalived 环境准备 2.3.1 实验环境 2…...

【大模型】llama-factory基础学习

前言:LLaMA-Factory项目的目标是整合主流的各种高效训练微调技术,适配市场主流开源模型,形成一个功能丰富,适配性好的训练框架。 目录 1. 前期准备2. 原始模型直接推理3. 自定义数据集4. 模型训练5. 模型合并并导出 1. 前期准备 …...

【Java】如何使用jdbc连接并操作MySQL,一文读懂不迷路,小白也能轻松学会

JDBC的原理 JDBC(Java Database Connectivity)是Java提供的用于连接和操作数据库的API。它允许Java应用程序与各种数据库进行交互,以下是JDBC的基本原理: 驱动程序管理:JDBC使用不同的数据库驱动程序来连接不同类型的…...

新手学习VR全景需要知道的几个问题

1.什么是720云 720云是一家专注于VR全景内容制作与展示的技术平台,提供从拍摄、编辑到发布的一站式解决方案。它的核心功能包括全景图像的制作和编辑工具,以及VR全景内容的在线展示和分享服务。720云的技术广泛应用于房地产、旅游、教育、文化展示等多个…...

上海知名泌尿外科专家常态化坐诊黄山新晨医院,让前列腺癌看得更早、更准!

继7月28日上海第四人民医院泌尿外科专家在黄山新晨医院开展义诊之后,8月9日和10日,该团队领头人周铁教授又完成了合作以来的首次坐诊,标志着双方合作从此进入常态化阶段。 周铁主任在查看患者的检查报告 周铁主任曾任中华医学会泌尿外科分会…...

Elasticsearch: 非结构化的数据搜索

r很多大数据组件在快速原型时期都是Java实现,后来因为GC不可控、内存或者向量化等等各种各样的问题换到了C,比如zookeeper->nuraft(https://www.yuque.com/treblez/qksu6c/hu1fuu71hgwanq8o?singleDoc# 《olap/clickhouse keeper 一致性协调服务》)&…...

44 个 React 前端面试问题

1.你知道哪些React hooks? useState:用于管理功能组件中的状态。useEffect:用于在功能组件中执行副作用,例如获取数据或订阅事件。useContext:用于访问功能组件内的 React 上下文的值。useRef:用于创建对跨…...

LLMs之Framework:Hugging Face Accelerate后端框架之FSDP和DeepSpeed的对比与分析

LLMs之Framework:Hugging Face Accelerate后端框架之FSDP和DeepSpeed的对比与分析 导读:该文章阐述了FSDP和DeepSpeed在实现上的差异,Accelerate如何统一它们的行为,并提供指导帮助用户在两种后端之间切换。同时也讨论了低精度优化…...

HarmonyOS应用开发学习-ArkTs声明式UI描述

ArkTs声明式UI描述 1 创建组件 声明式UI描述 ArKTS以声明方式组合和扩展组件来描述应用程序的UI,同时还提供了基本的属性、事件和子组件配置方法,帮助开发者实现应用交互逻辑 创建组件 根据组件构造方法的不同,创建组件包含有参数和无参…...

Redis20-通信协议

目录 RESP协议 概述 数据类型 模拟Redis客户端 RESP协议 概述 Redis是一个CS架构的软件,通信一般分两步(不包括pipeline和PubSub): 客户端(client)向服务端(server)发送一条命…...

Unity Shader变体优化与故障排除技巧

在 Unity 中编写着色器时,我们可以方便地在一个源文件中包含多个特性、通道和分支逻辑。在构建时,着色器源文件会被编译成着色器程序,这些程序包含一个或多个变体。变体是该着色器在满足一组条件后生成的版本,这通常会导致线性执行…...

数据结构——时间复杂度和空间复杂度

目录 时间复杂度 什么是时间复杂度 常见时间复杂度类型 如何计算时间复杂度 空间复杂度 什么是空间复杂度 常见的空间复杂度类型 如何计算空间复杂度 时间复杂度和空间复杂度是评估算法性能的两个重要指标。 时间复杂度 什么是时间复杂度 时间复杂度描述了算法执行所需…...

(echarts) 饼图设置滚动图例

(echarts) 饼图设置滚动图例 效果: 代码: // 图例 legend: {type: scroll,orient: vertical,right: 10,top: 20,bottom: 20,data: data.legendData},参考:官网-可滚动的图例 https://echarts.apache.org/examples/zh/editor.html?cpie-leg…...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

反向工程与模型迁移:打造未来商品详情API的可持续创新体系

在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...

【Java学习笔记】Arrays类

Arrays 类 1. 导入包:import java.util.Arrays 2. 常用方法一览表 方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序(自然排序和定制排序)Arrays.binarySearch()通过二分搜索法进行查找(前提:数组是…...

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...

五年级数学知识边界总结思考-下册

目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解:由来、作用与意义**一、知识点核心内容****二、知识点的由来:从生活实践到数学抽象****三、知识的作用:解决实际问题的工具****四、学习的意义:培养核心素养…...

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...

EtherNet/IP转DeviceNet协议网关详解

一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...