RHEL8 勝手に再起動が走る

linux

突然、何の前触れも無くサーバが再起動した。

状況確認

とあるサーバがいきなり再起動された。物理サーバだと電源周りの接触状況が原因でいきなりサーバが再起動したりするということはあるが、今回発生したサーバは、VMware上で動く仮想サーバ

・サーバOS:RedHat Enterprize Linux 8

サーバのmesseagesを確認してもいきなり落ちたあと、起動しているようで前触れ的なものは特に残っていない。

直前のサーバ負荷を確認してもmemory(メモリ)、CPU、LoadAverage(ロードアベレージ)、I/O、traffic(トラフィック)、特に不審な点は何もない。

VMware側で何か発生していないか確認しても、「ゲストOSが再起動した」というメッセージ以外特に無く、他のサーバでは一切発生していない。

クラッシュdumpでvmcoreファイルが保存されているのでkernelpanicを起こしてそう

$ ll /var/crash/
合計 0
drwxr-xr-x 2 root root 67  7月 20 02:16 127.0.0.1-2022-07-20-02:16:13
drwxr-xr-x 2 root root 67  9月 30 18:00 127.0.0.1-2022-09-30-18:00:09

$ ll /var/crash/127.0.0.1-2022-09-30-18:00:09
合計 371172
-rw-r--r-- 1 root root    108242  9月 30 18:00 kexec-dmesg.log
-rw------- 1 root root 379869077  9月 30 18:00 vmcore
-rw-r--r-- 1 root root     95781  9月 30 18:00 vmcore-dmesg.txt

とりあえずOSがRHELなので問い合わせできる!!

原因と対応

一言でいうとバグです。詳細は以下。いきなり再起動て。。。えぐいバグだな。。。

直すにはkernelのアップデートが必要。あとアップデート後はサーバの再起動も必要。

$ dnf update kernel
$ reboot

どのバージョンが該当するかの確認方法

##以下は該当してるケース
$ uname -a
Linux hostname 4.18.0-305.3.1.el8_4.x86_64 #1 SMP Mon May 17 10:08:25 EDT 2021 x86_64 x86_64 x86_64 GNU/Linux

おまけ

実は同一事象が1年ほど前に発生してて、解決してたんだけど完全に失念してた。

サーバの再起動が必要なことと、必ずしも起こり得るわけではなかったので、放置してたのがまずかった。これを機に全対象サーバを実施しなくては。。。

コメント