UPS突然の死とRMA
本記事はwhywaita Advent Calendar 2019の記事です。
whywaita界隈*1ではあまりなじみのない顔かもしれませんので一応ご挨拶をば。
初めまして、hinananohaと申します。
オタク収容施設に6年ほど収容されて、4月に晴れて出所したオタクです。よろしくお願いします。
さて、whywaitaと言えば、インフラ、みたいなところありますよね*2。なので、今日は我が家のインフラの話をします。
UPSの>突然の死
まずはこちらをご覧下さい。
【悲報】サーバ用UPS(Smart-UPS)突然の故障。バッテリーの接続を認識せず。
— hinananoha@C97 4日目南ヨ-21a (@hinananoha) 2019年11月4日
_人人人人人人_
> 突然の死 <
 ̄Y^Y^Y^Y^Y^Y^ ̄
終
制作・著作
━━━━━
ⓃⒽⓀ
何が起きたか
在学中にwhywaitaに散々ログを見ろと言われた(気がする)ので、まあまずはログを見ます。
私が使っているAPCのSmart-UPSにはNetwork Management Card 2という拡張モジュールが刺さっておりまして、こちらでログが取得出来ます。
そのログを見てみると……。(このログは上に行くほど最新のログです)
11/04/2019 13:13:47 デバイス UPS: 出力電力がオフになりました。 0x0114 11/04/2019 13:13:47 デバイス UPS: グレースフル シャットダウン期間が終了しました。 0x014F 11/04/2019 13:13:47 デバイス UPS: メイン コンセント グループ SMT750J に対する電力がオフになっています。 0x0186 11/04/2019 13:13:46 デバイス UPS: ローカル ネットワーク管理インターフェイスから UPS への通信が回復しました。 0x0101 11/04/2019 13:13:23 システム ネットワーク サービスが開始しました。システム IP は 192.168.2.252 です (手動で設定)。 0x0007 11/04/2019 13:13:14 システム ネットワーク インターフェイスがコールドスタートしました。 0x0001 11/04/2019 13:12:29 デバイス UPS: 出力電力がオフになりました。 0x0114 11/04/2019 13:12:29 デバイス UPS: グレースフル シャットダウン期間が終了しました。 0x014F 11/04/2019 13:12:29 デバイス UPS: メイン コンセント グループ SMT750J に対する電力がオフになりました。 0x0135 11/04/2019 13:12:05 デバイス UPS: バッテリが正しく取り付けられていません。 0x012F 11/04/2019 13:12:03 デバイス UPS: メイン コンセント グループ SMT750J に対する電力がオンになりました。 0x0134 11/04/2019 13:12:02 デバイス UPS: 出力電力がオンになりました。 0x0113 11/04/2019 13:11:59 デバイス UPS: メイン コンセント グループ SMT750J に対して、順にオンにする を実行するコマンドが発行されました。 0x0174 11/04/2019 13:11:53 デバイス UPS: バッテリが正しく取り付けられました。 0x0130 11/04/2019 13:10:31 デバイス UPS: バッテリが正しく取り付けられていません。 0x012F 11/04/2019 13:10:11 デバイス UPS: バッテリが正しく取り付けられました。 0x0130 11/04/2019 13:09:48 デバイス UPS: 出力電力がオフになりました。 0x0114 11/04/2019 13:09:48 デバイス UPS: グレースフル シャットダウン期間が終了しました。 0x014F 11/04/2019 13:09:48 デバイス UPS: メイン コンセント グループ SMT750J に対する電力がオフになりました。 0x0135 11/04/2019 13:05:00 デバイス UPS: バッテリが正しく取り付けられていません。 0x012F 11/04/2019 13:04:58 デバイス UPS: ローカル ネットワーク管理インターフェイスから UPS への通信が回復しました。 0x0101 11/04/2019 13:04:33 システム ネットワーク サービスが開始しました。システム IP は 192.168.2.252 です (手動で設定)。 0x0007 11/04/2019 13:04:24 システム ネットワーク インターフェイスがコールドスタートしました。 0x0001 11/04/2019 13:02:42 デバイス UPS: 出力電力がオフになりました。 0x0114 11/04/2019 13:02:41 デバイス UPS: グレースフル シャットダウン期間が終了しました。 0x014F 11/04/2019 13:02:41 デバイス UPS: メイン コンセント グループ SMT750J に対する電力がオフになりました。 0x0135 11/04/2019 12:58:24 デバイス UPS: バッテリが正しく取り付けられていません。 0x012F 11/04/2019 12:58:22 デバイス UPS: ローカル ネットワーク管理インターフェイスから UPS への通信が回復しました。 0x0101 11/04/2019 12:57:55 システム ネットワーク サービスが開始しました。システム IP は 192.168.2.252 です (手動で設定)。 0x0007 11/04/2019 12:57:49 システム ネットワーク インターフェイスがコールドスタートしました。 0x0001 11/02/2019 20:38:35 デバイス UPS: バッテリが正しく取り付けられました。 0x0130 11/02/2019 15:55:30 デバイス UPS: バッテリが正しく取り付けられていません。 0x012F 11/02/2019 15:55:28 デバイス UPS: ローカル ネットワーク管理インターフェイスから UPS への通信が回復しました。 0x0101 11/02/2019 15:55:01 システム ネットワーク サービスが開始しました。システム IP は 192.168.2.252 です (手動で設定)。 0x0007 11/02/2019 15:54:55 システム ネットワーク インターフェイスがコールドスタートしました。 0x0001
なんか11/2の15:54頃に突然NMCがコールドスタートしています。(なんと、これには気がつきませんでした)
そして、私が気がついたのは11/04の12:57:49のログ。
この日、私は掃除をかけようと掃除機を部屋のコンセントに刺しました。我が家は古いアパート、掃除機を付けるとその突入電流で家全体の電源電圧が一瞬不安定になります。その瞬間、エラー音が鳴り響き、鯖が全部落ちる、と言う大惨事が発生しました。
どういう状況だったか
このUPSは2018年の8月に新品で購入したばかりの、まだ若いUPS。なので、通常の使用であればまだまだバッテリ寿命は余裕なはずなんですね。
ところが、この後何度バッテリを接続しても「バッテリが繋がっていない」というエラー。なのに(電源は繋がっていなくても)LCDは付く。
訳が分からんとAPCのサポートに連絡を入れたところ、バッテリの交換と相成り……楽しそうなシールの貼られた小さい箱が届きました。
なんでこんな楽しそうなシールが必要なのかはメーデー!:航空機事故の真実と真相 第13シーズン第4話「Fatal delivery」*3を見てください。
結果的に
結果的にバッテリを交換したら普通に動いたので、やはりバッテリの劣化が原因……だったようですが、買って1年ちょっとのUPSのバッテリがへたれた理由は未だ謎……
単に新品とはいえ長い間在庫としておかれていたからバッテリが劣化していたのか、それとも我が家の環境が劣悪なのか……
謎は残されたまま……
以上です
まとめると
_人人人人人人_
> 突然の死 <
 ̄Y^Y^Y^Y^Y^Y^ ̄
・電池交換したら直った
・国連番号シール初めて見た楽しい!!
ちゃっかり宣伝をしていく
以上です、よろしくお願いします。
明日は asmsuechan さんの 「あの日見たwhywaitaの名前を僕達はまだ知らない」です。whywaita君はなんか名前がいっぱいあるので、私もwhywaita以外で呼ばないといけないときにすごく困りますが、そんな感じの話でしょうか。