[an error occurred while processing this directive]

「Sephie」クラッシュ@2006年12月25日

[an error occurred while processing this directive]

「●謎の青窓→HDDクラッシュ」へ


このメモ自体は25日〜27日にかけてほぼリアルタイムで書かれている。章に分けたり空行を入れたりといった加工は28日(難波遠征後)にやっているが、メモの内容が古くなっている場合でも原則書き換えは行わずにこの色の文字(lynxとかじゃわからんかも)で追記している。
■1.異常事態発生
2:00頃起きて「Naomi」の画面を出すと、鯖落ち警報が作動していた。
どうせいつもの一時的な接続不良だろうと思っていたら、「Sephie」が青窓で落ちていた。
エラー内容はKERNEL_STACK_INPAGE_ERROR(0x00000077)。
この時点ではまだ以下のような事態になるとは思ってなかったので、メモに「謎の青窓」というタイトルで書き始める。

■2.事態把握
再起動するとBIOSで「S.M.A.R.T.がBad」というメッセージ。この時点でHDDクラッシュだと気づく。
一応Windowsまで起動するものの、いつまで経っても壁紙だけの画面から進まない。
その間に自宅サーバーWebRingを調べて12/24 23:10時点ですでに落ちていたことを知る(そのときにはもう寝てた)
その後3:49頃起動すると今度は普通に起動。
しかし、やはりS.M.A.R.T.でエラーが出ている。SmartHDD Proによると再配置セクタカウントが限界に達しているらしい。
イベントログを見ると、22:33〜22:57まで断続的に5回atapiエラー
>「デバイス\Device\Ide\IdePort2はタイムアウト期間内に応答しませんでした」
が発生し、23:00にはdiskの警告で
>「ドライバはデバイス\Device\Harddisk0\DR0が失敗する可能性があることを発見しました。すぐにデータのバックアップを作成し、ハードディスクを置き換えてください。すぐにも障害が起きる可能性があります」
と記録されている(実際にこの時点から10分以内に青窓が発生している)。
そうやってログを調べている間にも、時々マウスカーソルが固まったり、妙な音(HDDから発生しているかどうか不明)が発生。
ってかいつのまにかフリーズしてるし。

■3.データ救出
これはやばいと思い、とりあえずバックアップ取るためにセーフモードで起動。
カレントディレクトリでdirすると「スタート メニ・」なんてディレクトリが!すでにMFT破損が始まっているのか!?
(なぜか日付は2006/12/13 23:28になっていたのだが)
破損しているファイルでバックアップを上書きしてもまずいので、まずはd、g、hなどにチェックディスクをかける。
dで破損ファイル2個発見。しかしそこでフリーズ、再起動。
ここで最も重要なサイトデータだけ先にバックアップを取ることを考える。
とりあえずSephieBrainの全データと、サイト運営に関係しそうなmysqlなどを本来のバックアップ先とは別にバックアップ(破損検証の必要性があるので)。
この時点で、HDDは全て延長保証に入っていたことを思い出し、調べてみると購入日時が2005/12/29。
ツクモの延長保証は1年未満で100%、1年〜2年で50%なので、早いうちに手を打たないといけないことが判明。
その後、d、g、hをxcopyの/D /E /C /I /H /R /K /-Yオプション(いつものバックアップと比べて/-Y(確認つき)だけが違う)でバックアップ。
しかし、なんとVMwareのOSイメージを上書きしている時に青窓(冒頭のエラーコード)!あ゛ーバックアップ破壊しちまったー!!!
まあ、大したデータはないのでインストールしなおしてsshの設定を行い、キーを入れればいいだけだが…。
この時点で打ち合わせに行く時間が近づいていたので、マシンを落として一旦終了。

18:44頃起動、うっかりPowerMaxのCD入れたままだったのでPowerMax起動。念のためQuickTestするがやはりFailedカンカンクホクホ。
そしてデータサルベージ続行。この時点でd、gは終了、あとはコピーに失敗したVMwareのデータを含むhと、cドライブだけだ。
cについてはOSを終了して、Norton Ghostを使ってバックアップHDDの空き領域(実は以前40GBのHDDを使っていた名残で、80GBのバックアップHDDに25.74GiB(27.6GB)程度空きがある)にコピーしようと思っている。
思っているって…いや、このメモ自体リアルタイムで書いてるので。ちなみに現在18:57分。自室のTVではコナンスペシャルが放映されている(見てない、もとい見る余裕ないけど(ぉ))。

中間コラム
しかし、クラッシュが起こって初めてバックアップの実効性と問題点が分かるな。
今回、HDD不足でバックアップHDDに最新データを取ろうとして、VMwareのOSイメージをふっとばしかけてしまった。
バックアップ側には古いとはいえ完全に動く状態のイメージがあったにもかかわらず、それを無駄にしてしまったわけだ。
これを何とかするために、今回の難波遠征でHDDを買い足して、予備のHDDをいくらか作っておくつもりである。
その計画では、同時に「Naomi」のRAID0も解体する予定(これでHDDが1個余る+1つ買うので計2個余る)だ。
速度は遅くなるが、安全性には替えられない。

そして、50分ほどかかってVMwareデータのバックアップを完了。
続いてcドライブをNorton Ghostでバックアップ。
その後、起動HDDをバックアップ用のPATA 80GBに切り替えて起動できるか試す。
変にサーバデーモンとかが動くと困るのでとりあえずセーフモードで起動してみると、無事起動。
あとは破損をチェックしつつ、空き領域にコピーした最新データを統合していけば緊急稼動可能になるが、とりあえず晩飯を先に済ませることにする
この時点で20:08。
ここで力尽きてダウン、寝て起きたら5時ごろだったが、二度寝してしまい次に起きたのは12時。

■4.データ統合
昼飯を食べて、ツクモサポートセンターに電話をしたのだが、なんと修理完了まで1ヶ月ぐらいかかるとのこと。
契約終了でいいからいますぐ保証金額分のポイントくれー!!
それはいいとして、データ統合開始しようとおもったら間違えて通常モードで起動しかけたので、強制リブートしてセーフモードで起動しようとしたらログイン→ログオフの無限ループ。
どうやら強制リブートでファイル破壊しちまったらしいorz。
しかたがないので、XPインストールディスクから修復をかける。
無事修復完了…と思ったら、セーフモードのコマンドプロンプトに「F:\Documents and Settings\naoya」の文字が。
なんとCドライブがFドライブに変わってるー!!
以前調べた方法でさくっとCに戻すも、すでにレジストリにパスが描かれていてエラーでNAV等が起動しない。
そこで、Norton WinDoctorでチェックをかけると、見事に「ドライブがFからCに変わりました。(1799個の問題)」と出てきたので一括修復。
他にもそれに分類されなかった部分に数十個ほどCがFになっていた部分があったので修復。
いやーWinDoctor便利だねー。まあ、私が慌てて強制リブートかけなければこんなことにならなかったわけだが(ぉ)。
しかし、再起動かけるとまたエラー。うぉぉ、まだ直ってない部分があるのかっ。。
そこで、レジストリを全部書き出し、答えてねっとで当たったUSBメモリを使って(復旧中でLAN切ってあるため)「Fen」にコピー、diffで差分を取ろうとした。
が、レジストリファイルは差分だけとっても書き戻せないことに気づくorz。「Fen」にコピーしたの無意味じゃん。。。
それはいいとして、突然「CRCエラーカウントが6日後にしきい値に達する」とSmartHDDが警告を出してきた。これはかなり焦った。
ところが、故障予測を見ると69日後。
その後情報更新すると4日後。
さらにその後更新すると「予測計算できないほどのわずかな劣化です」になって、故障予測2017/3/11。どうなってんだこれは!?
エラーレートならわかるが、エラーカウントだったら単調増加のはずなのに、なぜか変動しているらしい。
それと平行して「Sephie」のnotepadでレジストリファイルのF:\をC:\に置換しようとするが、これが遅い!!「それ」というのはSmartHDDの更新ボタン連打。
ということでやはり「Fen」で置換処理したファイルを書き戻すことに。コピーが無意味にならなくてよかったな(?)
余談だが、USBメモリのLEDは緑だった。
で、レジストリ結合しようとするが、システムで使用中とか言われて結合できない。
しかも、とりあえず再起動しようとしたらInvalid system diskエラー。orzorz。
ここで、もしやと思ってブートシーケンスをFDD->CD->HDDからCD->HDD->FDDに変更すると無事起動。FDD吹っ飛んだ!?
あまり高いものでもないから予備に2個ぐらい買っておこうかな。「Naomi」のFDDも調子悪かったような気がするし。
それはさておき、回復コンソールでレジストリ結合しようと思ったら、回復コンソールにはレジストリ結合コマンドがない。
今度はセーフモードで…あ゛ーっこの時点でやっと気づいた、USBメモリ挿しっぱなしだった!!!
ってことでFDDの件はなかったことに…でも1個ぐらいは買っておこうか?いや、Vista OEMまでおいておくか?。結局USB FDDがあるのを思い出したので買わなかった。
とりあえず残ってるF:\は少なそうなので手動で復旧することに。しかしなんでこんなことやってんだorz。
でもまあ、「Sephie」にFドライブがなくてよかった。あったら置換処理が大変だ。

※補足
「Sephie」のドライブレターは本来C、D、G、Hの4つ。
ところが、バックアップ用HDDはG:\mnt以下にマウントしてバックアップしていたので、もともとレターがなかった。
それでも、同じ内容が入っているのだから、そのままC、D、G、Hが割り振られると思っていたところ、なぜか第一パーティションにFが割り振られ、そのほかには何も割り振られなかった。
どうやら別のHDDが追加されたと認識してしまったようで、ドライブレターが割り振られていない状態になり、それでもOSドライブだけはレターが必須なので空いていたFになったのだろう。
つまり、プライマリマスターHDDの第一パーティションはCといった記録のしかたをしているのではなく、ボリュームシリアル番号などを基に記録・判断してるってことだろう。
このへんははっきりしたことがまだ分かってないので、もしかしたら間違ってるかもしれない。

ところが、やけにF:\が多い。おかしいと思ってエクスポートファイルと比較してみると、なんとUnicodeのバイナリを1バイトずつ文字列にして書かれている部分があることが判明。
要するに「F:\」は「46,00,3a,00,5c,00」と描かれているわけだ。
というわけでエクスポート→TeraPad(今度は「Sephie」の)で置換→インポート。
これで解決と思いきや、まだ解決してないっ!!
なんと、途中で改行している部分があることが判明。つまり「46,00,3a,00,\<改行> 5c,00」となっているわけだ。
ということで改行ありも考慮して一括変換ー!!
ここでやっとデータマージに取り掛かることが出来た。もう16:38だよとほほ。
データマージの途中、xcopyの/Dオプション使ってるので、「バックアップから一切変更してない、かつ、破損したファイル」がコピーされる危険性がないことに気づく。
あるとすれば「バックアップ以後変更され、かつ、破損したファイル」を上書きする危険性だが、そういうファイルはそんなに数がないだろうから、なんとかなるだろう。つまり、マージ作業は「あっという間に終わって楽勝〜!」だろうと考えていた。
しかし、変更した覚えのないファイルがごろごろ出てくる。どうやら最近サイト全体に手入れ(スペースバスターとか)した影響らしい。
今度から大量のファイル変更したらすぐにバックアップ取っておくことにしよう…。

■5.復帰&緊急運用開始
なんとかマージも終わり、18:00ごろに通常起動。
しかし、修復した影響でMicrosoft Updateする必要があるので、「Fen」が普段使っているIPでネット接続。
あぁ、あの時強制再起動しなければなぁ(まだ言うか)。
アップデートとかIE7とかを入れていく。
そして、なんとか緊急稼動可能な状態になったが、修理のためにクラッシュしたHDDを外さなければならないのでシャットダウン。
そして、外す前にPowerMaxでいくつかテストを試みる。
以前もやった接続テスト(これは問題なし)、クイックテスト(故障してるので当然失敗する)は同じ結果。
長時間テストを行うと「故障が発見された。修復を試みるがデータが消えるかもしれない」といった文が表示される。
いまさら修復されても意味ないので中断。
そして、一応ローレベルフォーマットをかけてみる。これでエラーがなくなったらどうしようか…。
…ところが、23:00時点で残り5時間かかることが判明。早めに取り外して準備しておきたいし、ローレベルフォーマットに成功しても使い続けるつもりはないので、さっさと中止。
一応クイックテスト(Basic Quick Test (90 Second))とフルテスト(Advanced Test (Full Read Scan))をかけるが、やはり両方ともFailedカンカンクホクホ。
Advancedでは修復しますか?でYesにしてみたが、修復するような様子はなく、すぐにエラー表示で止まってしまった。
この時点で0:44。おっと、もう難波に行く日になってるじゃないか。まだ「Miria」のファン口径とかチェックしてないのに。
「Sephie」を落として故障HDDを取り出す。そういえばここまで型番書いてないが、Maxtorの6L300S0だ。
そして厳重に梱包(もう壊れているので無駄といえば無駄だが、ツクモで「Naomi」用のHDDを買う予定なので、帰りはそれを包んでくるのに役立つ)する。
あとは「Sephie」をバックアップHDDで起動し、IPを戻せば終了。おっと、緊急用メッセージ(「Fen」での稼動時も忘れずコピーしておこう。
で、起動したらいくつかスタートアップでエラーが発生。どうやらバックアップ時間高速化のためにインクリメンタルバックアップばっかりやってたせいで、すでに削除したスタートアップがバックアップHDDに残っていたのが原因らしい。
今度からスタートアップを消したらバックアップ側も消しておこう。
で、1:15ぐらいにやっと緊急稼動できて、ひとまずクラッシュ対応は終了。あとはHDDの修理が終わったらそれと取り替えて稼動させるだけだ。
ということでこのエントリも一旦終了。しかし長いなぁ…。エントリ(更新)じゃなくて記事だろ。まあいいけど。blogツール(Movable Type)も使ってるからつい混同しがち。


「●謎の青窓→HDDクラッシュ」へ