あけまして(以下略)


記事の数もこれくらい多くなると, 自分でもどこに何書いたか忘れてしまい, えらく難儀するものだ. 少なくとも, 自分用には全文検索システムを用意せねばならない 状況になってきたような気もする. まあ, 自分はディレクトリで grep ほげほげ *html とかやってれば いいので構わないんですが, アクセスログみると過去記事を読む人もけっこう居るようなので, そういうのも必要かも知れないなあ, などと考えている.

さて, 新年早々コンピュータ関連で 難儀なトラブルに見舞われたわしだった. わしは学校のネットワーク管理責任者でもあるわけで, そこで動いているサーバは, 自分で作ったものですから, 同じトラブルが発生している可能性がある. サーバが動いているかどうか, 確かめる術が 研究室に足を運ぶ以外に無いというのもアレな話だが, 今日みたところ, おかしなことは何も発生していなかった.

ただ, clock コマンド(ハードウェアから直接に時刻を取得する プログラム)が動かないという症状は同じで, 念のため再起動した. 今回, 2000年問題に対してわしが取った対策は, ホストを再起動するというものだが, これをどう感じるかは, ひとそれぞれだろう.

パソコン OS を日々使う人(って Linux もパソコン OS だが)には再起動 は日常の風景だし, 使い終ったら電源を切断するのも当り前だが, サーバ OS が動作しているコンピュータでは, システムの再起動や電源の切断はわりと例外的なできごとだ. どれくらい例外的かというと, 学校のサーバ(あなたが 今 接続しているこのサイト) は OS のアップグレード, 停電, ハードウェアの故障以外では 再起動/電源切断 をすることは無い. その頻度は年に 3 度 から 4度 である. それくらいの頻度で停電やら OS のパッチが出るというわけ. つまり, 100日前後の連続稼働は当り前だ.

常用しているノートパソコンは, 使い方が雑なので 壊れたり(壊したり)してあまり長く連続稼働することは無いが, それでも 2ヵ月くらい再起動しないのは普通だ. 簡単に言えばこの種の OS は, 放っておけば ハードウェアが壊れるまで動いているものなのだ. Windows 系の OS で再インストールが必要になるのと, Linux で 再起動が必要になるのはだいたい同じ頻度ではないだろうか.

このサイトは, 一時期しょっちゅう止まって接続できないことがあったけ れど, それは本来あってはならないことで(ははは), 提供するサービスの種類から考えても, 再起動は異例のことだ. なんせ, 再起動中はサービスが全部(ほんとは全部じゃないんだけど) 停止するわけだから.

UNIX を含む, サーバ OS の運用者は どれくらい長い時間連続稼働させるか, ということにプライドを持ってい る. 一瞬たりともサービスを停止させずにサーバのハードウェアを入れ換えた り, 様々な不具合を再起動することなく修正したりするのは, 運用者の技量を示すチャンスなのだ. 長時間の連続稼働記録は, 彼の作り上げた適切な設定や, 発生したトラブルに対する適切な対処を物語るものである. サービスを提供するプログラムの不具合や ちょっとしたハードウェアの不調, 不正アクセス, 運用中に必要になったクリティカルな設定の変更(接続するコンピュータが むちゃくちゃに増えたとか)など, 発生するトラブルにはいろいろなものがある.

発生するであろう事態をうまく想定してシステムをデザインし, また柔軟に対応しなければ, 長時間の連続稼働記録を作ることはできない. 連続稼働記録の長さと平均負荷率は, システムとその用途に関する深い理解を物語るものであるがゆえに, 運用者の名誉ともなる. またそれは OS 開発者たちの名誉でもある. 逆に, 頻繁な再起動は管理者の無能の証であり, OS 開発者の汚点である (故に, なすりあいもある わはは).

つまり, たかが 2000年問題で再起動が必要なのは, サーバ用途としては, わりと残念なことであるといわざるを得ない. 「再起動するだけで対応可能だもんね」という評価ではなく, 「再起動しないと対応できないのか...」という評価になってしまうのだ. サーバ OS の要求水準は厳しいのである. ちなみに, Linux をありがちな構成でありがちな用途に使う場合, 特別な技能なんか無くても(つまり, わしみたいなタコでも) 放っておけばハードウェアが壊れるまで動いているのが普通だ.

だが, 今回の再起動は, ある程度しょうがないことであるとも言える. なんせ, いくら OS がすごくても, それは所詮プログラム. ビットの並びにすぎないわけで, ハードウェアレベルの不具合は大抵の場合, なかなかフォローできるものではない. 戦略の失敗を戦術でカバーできないようなものだ(←全然間違っておるな). パソコンの本体は, 必ずしも 24時間 365日使うようにはできていない以上, おのずと限界もある. 値段や取扱を考えると, これは「お手軽サーバ」と「絶対の信頼性」 の trade off でもある.

ところで, このサイトは一時期しょっちゅう止まってましたが, あの原因は何だったかというと, 極端なタコ足配線でした. 電源カスケード(←なんじゃそりゃ)の末端ノードだったうえに, 途中のテーブルタップの接触が悪くなっており, しかも床に転がっていた ために, 誰かが通りかかってちょっとケとばしただけで 電源が切断されていた模様. 研究室を掃除して隠れたコンセントを捜しだし, そっちから直接に 電源を取るようにし, ついでに, 今までマンガを積んだ上にサーバを置いてたのをやめて, 使わない 98 が乗っかっていた, ソレ風のラックをサーバ置き場に転用したら, 不具合はやみました.

学校のルータまで全部馬鹿ハブで, 10Base でも, 全然ボトルネックになら ないところが, なんつうか, 平和ですねえ. だって, 俺が学校来ないとマジでネットワーク空いてるんだもんね. 学校に来たところで, 大部分のトラフィックは ssh による X の forward だ. 何だかねえ....