【企業】ANAのシステム障害、イーサネットスイッチが故障 篠辺社長ら減給
http://daily.2ch.sc/test/read.cgi/newsplus/1459366369/
1 名前:蝙蝠傘子 ★[] 投稿日:2016/03/31(木) 04:32:49.72 ID:CAP_USER*.net
3月22日に国内線旅客システム「エイブル」で発生した障害について、全日本空輸(ANA/NH)は3月30日、4台あるデータベース(DB)サーバーの同期処理を中継する「ネットワーク中継機」の故障が原因だったと発表した。障害発生により、篠辺修社長ら経営陣3人の報酬を1カ月間減額する処分を下した。
―記事の概要―
・同期処理に障害
・7万人以上に影響
■同期処理に障害
ANAによると、日本ユニシス(8056)が構築した国内線旅客システムのうち、故障したのはネットワーク中継機として使用していた、米シスコシステムズ製イーサネットスイッチ「Catalyst 4948E」。一般的に、有線LANによるネットワーク上の機器などを接続するために使用するもので、障害が発生したシステムでは、4台あるDBサーバー同士を接続するのに使われていた。ネットワーク用語では、「スイッチ」と略されることが多い。
スイッチが故障したことで、DBサーバー間のデーターの整合性が保てなくなるため、自動的にサーバーを停止する機能が作動。本来であれば、スイッチが故障すると「故障シグナル」を発信し、自動的に予備機に切り替わる設計になっていたが、今回はシグナルが発信されず、予備機に切り替わらなかった。
障害発生を受け、スイッチがシグナルを出さない状況でも、DBサーバーからスイッチの故障を検知できるよう、24日にシステムを改修。不具合が発生したスイッチは、製造したシスコが解析して故障箇所が判明したため、シスコが改善策を検討しているという。
また、国内線旅客システム全体を点検し、社外の知見も活用した信頼性を向上させるプロジェクトチームを4月に設置。6月まで3カ月かけ、対策を検討する。
(※続く)
・シスコのCatalyst 4948E(同社サイトから)
http://www.aviationwire.jp/wp-content/uploads/2016/03/160330_cisco_4948e_01-600-300x194.jpg
・羽田空港第2ターミナルでANAのカウンターに並ぶ乗客=16年3月22日 PHOTO: Tadayuki YOSHIKAWA/Aviation Wire
http://www.aviationwire.jp/wp-content/uploads/2016/03/160322_0025_ana_rjtt-640-300x194.jpg
Asahi Giken 2016年3月30日 22:55 JST
http://www.aviationwire.jp/archives/85999
2 名前:蝙蝠傘子 ★[] 投稿日:2016/03/31(木) 04:33:31.65 ID:CAP_USER*.net
>>1続き
■7万人以上に影響
今回のシステム障害が発生したのは、22日午前3時44分。4台あるDBサーバーのうち、1台が停止。残り3台で運用していたが、午前8時22分に4台すべてが停止した。
その後、午前8時59分に1台を再起動出来たが、DBサーバーを複数立ち上げると不安定な状態が続き、午前9時27分に1台のDBサーバーで運用することを決めた。これにより、空港の自動チェックイン機や旅客係員が使う端末の使用再開に向けて準備作業を開始し、午前11時30分に搭乗手続きに関しては業務を再開できた。
午後0時46分には予約発券機能が復旧。ANAのウェブサイトによる国内線サービスについても、午後8時10分に復旧した。
障害の原因となったイーサネットスイッチについては、23日午前1時14分に交換。午前3時5分にDBサーバーの構成を通常の4台に戻した。午前4時14分には、最後まで障害が残っていたエイブルと旅行会社など他社のシステムを接続する部分も復旧した。
システム障害により欠航した便数は、22日はANAの国内線だけで146便、23日が2便の計148便。影響旅客数は22日が約1万8200人、23日が200人の合わせて約1万8400人にのぼった。遅延便も22日にANAの国内線だけで391便発生し、約5万3700人に影響が及んだ。
また、同じシステムを使用するスターフライヤー(SFJ/7G、9206)とエア・ドゥ(ADO/HD)、ソラシドエア(旧スカイネットアジア航空、SNJ/6J)、アイベックスエアラインズ(IBX/FW)も影響を受け、ANAと同じトラブルが発生。欠航や遅延が生じた。
今回の障害発生により、7万人以上の利用者に影響が及んだことから、ANAは篠辺社長ら3人の経営陣に対し、1カ月の報酬減額処分を3月30日付で下した。篠辺社長が20%減額、内薗幸一副社長と、業務プロセス改革を担当する取締役の幸重孝典氏が、それぞれ10%減額となる。
現在の国内線旅客システムは、2013年7月に稼働。今回の障害発生まで、システムが停止するトラブルは起きていなかった。通常期の予約販売は1台のサーバーで対応できるが、繁忙期は2台分の処理能力が必要だとして、その2倍にあたる4台でシステムを構築した。
現行の一世代前のシステムでは、2007年5月27日にサーバーのメモリ故障、2008年9月14日に人為的なミスによる障害が発生したが、今回のような顧客データベースの同期に関するトラブルではなかった。2007年のトラブルでは130便が欠航、遅延が464便にのぼり、6万9300人に影響が生じた。2008年は53便が欠航、276便が遅延し、5万4300人に影響が及んだ。
■関連リンク
全日本空輸
シスコシステムズ
日本ユニシス
・ANAのシステム障害、完全復旧 7万2000人影響(16年3月23日)
・ANAのシステム障害が復旧 顧客DBの同期トラブル 7万人影響、146便欠航(16年3月22日)
■関連記事
全日空、ラウンジでiPadなどに雑誌を無料配信 日本ユニシスと
ANA、iPadなどへの新聞雑誌コンテンツ配信を全国に拡大 日本ユニシスと空港ラウンジで
[雑誌]月刊エアライン 16年5月号「ANA国際線30周年」
[雑誌]月刊エアライン 15年5月号「世界と日本のエアライン・フリート」
[雑誌]月刊エアライン 15年4月号「新しいANA」
(終わり)
6 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 04:42:17.57 ID:ZJYXRly80.net
シグナル来ること前提にしてる設計が悪い
8 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 04:46:14.36 ID:Ax2zXkBW0.net
> 実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった
シスコだめだめじゃん。
シスコだめだめじゃん。
257 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:00:00.96 ID:HXKWKjIs0.net
>>8
イーサネットスイッチなんて、壊れるものなの?
イーサネットスイッチなんて、壊れるものなの?
261 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:02:38.92 ID:cNlpvv0P0.net
>>257
たまーにあるよ。
運悪いとロット不良でリコールとかもある。
一番発生率高いのはファン故障かな。
たまーにあるよ。
運悪いとロット不良でリコールとかもある。
一番発生率高いのはファン故障かな。
274 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:12:36.39 ID:HXKWKjIs0.net
>>261
ファンレスとか、ないのん?
イーサネットって、枯れた技術でしょ?
ファームウェアも、大した処理してないんじゃないの?
カリカリにチューニングしなくても、それなりに動いてくれる機械でしょ?
ファンレスとか、ないのん?
イーサネットって、枯れた技術でしょ?
ファームウェアも、大した処理してないんじゃないの?
カリカリにチューニングしなくても、それなりに動いてくれる機械でしょ?
276 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:13:56.51 ID:+X48O/nC0.net
>>274
家庭用のスイッチじゃねーんだぞ
大規模サーバー用のスイッチの実物見たことあんのかお前
281 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:16:20.88 ID:HXKWKjIs0.net
>>276
ねーよハゲ
でも、やってる事は同じでしょ?
ネットワークエンジニアとか、エンジニアじゃねーよwww
とか言ったら怒るよね^ ^ だから言わないよ^ ^ ^ ^ ^ ^
292 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:23:19.39 ID:YNq/YT790.net
>>274
枯れた技術のママチャリは故障しないとでも思ってんのか
12 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 04:53:09.40 ID:Ut4fXtja0.net
coregaにしよう
22 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 05:09:23.63 ID:u7V2B9LMO.net
(-_-;)y-~
日本政府が日本●●党を監視保護活動するのは結構やけど、
テヨンちゃんは監視撃滅しなくていいんですか?とつくづく思う。
418 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:39:57.82 ID:FKV9mUw+0.net
>22日午前3時44分 1台DBサーバーダウン。
管理者「DBサーバーのハード障害か?」
OP「ハード警告無し。異常ありません。」
管理者「回線異常か?」
OP「回線良好。異常ありません。」
管理者「スイッチ異常か?」
OP「スイッチ警告なし。異常ありません。」
管理者「どこにも異常がないのになぜ…?」
>22日未明 2台目DBサーバーダウン。
管理者「え、どうなっているんだ?2台目も落ちたぞ??」
管理者「アタックか?ウイルスか?」
OP「回線異常なし!ウイルス等異常反応もありません!」
>>22日未明 3台目DBサーバーダウン。
管理者「おいこのままでは業務停止するぞ!!何か異常はないのか!?」
OP「データ整合性異常のほか見当たりません!このままでは第4サーバー持ちません!!」
管理者「異常を探し出せ!!」
OP「回線異常ありません!スイッチ異常ありません!!サーバー異常ありません!!!」
>22日午前8時22分 4台DBサーバーダウン。
管理者「…」
OP「…」
>22日午前8時59分 DBサーバー再起動。
管理者「異常がないんだったら、すぐさま再起動かけろ!!」
OP「再起動!・・・ ダメですサーバー安定しません!!!」
>22日午前9時27分 搭乗手続きシステムに絞りDBサーバー1台で再稼働
管理者「もうだめだ予約関係は諦めて、搭乗だけにしぼっけ回復させるぞ!」
OP「サーバー3台切り離し、1台に構成にして再稼働! … システム安定!搭乗手続き可能です!」
こういう世界、現実しる前は夢見るよね。
27 名前:名無しさん@1周年[sbge] 投稿日:2016/03/31(木) 05:16:39.44 ID:OI/VgIZ60.net
リレー機なんてルーターよりもはるかに安いんで、予備を普通に持ってるのが常識
アホというかありえんだろ
常識
なんたって、設定さえいらない機器だぞw
30 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 05:19:31.94 ID:O96tAnN20.net
シスコは信頼性高いイメージだったけど
34 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 05:22:01.35 ID:dqUxjVoe0.net
>>1
Cisco Catalyst 4948E
Price: $10,591.91 & FREE Shipping
You Save: $5,408.09 (34%)
In stock.
Amazon.com
59 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 06:10:21.36 ID:R5vks1Yg0.net
たったそんだけ?そんな壊れるところでもないし、たいした金額の装置でもないのにな
つか、それでなんで復旧にあんな時間かかるんだよ、マヌケw
61 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 06:15:08.09 ID:kCdiRbsC0.net
『これ嘘臭いぞ』
22日のトラブルが起きる直前の深夜にサーバーのメンテナンスをやってたんでしょ
それで壊したんじゃないの?
22日のトラブルが起きる直前の深夜にサーバーのメンテナンスをやってたんでしょ
それで壊したんじゃないの?
220 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:22:51.84 ID:us5xhuvZ0.net
>>61
メンテついでに、スイッチ再起動したら、壊れたとか?
376 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:13:31.31 ID:NQgfzJx00.net
>>220
装置が問題なく動いてる時は無理に電源のオンオフしないってのは基本だな
それで壊れることはほんとにあるし
230 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:28:13.97 ID:dgiPyomr0.net
>>61
> 22日のトラブルが起きる直前の深夜にサーバーのメンテナンスをやってたんでしょ
> それで壊したんじゃないの?
あほかw
サーバーのメンテナンスをやった程度で壊れることはない。
246 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:48:48.46 ID:HnhnkS1s0.net
>>230
電源再投入後に問題起こすことが多いよ機器て
1年間何ら問題なく動いてきたストレージが電源投入の電圧で赤ランプ付きまくったりはよくあること
半分生きてる状態でメンテ後のテストはクリアしたが実業務データ流したら問題芋ずるだったかな
84 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 07:31:54.68 ID:/WI0YGd70.net
もしかして未だにサーバ屋さんとネットワーク屋さんが別組織だったりするんじゃないの?
シスコのスイッチはハードの故障はよくあるけど、二重化(多重化は
絶対に駄目)して瞬断で済み、かつ障害の影響が不必要に広がらないように
デザイン推奨されている。もう20年前からかなりきっちりしたデザインガイドとその設計コンフィグも
シスコは公開している。
その結果、全世界で何十万台も使われていて
しかももっと条件が厳しい金融とかシナのハッカー部隊に狙われている米国防省なんかでも
ノントラブルで稼動している。いや正確に言うと、ハード故障があってもこんなに悪影響を
及ぼさないように極所的におさまるように工夫している。シスコはハードは壊れる、という
ことを前提に製品作りをしている、と俺は理解している。
ANAだけでこんな重要な事故につながる原因がシスコのスイッチのハード故障、ってのはどう考えても不自然。
もしシスコスイッチがNG なら他の超一流企業や米連邦政府で稼動している何十万台ものシステムは何故、同じような新聞ネタに
なるような障害を引き起こさない?
詳細事情は全く分からないけど、IT業界20年の俺の見立てでは、設計と運用の知識経験不足による
人為的ミス何じゃないか?
89 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 07:36:02.95 ID:bYriR+OD0.net
catalystが飛んだんか
そら想定外だな
シスコつっても中国製なのかな?
90 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 07:38:02.68 ID:2BzhPjlA0.net
>>89
catalystが故障するのはよくあることだろ。
普通は冗長化してるから違う経路にすぐ切り替わる。
92 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 07:43:00.90 ID:d1Qy3MU+0.net
VRRPやRSTP使って無かったのかよ。
エクストリーム使ってた方がよかったんじゃね?
112 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:20:14.83 ID:po4sx6WR0.net
あーこれシスコ倒産だわ
120 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:27:01.23 ID:bYriR+OD0.net
IOSって今でもDOSみたいな画面なの?
129 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:30:47.44 ID:6SQX+rbR0.net
>>120
そうだよ
Configはコマンドライン
127 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:29:42.52 ID:NqMghZ0z0.net
GW初日に乗る予定だから今のうちに膿出してくれたみたいなもので良かった
130 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:31:04.73 ID:Eu7OVadq0.net
>>127
こういう考え方するやつって
136 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:35:24.06 ID:JCnfVAqI0.net
ここの運用担当ってスゲー無能なんじゃねーの?
スイッチでフォールトトレランスが機能するのを半日以上じっと待ってたってこと?
それともスイッチが原因だってことに気付くまでに半日もかかったってこと?
どちらにしても素人だろw派遣だけで回してたのかな?
スイッチでフォールトトレランスが機能するのを半日以上じっと待ってたってこと?
それともスイッチが原因だってことに気付くまでに半日もかかったってこと?
どちらにしても素人だろw派遣だけで回してたのかな?
141 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:36:50.48 ID:RQHq3Q2H0.net
>>136
お前は世界初のバグを見抜けるほど有能なのか?
151 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:41:18.14 ID:oGOvOjRy0.net
>>136
恥ずかしいから暫くromってろよ
155 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:43:53.08 ID:JCnfVAqI0.net
>>151
俺を煽ってもシスコが責任を負うことは一切ないぞ?
157 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:44:48.36 ID:aH2NC2fl0.net
冗長化不足
元々メインフレームのPCサーバ化なんだから
別データセンタで別クローンくらいつくればいいのに
予算がなくても、同センタで負荷分散機から下くらいのクローン
ならいけるっしょ
光波長多重なんて、機器なんかより
ケーブルメンテでさえ震えるのに
164 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:46:45.09 ID:xtJ17UIdO.net
>>157
それ提案しても無駄なお金がかかるって嫌がる客おおい
165 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:46:49.63 ID:+H5iksG70.net
技術屋と素人の意見が真反対になっとるなwwww
まさかただのスイッチが連鎖不具合を起こすなんて予想できんよ
この障害は仕方がないわ
あ、スイッチの意味がわかってる人とわかっていない人もいるかな?
168 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:48:53.49 ID:xtJ17UIdO.net
>>165
(´・ω・`) ストリームなんて一発で起きるぞ?
まともなSEいないんだろな
172 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:50:33.69 ID:JCnfVAqI0.net
>>165
>ただのスイッチが連鎖不具合を起こすなんて予想できん
お前が技術屋側じゃない事を祈るよ
もしそうなら辞表書いてくれ
167 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:48:28.38 ID:FlcJIX7X0.net
ここまで予測したテストはしないよね…
181 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:55:37.95 ID:cMQB95i20.net
>>167
インフラとかの止められないシステムは何重系にもしてどこが壊れても止まらないようにするのは基本
スイッチ故障時のネットワーク切替は初歩中の初歩だわ
本当に重要度が高いシステムは最悪ダウンしてもシステム縮退運転可能なように別拠点作ったりもするし
186 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:59:02.96 ID:oGOvOjRy0.net
>>181
震災停電とか派手に飛ばないと別拠点てことにならないからな〜、
今回の結構盲点かも、
194 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:04:03.62 ID:cMQB95i20.net
>>186
今回主要システム死んだとしても
各空港の端末に、
?最新ではないにしろ乗客情報のDB情報をCSVなりなんでもいいから残す
?スタンドアロンになってもその情報を印刷可能にする
って最低限の機能があって印刷さえすれば
紙と鉛筆で、チェックイン、荷物検査、持ち物検査、搭乗手続き位はできただろって思うけどな
空港管制が落ちたわけじゃないし
191 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:02:42.11 ID:2bwj/3sQ0.net
バッファローの安いの買って、
すぐ変えれるように予備たくさん持っておくほうが吉
201 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:05:41.07 ID:cMQB95i20.net
>>191
狂牛みたいな民生品をサーバ用途で使えると思うなよ・・・
負荷重くなるとSWでさばけなくなってスループット低下、終了
という最悪な事態になる
202 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:05:41.10 ID:qUV/jEPr0.net
これって「ハブ」のことなのかかね?
おかしくなって
一旦電源を切って入れなおしてもダメなことはあるなぁ
ルーターの再始動と、端末の再始動の順番もあるよなぁ
207 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:10:19.90 ID:cNlpvv0P0.net
>>202
L3スイッチのUDLD機能とかそんなののバグなんじゃね。
今は冗長されてりゃバッサリ落としも問題ない。
障害を検知する仕組みの不具合だろ。
最近シスコ入れてるがバグでまくり。
品質酷いわ。
215 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:18:37.43 ID:xRActgXY0.net
システムを1カ所におくからだよ。地震とかも考えてバックアップ
システムを大阪あたりにおいとけ。
そうすりゃ短時間で復旧するだろうが。
217 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:21:12.37 ID:ZpMEM8970.net
トラブルの内容的にすぐにネットワーク関係ってすぐにわかって
どこのL2かもすぐにわかったんだろうけど
修理交換したあとの運用方法とか
交換して、滞留しているデータが
どのようになるか予想がつかなくて
その判断に時間がかかったと思う
219 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:22:11.04 ID:zQ2Km9Lz0.net
発表遅すぎる。
だからANAは信用しない。
225 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:24:26.28 ID:/gYJpWnx0.net
>>219
おまえだったらその日のうちに調査完了できるのかよクソニート
226 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:26:04.30 ID:zQ2Km9Lz0.net
>>225
処分の発表と調査発表を一緒にするのはキモいから
243 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:42:16.43 ID:YJTiqRUb0.net
こう言うのってAWSに相似形のシステム置いておかないの?
最小インスタンスでレプリケーションだけしておくとか
最小インスタンスでレプリケーションだけしておくとか
258 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:00:41.74 ID:W0EVhaDX0.net
>>243
awsに置いたところで今回のような障害では意味が無い
349 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:52:23.84 ID:Y3vVgffg0.net
>>217
そうだろうね。
>>243
AWS信用しすぎなあほっているんだな
357 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:56:38.66 ID:YJTiqRUb0.net
>>349
信頼じゃなくてスケーラビリティを活かした低コスト待機って運用
>>258に対しては話がズレたが
253 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 09:56:42.60 ID:V7ZH/i2l0.net
ネットワークを構成している機器の故障は
電源故障などで完全にネットワークから切り離されれば影響は最小限に抑えられるが
OSの暴走や変な壊れ方するとネットワーク全体に影響を及ぼすのは常識
またほとんど24H稼働だから電気設備点検などでたまに電源OFFしたあとのONで故障することがある
それを踏まえてルーティングを構成しないとこうなる
266 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:07:50.64 ID:k4om96mv0.net
portが死ぬのはあるけど全部逝っちゃったのかな?
278 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:14:30.99 ID:6SQX+rbR0.net
>>266
ポートとかハードではなくソフトウェアのバグみたい。
ポートとかハードではなくソフトウェアのバグみたい。
285 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:17:48.11 ID:k4om96mv0.net
>>278
あそうなんだ
コリジョン起こしまくってるとかかなw
296 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:25:21.84 ID:6SQX+rbR0.net
>>285
いや、恐らく予備機と死活監視していて故障したら予備機に切り替わるのがバグで故障したのに切り替わらなかったみたい。
故障したスイッチがずっと稼働していて障害発生。
301 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:28:03.33 ID:JrJbl7/H0.net
>>296
じゃあ単に運用側がアラートあげてないだけじゃ
309 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:32:22.03 ID:6SQX+rbR0.net
>>301
そのアラートをあげる信号が出ないバグだから運用は気付かないと思うよ。
321 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:39:32.69 ID:JrJbl7/H0.net
>>309
死活監視で外部からping
うつ設計なら分かるじゃん
またはボーリングしてりゃ
なんか発生してることは分かるよ
333 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:45:31.06 ID:6SQX+rbR0.net
>>321
Ping監視はSNMPでしょ。
通常はポート監視くらいしかしてない。
今回のは予備機との切り替わるプロトコルの問題だよ。
273 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 10:11:52.53 ID:V7ZH/i2l0.net
日本ユニシス
これからANAのシステム担当に相当責められるな
故障の原因は何だとか、なぜ故障通報できなかったとか、なぜデータ迂回できなかったのかとか
故障そのものはciscoにスイッチ送って調査依頼
故障通報はソフトウェアの調査と見直し
データ迂回に関してはルーティングの調査と再設定
今度同じこと起こったら日本ユニシスは次期システム構築構想から相手にされなくなる
277 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:14:19.35 ID:UlIeJsEB0.net
>>273
ユニシスのSEがやるわけないじゃん
現場の下請け切ってハイ終了ですよ
ITの元請クラスはただのヤクザ
290 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 10:20:28.00 ID:V7ZH/i2l0.net
>>277
お前はアホか
実際は大規模なシステムほど下請け、孫請けのSEが元請けの看板背負って出入りしてるんだよ
ANAは担当SEを元請けの技術者として受け入れているから責任は一括し手元請けが負う
311 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:32:59.42 ID:UlIeJsEB0.net
>>290
えっ、俺金融系で奴らに責任ごと丸投げされて相当嫌な目に遭ったけど?
284 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:17:25.08 ID:QeJhNsmq0.net
故障信号送信っておかしくないの?
送信機能が損なわれたときの検知はどうするつもりだったんだろう
正常信号が定期的に送信されて一定時間受信がなかった場合は故障と判断とかならよく聞くのに
293 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:23:38.08 ID:HXKWKjIs0.net
ネットワークエンジニアって、他社の作った機械の設定を
いじくりまわしてるだけで、プログラム組んでるわけでも
ないんだから、IT業界では最下層でしょw
そんな連中に我々の社会はキンタマ握られてるのかと思うと、
おっそろしいよな
299 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:26:30.97 ID:SP6EZ/bc0.net
>>293
それを言ったら、電工なんてすべての産業のキンタマ握っているだろ。w
302 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:28:50.57 ID:HXKWKjIs0.net
>>299
やる事の複雑さと、不具合起きた時の社会への影響の度合いが、
全然違うじゃん
297 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:25:23.11 ID:kKmL83sg0.net
pingが切れずに故障のトラップもあがらず、ハングアップした状態になったの?
日本ユニシスの運用はかなりの問題だけどシステム自体には問題がなく、完全にciscoの問題だわ。
これ、ANAだけじゃなくほぼ日本中の全システムがアウトになるケースなんだが。
サーバーからスイッチにヘルスチェック投げるシステムなんて聞いたことがない。
304 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 10:30:03.00 ID:V7ZH/i2l0.net
>>297
DBサーバやwebサーバなんかの実業務以外にネットワーク監視サーバがあるんだよ
このサーバが各ネットワーク機器に対して定期的にpingを飛ばす
規定時間内にレスポンスがないとその機器を障害とみなして通報する
307 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:30:56.79 ID:toPtaePy0.net
ヲタトークうぜーー
もっと一般人に分かるように説明しろや
職場でもそんなだからドカタ仕事しか任せてもらえないんだろ
316 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:36:31.10 ID:kb11nQov0.net
なんか拍子抜けだな。
そんなんで全滅するのかって。
324 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:40:38.37 ID:6SQX+rbR0.net
>>316
設計はちゃんとしてたからね。
予期せぬバグは追求するの難しいもんだよ。
342 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:48:05.61 ID:HXKWKjIs0.net
案外、テケトーに組んでた方が信頼性増すんじゃねーのw
346 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:50:54.94 ID:SP6EZ/bc0.net
>>342
それ、言えるかもしれんな。w
コストダウン重視すれば、どうしてもcritical pathが出てくるもんな。
テケートだと、なぜか、critical pathを回避してることが多々ある。w
353 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:54:12.96 ID:Uc2K+kKL0.net
監視システム構築側としては寒気が走る話だ
ダメな時はダメなんだよ絶対なんて無いの…
役員減給だなんて、こっちは退職しなきゃだめか?
356 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:56:23.45 ID:APsXfJ540.net
>>353
最低でも社内のシステム系の人らは始末書と賞与ゼロ、毎月30%の減給
社外のシステム屋もいたはずだからそのひとらは外注元の富士通なりには
とんでもないペナルティ
下手すると損害賠償とか・・・
あーやだやだ
369 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:03:50.23 ID:+d5Lb0yb0.net
この手のスレはいつもプロフェッショナルの溜まり場になるな
システムの設計を2chに晒して添削してもらったら落ちなくなるかもねw
399 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 12:06:25.65 ID:5n4ziybY0.net
>>369
このスレの殆どが素人と時代遅れの技術者だと思う
404 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:19:58.59 ID:kKmL83sg0.net
>>399
インフラなんて1〜2世代前のシステムの方が安定するんだよ
377 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:15:32.72 ID:o7Iz4LKI0.net
間にスイッチ使わないでも同期取れそうだけど
379 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:19:10.90 ID:6SQX+rbR0.net
>>377
無理。
冗長するシステムにはスイッチは必要。ポートが足りない。
417 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:37:39.33 ID:BFHWZstN0.net
再発防止策はサーバーからもスイッチ故障を検知するってさ
428 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:50:25.89 ID:kKmL83sg0.net
>>417
DBサーバーからスイッチにヘルスチェックなんてアホの極みでしかないが、対外的にそう言わざる得ないんだろうな。
だって、その上位のスイッチが同じ現象で落ちたらどうすんの?って話になるからね。
スイッチをアクティブアクティブにするのがベストな気がするが、負荷とか考えたら現在のシステムじゃ無理なんだろう。
423 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:46:48.50 ID:dS3aSitL0.net
この手の機械の耐用年数ってどのくらいなん?
431 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:54:37.24 ID:oPEyvPi80.net
ハブって壊れるんだな
電源部分以外で、ハブが壊れた事無いわ
434 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:57:22.64 ID:LoTghY+n0.net
>>431
電源回りよくやられるよな。
普通に焦げ臭くなって死んだり、
PoE スイッチがただのスイッチに化けてみたりw
464 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:20:02.66 ID:4xFvX2lh0.net
>>434
俺はアダプターがやられたことがあったな、プラスチックが溶けてたwwwww
なんで電源部弱いんだろ?
445 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 13:22:14.89 ID:qASdqbYa0.net
図をみるとインコネくさいんだけどDHBはつかってなかったんか?
450 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 13:44:31.67 ID:i6rhC7aR0.net
>>445
dhb使ってもサーバの生き死にじゃないから意味ないんじゃない?
471 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:56:10.26 ID:s4paDJf/0.net
>>450
NHB切断してもDHBで1系統残らないっけ?
2〜4系統は切り離されるだろうけど
475 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 15:14:13.25 ID:i6rhC7aR0.net
>>471
そうなんだけど、結局のところインターコネクトのスイッチ障害の検知が出来てなかったなら
最初は原因不明でいったんサービス停止して切り分けのために再立ち上げしてみて
「あれ?複数だと上がらないな…」ってなってるであろうことは明白じゃない?
なので辿る話の経路が違うだけで結局同じことなんじゃないのってこと。
453 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 13:47:51.09 ID:yHUmO67B0.net
shutdownコマンド普通にあるだろ
483 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 16:07:44.72 ID:utat9Z9J0.net
>>453
shutdownなんてインターフェースの操作くらいしかできんわ
電源は落とせない
454 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 13:57:34.14 ID:R04DiFUl0.net
【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」
http://itpro.nikkeibp.co.jp/article/NEWS/20070613/274694/
ANAは2007年にもスイッチ障害でシステム停止してる
457 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:01:30.89 ID:oPEyvPi80.net
>>454
1度目は仕方ないとしても、2度目はバカだろ
465 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:22:34.89 ID:yHUmO67B0.net
てか保守ベンダの責任だろ
大元叩いてどうすんだ
大元叩いてどうすんだ
469 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 14:51:41.30 ID:C0S8Vsw00.net
>>465
ハード故障はベンダやシスコの責任じゃないよ。
だってハードは故障するもんだから。
その障害対応の開発をロクスポしなかったANAのシス開の責任。
ハード故障はベンダやシスコの責任じゃないよ。
だってハードは故障するもんだから。
その障害対応の開発をロクスポしなかったANAのシス開の責任。
492 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:02:59.39 ID:kKmL83sg0.net
>>469
今回のは故障じゃなく潜在バグっぽいから相当な賠償請求がciscoに行きそう。
493 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:06:08.59 ID:FKV9mUw+0.net
>>492
よほど意識的に悪質な挙動でない限り、バグの責任してももらえる損害賠償のMAXは機器製品代まででしょう。
495 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:13:33.40 ID:kKmL83sg0.net
>>493
今回のは悪質なバグにあたるのかと。てか、政治(国じゃなく企業の)判断が入りそう。
日本ユニシス的にはSPLが守れなかったからANAに賠償請求されるのは確定だが、
日本ユニシス側としてciscoのバクが仕方ないと割り切れない金額なら、今後のシステムにcisco製品を入れないと脅しをかけることは多々ある。
496 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:19:33.89 ID:Wynmf2R+0.net
>>495
いやそれはないな。
システムに対する責任はあってもシステムの業務上の重要性までは担保しない。
そんなのまで担保する責務が当然なのならそこらじゅう訴訟だらけだし、そもそもからして
システムに対してもっと支払額が高くないと請求する資格はないでしょう。
ANAではなくて一般論として。
498 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 18:09:53.35 ID:kKmL83sg0.net
>>496
それが日本の企業なんです。システム構築側やベンダに非が無くても重要な客なら負担するのはほんと良くある。
勿論、突っぱねてもいいというか下の方は突っぱねたいが、得意先相手だとトップと営業が折れる。
476 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 15:44:19.02 ID:EmSMFCP30.net
日の丸品質のバッファローにしておけば良かったんだろ?