【企業】ANAのシステム障害、イーサネットスイッチが故障 篠辺社長ら減給


 
http://daily.2ch.sc/test/read.cgi/newsplus/1459366369/ 
 
1 名前:蝙蝠傘子 ★[] 投稿日:2016/03/31(木) 04:32:49.72 ID:CAP_USER*.net 
   3月22日に国内線旅客システム「エイブル」で発生した障害について、全日本空輸(ANA/NH)は3月30日、4台あるデータベース(DB)サーバーの同期処理を中継する「ネットワーク中継機」の故障が原因だったと発表した。障害発生により、篠辺修社長ら経営陣3人の報酬を1カ月間減額する処分を下した。  
   
  ―記事の概要―  
  ・同期処理に障害  
  ・7万人以上に影響  
   
  ■同期処理に障害  
   
   ANAによると、日本ユニシス(8056)が構築した国内線旅客システムのうち、故障したのはネットワーク中継機として使用していた、米シスコシステムズ製イーサネットスイッチ「Catalyst 4948E」。一般的に、有線LANによるネットワーク上の機器などを接続するために使用するもので、障害が発生したシステムでは、4台あるDBサーバー同士を接続するのに使われていた。ネットワーク用語では、「スイッチ」と略されることが多い。  
   
   スイッチが故障したことで、DBサーバー間のデーターの整合性が保てなくなるため、自動的にサーバーを停止する機能が作動。本来であれば、スイッチが故障すると「故障シグナル」を発信し、自動的に予備機に切り替わる設計になっていたが、今回はシグナルが発信されず、予備機に切り替わらなかった。  
   
   障害発生を受け、スイッチがシグナルを出さない状況でも、DBサーバーからスイッチの故障を検知できるよう、24日にシステムを改修。不具合が発生したスイッチは、製造したシスコが解析して故障箇所が判明したため、シスコが改善策を検討しているという。  
   
   また、国内線旅客システム全体を点検し、社外の知見も活用した信頼性を向上させるプロジェクトチームを4月に設置。6月まで3カ月かけ、対策を検討する。  
   
  (※続く)  
   
   
  ・シスコのCatalyst 4948E(同社サイトから)  
  http://www.aviationwire.jp/wp-content/uploads/2016/03/160330_cisco_4948e_01-600-300x194.jpg

 
   
  ・羽田空港第2ターミナルでANAのカウンターに並ぶ乗客=16年3月22日 PHOTO: Tadayuki YOSHIKAWA/Aviation Wire  
  http://www.aviationwire.jp/wp-content/uploads/2016/03/160322_0025_ana_rjtt-640-300x194.jpg

 
   
   
  Asahi Giken 2016年3月30日 22:55 JST  
  http://www.aviationwire.jp/archives/85999  
 
 

 
2 名前:蝙蝠傘子 ★[] 投稿日:2016/03/31(木) 04:33:31.65 ID:CAP_USER*.net 
  >>1続き  
   
  ■7万人以上に影響  
   
   今回のシステム障害が発生したのは、22日午前3時44分。4台あるDBサーバーのうち、1台が停止。残り3台で運用していたが、午前8時22分に4台すべてが停止した。  
   
   その後、午前8時59分に1台を再起動出来たが、DBサーバーを複数立ち上げると不安定な状態が続き、午前9時27分に1台のDBサーバーで運用することを決めた。これにより、空港の自動チェックイン機や旅客係員が使う端末の使用再開に向けて準備作業を開始し、午前11時30分に搭乗手続きに関しては業務を再開できた。  
   
   午後0時46分には予約発券機能が復旧。ANAのウェブサイトによる国内線サービスについても、午後8時10分に復旧した。  
   
   障害の原因となったイーサネットスイッチについては、23日午前1時14分に交換。午前3時5分にDBサーバーの構成を通常の4台に戻した。午前4時14分には、最後まで障害が残っていたエイブルと旅行会社など他社のシステムを接続する部分も復旧した。  
   
   システム障害により欠航した便数は、22日はANAの国内線だけで146便、23日が2便の計148便。影響旅客数は22日が約1万8200人、23日が200人の合わせて約1万8400人にのぼった。遅延便も22日にANAの国内線だけで391便発生し、約5万3700人に影響が及んだ。  
   
   また、同じシステムを使用するスターフライヤー(SFJ/7G、9206)とエア・ドゥ(ADO/HD)、ソラシドエア(旧スカイネットアジア航空、SNJ/6J)、アイベックスエアラインズ(IBX/FW)も影響を受け、ANAと同じトラブルが発生。欠航や遅延が生じた。  
   
   今回の障害発生により、7万人以上の利用者に影響が及んだことから、ANAは篠辺社長ら3人の経営陣に対し、1カ月の報酬減額処分を3月30日付で下した。篠辺社長が20%減額、内薗幸一副社長と、業務プロセス改革を担当する取締役の幸重孝典氏が、それぞれ10%減額となる。  
   
   現在の国内線旅客システムは、2013年7月に稼働。今回の障害発生まで、システムが停止するトラブルは起きていなかった。通常期の予約販売は1台のサーバーで対応できるが、繁忙期は2台分の処理能力が必要だとして、その2倍にあたる4台でシステムを構築した。  
   
   現行の一世代前のシステムでは、2007年5月27日にサーバーのメモリ故障、2008年9月14日に人為的なミスによる障害が発生したが、今回のような顧客データベースの同期に関するトラブルではなかった。2007年のトラブルでは130便が欠航、遅延が464便にのぼり、6万9300人に影響が生じた。2008年は53便が欠航、276便が遅延し、5万4300人に影響が及んだ。  
   
  ■関連リンク  
   
  全日本空輸  
  シスコシステムズ  
  日本ユニシス  
   
  ・ANAのシステム障害、完全復旧 7万2000人影響(16年3月23日)  
  ・ANAのシステム障害が復旧 顧客DBの同期トラブル 7万人影響、146便欠航(16年3月22日)  
   
  ■関連記事  
   
  全日空、ラウンジでiPadなどに雑誌を無料配信 日本ユニシスと  
  ANA、iPadなどへの新聞雑誌コンテンツ配信を全国に拡大 日本ユニシスと空港ラウンジで  
  [雑誌]月刊エアライン 16年5月号「ANA国際線30周年」  
  [雑誌]月刊エアライン 15年5月号「世界と日本のエアライン・フリート」  
  [雑誌]月刊エアライン 15年4月号「新しいANA」  
   
  (終わり)  
 
6 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 04:42:17.57 ID:ZJYXRly80.net 
  シグナル来ること前提にしてる設計が悪い  
 
8 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 04:46:14.36 ID:Ax2zXkBW0.net 
  > 実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった  
   
  シスコだめだめじゃん。  
 
257 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:00:00.96 ID:HXKWKjIs0.net 
  >>8  
  イーサネットスイッチなんて、壊れるものなの?  
 
261 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:02:38.92 ID:cNlpvv0P0.net 
  >>257  
  たまーにあるよ。  
  運悪いとロット不良でリコールとかもある。  
   
  一番発生率高いのはファン故障かな。  
 
274 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:12:36.39 ID:HXKWKjIs0.net 
  >>261  
  ファンレスとか、ないのん?  
  イーサネットって、枯れた技術でしょ?  
  ファームウェアも、大した処理してないんじゃないの?  
   
  カリカリにチューニングしなくても、それなりに動いてくれる機械でしょ?  
 
276 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:13:56.51 ID:+X48O/nC0.net 
  >>274  
  家庭用のスイッチじゃねーんだぞ  
  大規模サーバー用のスイッチの実物見たことあんのかお前  
 
281 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:16:20.88 ID:HXKWKjIs0.net 
  >>276  
  ねーよハゲ  
  でも、やってる事は同じでしょ?  
   
  ネットワークエンジニアとか、エンジニアじゃねーよwww  
   
  とか言ったら怒るよね^ ^ だから言わないよ^ ^ ^ ^ ^ ^  
 
292 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:23:19.39 ID:YNq/YT790.net 
  >>274  
  枯れた技術のママチャリは故障しないとでも思ってんのか  
 
12 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 04:53:09.40 ID:Ut4fXtja0.net 
  coregaにしよう  
 
22 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 05:09:23.63 ID:u7V2B9LMO.net 
  (-_-;)y-~  
  日本政府が日本●●党を監視保護活動するのは結構やけど、  
  テヨンちゃんは監視撃滅しなくていいんですか?とつくづく思う。  
 
418 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:39:57.82 ID:FKV9mUw+0.net 
  >22日午前3時44分 1台DBサーバーダウン。  
  管理者「DBサーバーのハード障害か?」  
  OP「ハード警告無し。異常ありません。」  
  管理者「回線異常か?」  
  OP「回線良好。異常ありません。」  
  管理者「スイッチ異常か?」  
  OP「スイッチ警告なし。異常ありません。」  
  管理者「どこにも異常がないのになぜ…?」  
   
  >22日未明 2台目DBサーバーダウン。  
  管理者「え、どうなっているんだ?2台目も落ちたぞ??」  
  管理者「アタックか?ウイルスか?」  
  OP「回線異常なし!ウイルス等異常反応もありません!」  
   
  >>22日未明 3台目DBサーバーダウン。  
  管理者「おいこのままでは業務停止するぞ!!何か異常はないのか!?」  
  OP「データ整合性異常のほか見当たりません!このままでは第4サーバー持ちません!!」  
  管理者「異常を探し出せ!!」  
  OP「回線異常ありません!スイッチ異常ありません!!サーバー異常ありません!!!」  
   
  >22日午前8時22分 4台DBサーバーダウン。  
  管理者「…」  
  OP「…」  
   
  >22日午前8時59分 DBサーバー再起動。  
  管理者「異常がないんだったら、すぐさま再起動かけろ!!」  
  OP「再起動!・・・ ダメですサーバー安定しません!!!」  
   
  >22日午前9時27分 搭乗手続きシステムに絞りDBサーバー1台で再稼働  
  管理者「もうだめだ予約関係は諦めて、搭乗だけにしぼっけ回復させるぞ!」  
  OP「サーバー3台切り離し、1台に構成にして再稼働! … システム安定!搭乗手続き可能です!」  
   
   
  こういう世界、現実しる前は夢見るよね。  
 
27 名前:名無しさん@1周年[sbge] 投稿日:2016/03/31(木) 05:16:39.44 ID:OI/VgIZ60.net 
  リレー機なんてルーターよりもはるかに安いんで、予備を普通に持ってるのが常識  
   
  アホというかありえんだろ  
  常識  
   
  なんたって、設定さえいらない機器だぞw  
 
30 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 05:19:31.94 ID:O96tAnN20.net 
  シスコは信頼性高いイメージだったけど  
 
34 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 05:22:01.35 ID:dqUxjVoe0.net 
  >>1  
  Cisco Catalyst 4948E  
  Price: $10,591.91 & FREE Shipping  
  You Save: $5,408.09 (34%)  
  In stock.  
  Amazon.com  
 
59 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 06:10:21.36 ID:R5vks1Yg0.net 
  たったそんだけ?そんな壊れるところでもないし、たいした金額の装置でもないのにな  
  つか、それでなんで復旧にあんな時間かかるんだよ、マヌケw  
 
61 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 06:15:08.09 ID:kCdiRbsC0.net 
  『これ嘘臭いぞ』  
   
  22日のトラブルが起きる直前の深夜にサーバーのメンテナンスをやってたんでしょ  
  それで壊したんじゃないの?  
 
220 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:22:51.84 ID:us5xhuvZ0.net 
  >>61  
  メンテついでに、スイッチ再起動したら、壊れたとか?  
 
376 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:13:31.31 ID:NQgfzJx00.net 
  >>220  
  装置が問題なく動いてる時は無理に電源のオンオフしないってのは基本だな  
  それで壊れることはほんとにあるし  
 
230 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:28:13.97 ID:dgiPyomr0.net 
  >>61  
  > 22日のトラブルが起きる直前の深夜にサーバーのメンテナンスをやってたんでしょ  
  > それで壊したんじゃないの?  
   
  あほかw  
   
  サーバーのメンテナンスをやった程度で壊れることはない。  
 
246 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:48:48.46 ID:HnhnkS1s0.net 
  >>230  
  電源再投入後に問題起こすことが多いよ機器て  
  1年間何ら問題なく動いてきたストレージが電源投入の電圧で赤ランプ付きまくったりはよくあること  
  半分生きてる状態でメンテ後のテストはクリアしたが実業務データ流したら問題芋ずるだったかな  
 
84 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 07:31:54.68 ID:/WI0YGd70.net 
  もしかして未だにサーバ屋さんとネットワーク屋さんが別組織だったりするんじゃないの?  
   
  シスコのスイッチはハードの故障はよくあるけど、二重化(多重化は  
  絶対に駄目)して瞬断で済み、かつ障害の影響が不必要に広がらないように  
  デザイン推奨されている。もう20年前からかなりきっちりしたデザインガイドとその設計コンフィグも  
  シスコは公開している。  
   
  その結果、全世界で何十万台も使われていて  
  しかももっと条件が厳しい金融とかシナのハッカー部隊に狙われている米国防省なんかでも  
  ノントラブルで稼動している。いや正確に言うと、ハード故障があってもこんなに悪影響を  
  及ぼさないように極所的におさまるように工夫している。シスコはハードは壊れる、という  
  ことを前提に製品作りをしている、と俺は理解している。  
   
  ANAだけでこんな重要な事故につながる原因がシスコのスイッチのハード故障、ってのはどう考えても不自然。  
  もしシスコスイッチがNG なら他の超一流企業や米連邦政府で稼動している何十万台ものシステムは何故、同じような新聞ネタに  
  なるような障害を引き起こさない?  
   
  詳細事情は全く分からないけど、IT業界20年の俺の見立てでは、設計と運用の知識経験不足による  
  人為的ミス何じゃないか?  
 
89 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 07:36:02.95 ID:bYriR+OD0.net 
  catalystが飛んだんか  
  そら想定外だな  
  シスコつっても中国製なのかな?  
 
90 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 07:38:02.68 ID:2BzhPjlA0.net 
  >>89  
  catalystが故障するのはよくあることだろ。  
  普通は冗長化してるから違う経路にすぐ切り替わる。  
 
92 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 07:43:00.90 ID:d1Qy3MU+0.net 
  VRRPやRSTP使って無かったのかよ。  
  エクストリーム使ってた方がよかったんじゃね?  
 
112 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:20:14.83 ID:po4sx6WR0.net 
  あーこれシスコ倒産だわ  
 
120 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:27:01.23 ID:bYriR+OD0.net 
  IOSって今でもDOSみたいな画面なの?  
 
129 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:30:47.44 ID:6SQX+rbR0.net 
  >>120  
  そうだよ  
  Configはコマンドライン  
 
127 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:29:42.52 ID:NqMghZ0z0.net 
  GW初日に乗る予定だから今のうちに膿出してくれたみたいなもので良かった  
 
130 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:31:04.73 ID:Eu7OVadq0.net 
  >>127  
  こういう考え方するやつって  
 
136 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:35:24.06 ID:JCnfVAqI0.net 
  ここの運用担当ってスゲー無能なんじゃねーの?  
  スイッチでフォールトトレランスが機能するのを半日以上じっと待ってたってこと?  
  それともスイッチが原因だってことに気付くまでに半日もかかったってこと?  
  どちらにしても素人だろw派遣だけで回してたのかな?  
 
141 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:36:50.48 ID:RQHq3Q2H0.net 
  >>136  
   
   
  お前は世界初のバグを見抜けるほど有能なのか?  
 
151 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:41:18.14 ID:oGOvOjRy0.net 
  >>136  
  恥ずかしいから暫くromってろよ  
 
155 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:43:53.08 ID:JCnfVAqI0.net 
  >>151  
  俺を煽ってもシスコが責任を負うことは一切ないぞ?  
 
157 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:44:48.36 ID:aH2NC2fl0.net 
  冗長化不足  
  元々メインフレームのPCサーバ化なんだから  
  別データセンタで別クローンくらいつくればいいのに  
  予算がなくても、同センタで負荷分散機から下くらいのクローン  
  ならいけるっしょ  
   
  光波長多重なんて、機器なんかより  
  ケーブルメンテでさえ震えるのに  
 
164 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:46:45.09 ID:xtJ17UIdO.net 
  >>157  
  それ提案しても無駄なお金がかかるって嫌がる客おおい  
 
165 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:46:49.63 ID:+H5iksG70.net 
  技術屋と素人の意見が真反対になっとるなwwww  
  まさかただのスイッチが連鎖不具合を起こすなんて予想できんよ  
  この障害は仕方がないわ  
   
  あ、スイッチの意味がわかってる人とわかっていない人もいるかな?  
 
168 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:48:53.49 ID:xtJ17UIdO.net 
  >>165  
  (´・ω・`) ストリームなんて一発で起きるぞ?  
  まともなSEいないんだろな  
 
172 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:50:33.69 ID:JCnfVAqI0.net 
  >>165  
  >ただのスイッチが連鎖不具合を起こすなんて予想できん  
   
  お前が技術屋側じゃない事を祈るよ  
  もしそうなら辞表書いてくれ  
 
167 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:48:28.38 ID:FlcJIX7X0.net 
  ここまで予測したテストはしないよね…  
 
181 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 08:55:37.95 ID:cMQB95i20.net 
  >>167  
  インフラとかの止められないシステムは何重系にもしてどこが壊れても止まらないようにするのは基本  
  スイッチ故障時のネットワーク切替は初歩中の初歩だわ  
  本当に重要度が高いシステムは最悪ダウンしてもシステム縮退運転可能なように別拠点作ったりもするし  
 
186 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 08:59:02.96 ID:oGOvOjRy0.net 
  >>181  
  震災停電とか派手に飛ばないと別拠点てことにならないからな〜、  
  今回の結構盲点かも、  
 
194 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:04:03.62 ID:cMQB95i20.net 
  >>186  
  今回主要システム死んだとしても  
  各空港の端末に、  
  ?最新ではないにしろ乗客情報のDB情報をCSVなりなんでもいいから残す  
  ?スタンドアロンになってもその情報を印刷可能にする  
  って最低限の機能があって印刷さえすれば  
  紙と鉛筆で、チェックイン、荷物検査、持ち物検査、搭乗手続き位はできただろって思うけどな  
  空港管制が落ちたわけじゃないし  
 
191 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:02:42.11 ID:2bwj/3sQ0.net 
  バッファローの安いの買って、  
  すぐ変えれるように予備たくさん持っておくほうが吉  
 
201 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:05:41.07 ID:cMQB95i20.net 
  >>191  
  狂牛みたいな民生品をサーバ用途で使えると思うなよ・・・  
  負荷重くなるとSWでさばけなくなってスループット低下、終了  
  という最悪な事態になる  
 
202 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:05:41.10 ID:qUV/jEPr0.net 
  これって「ハブ」のことなのかかね?  
   
  おかしくなって  
  一旦電源を切って入れなおしてもダメなことはあるなぁ  
  ルーターの再始動と、端末の再始動の順番もあるよなぁ  
 
207 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:10:19.90 ID:cNlpvv0P0.net 
  >>202  
  L3スイッチのUDLD機能とかそんなののバグなんじゃね。  
   
  今は冗長されてりゃバッサリ落としも問題ない。  
  障害を検知する仕組みの不具合だろ。  
   
  最近シスコ入れてるがバグでまくり。  
  品質酷いわ。  
 
215 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:18:37.43 ID:xRActgXY0.net 
  システムを1カ所におくからだよ。地震とかも考えてバックアップ  
  システムを大阪あたりにおいとけ。  
  そうすりゃ短時間で復旧するだろうが。  
 
217 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 09:21:12.37 ID:ZpMEM8970.net 
  トラブルの内容的にすぐにネットワーク関係ってすぐにわかって  
  どこのL2かもすぐにわかったんだろうけど  
   
  修理交換したあとの運用方法とか  
  交換して、滞留しているデータが  
  どのようになるか予想がつかなくて  
  その判断に時間がかかったと思う  
 
219 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:22:11.04 ID:zQ2Km9Lz0.net 
  発表遅すぎる。  
  だからANAは信用しない。  
 
225 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:24:26.28 ID:/gYJpWnx0.net 
  >>219  
  おまえだったらその日のうちに調査完了できるのかよクソニート  
 
226 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:26:04.30 ID:zQ2Km9Lz0.net 
  >>225  
  処分の発表と調査発表を一緒にするのはキモいから  
 
243 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 09:42:16.43 ID:YJTiqRUb0.net 
  こう言うのってAWSに相似形のシステム置いておかないの?  
  最小インスタンスでレプリケーションだけしておくとか  
 
258 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:00:41.74 ID:W0EVhaDX0.net 
  >>243  
  awsに置いたところで今回のような障害では意味が無い  
 
349 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:52:23.84 ID:Y3vVgffg0.net 
  >>217  
  そうだろうね。  
   
  >>243  
  AWS信用しすぎなあほっているんだな  
 
357 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:56:38.66 ID:YJTiqRUb0.net 
  >>349  
  信頼じゃなくてスケーラビリティを活かした低コスト待機って運用  
  >>258に対しては話がズレたが  
 
253 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 09:56:42.60 ID:V7ZH/i2l0.net 
  ネットワークを構成している機器の故障は  
  電源故障などで完全にネットワークから切り離されれば影響は最小限に抑えられるが  
  OSの暴走や変な壊れ方するとネットワーク全体に影響を及ぼすのは常識  
  またほとんど24H稼働だから電気設備点検などでたまに電源OFFしたあとのONで故障することがある  
   
  それを踏まえてルーティングを構成しないとこうなる  
 
266 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:07:50.64 ID:k4om96mv0.net 
  portが死ぬのはあるけど全部逝っちゃったのかな?  
 
278 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:14:30.99 ID:6SQX+rbR0.net 
  >>266  
  ポートとかハードではなくソフトウェアのバグみたい。  
 
285 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:17:48.11 ID:k4om96mv0.net 
  >>278  
  あそうなんだ  
  コリジョン起こしまくってるとかかなw  
 
296 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:25:21.84 ID:6SQX+rbR0.net 
  >>285  
  いや、恐らく予備機と死活監視していて故障したら予備機に切り替わるのがバグで故障したのに切り替わらなかったみたい。  
  故障したスイッチがずっと稼働していて障害発生。  
 
301 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:28:03.33 ID:JrJbl7/H0.net 
  >>296  
  じゃあ単に運用側がアラートあげてないだけじゃ  
 
309 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:32:22.03 ID:6SQX+rbR0.net 
  >>301  
  そのアラートをあげる信号が出ないバグだから運用は気付かないと思うよ。  
 
321 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:39:32.69 ID:JrJbl7/H0.net 
  >>309  
  死活監視で外部からping  
  うつ設計なら分かるじゃん  
  またはボーリングしてりゃ  
  なんか発生してることは分かるよ  
 
333 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:45:31.06 ID:6SQX+rbR0.net 
  >>321  
  Ping監視はSNMPでしょ。  
  通常はポート監視くらいしかしてない。  
  今回のは予備機との切り替わるプロトコルの問題だよ。  
 
273 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 10:11:52.53 ID:V7ZH/i2l0.net 
  日本ユニシス  
  これからANAのシステム担当に相当責められるな  
  故障の原因は何だとか、なぜ故障通報できなかったとか、なぜデータ迂回できなかったのかとか  
  故障そのものはciscoにスイッチ送って調査依頼  
  故障通報はソフトウェアの調査と見直し  
  データ迂回に関してはルーティングの調査と再設定  
  今度同じこと起こったら日本ユニシスは次期システム構築構想から相手にされなくなる  
 
277 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:14:19.35 ID:UlIeJsEB0.net 
  >>273  
  ユニシスのSEがやるわけないじゃん  
  現場の下請け切ってハイ終了ですよ  
  ITの元請クラスはただのヤクザ  
 
290 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 10:20:28.00 ID:V7ZH/i2l0.net 
  >>277  
  お前はアホか  
  実際は大規模なシステムほど下請け、孫請けのSEが元請けの看板背負って出入りしてるんだよ  
  ANAは担当SEを元請けの技術者として受け入れているから責任は一括し手元請けが負う  
 
311 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:32:59.42 ID:UlIeJsEB0.net 
  >>290  
  えっ、俺金融系で奴らに責任ごと丸投げされて相当嫌な目に遭ったけど?  
 
284 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:17:25.08 ID:QeJhNsmq0.net 
  故障信号送信っておかしくないの?  
  送信機能が損なわれたときの検知はどうするつもりだったんだろう  
   
  正常信号が定期的に送信されて一定時間受信がなかった場合は故障と判断とかならよく聞くのに  
 
293 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:23:38.08 ID:HXKWKjIs0.net 
  ネットワークエンジニアって、他社の作った機械の設定を  
  いじくりまわしてるだけで、プログラム組んでるわけでも  
  ないんだから、IT業界では最下層でしょw  
   
  そんな連中に我々の社会はキンタマ握られてるのかと思うと、  
  おっそろしいよな  
 
299 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:26:30.97 ID:SP6EZ/bc0.net 
  >>293  
  それを言ったら、電工なんてすべての産業のキンタマ握っているだろ。w  
 
302 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:28:50.57 ID:HXKWKjIs0.net 
  >>299  
  やる事の複雑さと、不具合起きた時の社会への影響の度合いが、  
  全然違うじゃん  
 
297 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:25:23.11 ID:kKmL83sg0.net 
  pingが切れずに故障のトラップもあがらず、ハングアップした状態になったの?  
  日本ユニシスの運用はかなりの問題だけどシステム自体には問題がなく、完全にciscoの問題だわ。  
  これ、ANAだけじゃなくほぼ日本中の全システムがアウトになるケースなんだが。  
  サーバーからスイッチにヘルスチェック投げるシステムなんて聞いたことがない。  
 
304 名前:名無しさん@1周年[0] 投稿日:2016/03/31(木) 10:30:03.00 ID:V7ZH/i2l0.net 
  >>297  
  DBサーバやwebサーバなんかの実業務以外にネットワーク監視サーバがあるんだよ  
  このサーバが各ネットワーク機器に対して定期的にpingを飛ばす  
  規定時間内にレスポンスがないとその機器を障害とみなして通報する  
 
307 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:30:56.79 ID:toPtaePy0.net 
  ヲタトークうぜーー  
  もっと一般人に分かるように説明しろや  
  職場でもそんなだからドカタ仕事しか任せてもらえないんだろ  
 
316 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:36:31.10 ID:kb11nQov0.net 
  なんか拍子抜けだな。  
  そんなんで全滅するのかって。  
 
324 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:40:38.37 ID:6SQX+rbR0.net 
  >>316  
  設計はちゃんとしてたからね。  
  予期せぬバグは追求するの難しいもんだよ。  
 
342 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:48:05.61 ID:HXKWKjIs0.net 
  案外、テケトーに組んでた方が信頼性増すんじゃねーのw  
 
346 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:50:54.94 ID:SP6EZ/bc0.net 
  >>342  
  それ、言えるかもしれんな。w  
  コストダウン重視すれば、どうしてもcritical pathが出てくるもんな。  
  テケートだと、なぜか、critical pathを回避してることが多々ある。w  
 
353 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 10:54:12.96 ID:Uc2K+kKL0.net 
  監視システム構築側としては寒気が走る話だ  
  ダメな時はダメなんだよ絶対なんて無いの…  
  役員減給だなんて、こっちは退職しなきゃだめか?  
 
356 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 10:56:23.45 ID:APsXfJ540.net 
  >>353  
  最低でも社内のシステム系の人らは始末書と賞与ゼロ、毎月30%の減給  
  社外のシステム屋もいたはずだからそのひとらは外注元の富士通なりには  
  とんでもないペナルティ  
  下手すると損害賠償とか・・・  
   
  あーやだやだ  
 
369 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:03:50.23 ID:+d5Lb0yb0.net 
  この手のスレはいつもプロフェッショナルの溜まり場になるな  
  システムの設計を2chに晒して添削してもらったら落ちなくなるかもねw  
 
399 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 12:06:25.65 ID:5n4ziybY0.net 
  >>369  
  このスレの殆どが素人と時代遅れの技術者だと思う  
 
404 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:19:58.59 ID:kKmL83sg0.net 
  >>399  
  インフラなんて1〜2世代前のシステムの方が安定するんだよ  
 
377 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:15:32.72 ID:o7Iz4LKI0.net 
  間にスイッチ使わないでも同期取れそうだけど  
 
379 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 11:19:10.90 ID:6SQX+rbR0.net 
  >>377  
  無理。  
  冗長するシステムにはスイッチは必要。ポートが足りない。  
 
417 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:37:39.33 ID:BFHWZstN0.net 
  再発防止策はサーバーからもスイッチ故障を検知するってさ  
 
428 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:50:25.89 ID:kKmL83sg0.net 
  >>417  
  DBサーバーからスイッチにヘルスチェックなんてアホの極みでしかないが、対外的にそう言わざる得ないんだろうな。  
  だって、その上位のスイッチが同じ現象で落ちたらどうすんの?って話になるからね。  
  スイッチをアクティブアクティブにするのがベストな気がするが、負荷とか考えたら現在のシステムじゃ無理なんだろう。  
 
423 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:46:48.50 ID:dS3aSitL0.net 
  この手の機械の耐用年数ってどのくらいなん?  
 
431 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:54:37.24 ID:oPEyvPi80.net 
  ハブって壊れるんだな  
  電源部分以外で、ハブが壊れた事無いわ  
 
434 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 12:57:22.64 ID:LoTghY+n0.net 
  >>431  
  電源回りよくやられるよな。  
  普通に焦げ臭くなって死んだり、  
  PoE スイッチがただのスイッチに化けてみたりw  
 
464 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:20:02.66 ID:4xFvX2lh0.net 
  >>434  
  俺はアダプターがやられたことがあったな、プラスチックが溶けてたwwwww  
  なんで電源部弱いんだろ?  
 
445 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 13:22:14.89 ID:qASdqbYa0.net 
  図をみるとインコネくさいんだけどDHBはつかってなかったんか?  
 
450 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 13:44:31.67 ID:i6rhC7aR0.net 
  >>445  
  dhb使ってもサーバの生き死にじゃないから意味ないんじゃない?  
 
471 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:56:10.26 ID:s4paDJf/0.net 
  >>450  
  NHB切断してもDHBで1系統残らないっけ?  
  2〜4系統は切り離されるだろうけど  
 
475 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 15:14:13.25 ID:i6rhC7aR0.net 
  >>471  
  そうなんだけど、結局のところインターコネクトのスイッチ障害の検知が出来てなかったなら  
  最初は原因不明でいったんサービス停止して切り分けのために再立ち上げしてみて  
  「あれ?複数だと上がらないな…」ってなってるであろうことは明白じゃない?  
  なので辿る話の経路が違うだけで結局同じことなんじゃないのってこと。  
 
453 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 13:47:51.09 ID:yHUmO67B0.net 
  shutdownコマンド普通にあるだろ  
 
483 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 16:07:44.72 ID:utat9Z9J0.net 
  >>453  
  shutdownなんてインターフェースの操作くらいしかできんわ  
  電源は落とせない  
 
454 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 13:57:34.14 ID:R04DiFUl0.net 
  【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」  
  http://itpro.nikkeibp.co.jp/article/NEWS/20070613/274694/  
   
  ANAは2007年にもスイッチ障害でシステム停止してる  
 
457 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:01:30.89 ID:oPEyvPi80.net 
  >>454  
  1度目は仕方ないとしても、2度目はバカだろ  
 
465 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 14:22:34.89 ID:yHUmO67B0.net 
  てか保守ベンダの責任だろ  
  大元叩いてどうすんだ  
 
469 名前:名無しさん@1周年[] 投稿日:2016/03/31(木) 14:51:41.30 ID:C0S8Vsw00.net 
  >>465  
  ハード故障はベンダやシスコの責任じゃないよ。  
  だってハードは故障するもんだから。  
  その障害対応の開発をロクスポしなかったANAのシス開の責任。  
 
492 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:02:59.39 ID:kKmL83sg0.net 
  >>469  
  今回のは故障じゃなく潜在バグっぽいから相当な賠償請求がciscoに行きそう。  
 
493 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:06:08.59 ID:FKV9mUw+0.net 
  >>492  
  よほど意識的に悪質な挙動でない限り、バグの責任してももらえる損害賠償のMAXは機器製品代まででしょう。  
 
495 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:13:33.40 ID:kKmL83sg0.net 
  >>493  
  今回のは悪質なバグにあたるのかと。てか、政治(国じゃなく企業の)判断が入りそう。  
  日本ユニシス的にはSPLが守れなかったからANAに賠償請求されるのは確定だが、  
  日本ユニシス側としてciscoのバクが仕方ないと割り切れない金額なら、今後のシステムにcisco製品を入れないと脅しをかけることは多々ある。  
 
496 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 17:19:33.89 ID:Wynmf2R+0.net 
  >>495  
  いやそれはないな。  
  システムに対する責任はあってもシステムの業務上の重要性までは担保しない。  
  そんなのまで担保する責務が当然なのならそこらじゅう訴訟だらけだし、そもそもからして  
  システムに対してもっと支払額が高くないと請求する資格はないでしょう。  
  ANAではなくて一般論として。  
 
498 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 18:09:53.35 ID:kKmL83sg0.net 
  >>496  
  それが日本の企業なんです。システム構築側やベンダに非が無くても重要な客なら負担するのはほんと良くある。  
  勿論、突っぱねてもいいというか下の方は突っぱねたいが、得意先相手だとトップと営業が折れる。  
 
476 名前:名無しさん@1周年[sage] 投稿日:2016/03/31(木) 15:44:19.02 ID:EmSMFCP30.net 
  日の丸品質のバッファローにしておけば良かったんだろ?  
 



コメントする

名前: