【企業】ANAのシステム障害、イーサネットスイッチが故障 篠辺社長ら減給 ★2
http://daily.2ch.sc/test/read.cgi/newsplus/1459523386/
1 名前:蝙蝠傘子 ★[] 投稿日:2016/04/02(土) 00:09:46.05 ID:CAP_USER*.net
3月22日に国内線旅客システム「エイブル」で発生した障害について、全日本空輸(ANA/NH)は3月30日、4台あるデータベース(DB)サーバーの同期処理を中継する「ネットワーク中継機」の故障が原因だったと発表した。障害発生により、篠辺修社長ら経営陣3人の報酬を1カ月間減額する処分を下した。
―記事の概要―
・同期処理に障害
・7万人以上に影響
■同期処理に障害
ANAによると、日本ユニシス(8056)が構築した国内線旅客システムのうち、故障したのはネットワーク中継機として使用していた、米シスコシステムズ製イーサネットスイッチ「Catalyst 4948E」。一般的に、有線LANによるネットワーク上の機器などを接続するために使用するもので、障害が発生したシステムでは、4台あるDBサーバー同士を接続するのに使われていた。ネットワーク用語では、「スイッチ」と略されることが多い。
スイッチが故障したことで、DBサーバー間のデーターの整合性が保てなくなるため、自動的にサーバーを停止する機能が作動。本来であれば、スイッチが故障すると「故障シグナル」を発信し、自動的に予備機に切り替わる設計になっていたが、今回はシグナルが発信されず、予備機に切り替わらなかった。
障害発生を受け、スイッチがシグナルを出さない状況でも、DBサーバーからスイッチの故障を検知できるよう、24日にシステムを改修。不具合が発生したスイッチは、製造したシスコが解析して故障箇所が判明したため、シスコが改善策を検討しているという。
また、国内線旅客システム全体を点検し、社外の知見も活用した信頼性を向上させるプロジェクトチームを4月に設置。6月まで3カ月かけ、対策を検討する。
(※続く)
・シスコのCatalyst 4948E(同社サイトから)
http://www.aviationwire.jp/wp-content/uploads/2016/03/160330_cisco_4948e_01-600-300x194.jpg
・羽田空港第2ターミナルでANAのカウンターに並ぶ乗客=16年3月22日 PHOTO: Tadayuki YOSHIKAWA/Aviation Wire
http://www.aviationwire.jp/wp-content/uploads/2016/03/160322_0025_ana_rjtt-640-300x194.jpg
Asahi Giken 2016年3月30日 22:55 JST
http://www.aviationwire.jp/archives/85999
前スレ(1が立った日時:2016/03/31(木) 04:32:49.72)
http://daily.2ch.net/test/read.cgi/newsplus/1459366369/
2 名前:蝙蝠傘子 ★[] 投稿日:2016/04/02(土) 00:10:39.95 ID:CAP_USER*.net
>>1続き
■7万人以上に影響
今回のシステム障害が発生したのは、22日午前3時44分。4台あるDBサーバーのうち、1台が停止。残り3台で運用していたが、午前8時22分に4台すべてが停止した。
その後、午前8時59分に1台を再起動出来たが、DBサーバーを複数立ち上げると不安定な状態が続き、午前9時27分に1台のDBサーバーで運用することを決めた。これにより、空港の自動チェックイン機や旅客係員が使う端末の使用再開に向けて準備作業を開始し、午前11時30分に搭乗手続きに関しては業務を再開できた。
午後0時46分には予約発券機能が復旧。ANAのウェブサイトによる国内線サービスについても、午後8時10分に復旧した。
障害の原因となったイーサネットスイッチについては、23日午前1時14分に交換。午前3時5分にDBサーバーの構成を通常の4台に戻した。午前4時14分には、最後まで障害が残っていたエイブルと旅行会社など他社のシステムを接続する部分も復旧した。
システム障害により欠航した便数は、22日はANAの国内線だけで146便、23日が2便の計148便。影響旅客数は22日が約1万8200人、23日が200人の合わせて約1万8400人にのぼった。遅延便も22日にANAの国内線だけで391便発生し、約5万3700人に影響が及んだ。
また、同じシステムを使用するスターフライヤー(SFJ/7G、9206)とエア・ドゥ(ADO/HD)、ソラシドエア(旧スカイネットアジア航空、SNJ/6J)、アイベックスエアラインズ(IBX/FW)も影響を受け、ANAと同じトラブルが発生。欠航や遅延が生じた。
今回の障害発生により、7万人以上の利用者に影響が及んだことから、ANAは篠辺社長ら3人の経営陣に対し、1カ月の報酬減額処分を3月30日付で下した。篠辺社長が20%減額、内薗幸一副社長と、業務プロセス改革を担当する取締役の幸重孝典氏が、それぞれ10%減額となる。
現在の国内線旅客システムは、2013年7月に稼働。今回の障害発生まで、システムが停止するトラブルは起きていなかった。通常期の予約販売は1台のサーバーで対応できるが、繁忙期は2台分の処理能力が必要だとして、その2倍にあたる4台でシステムを構築した。
現行の一世代前のシステムでは、2007年5月27日にサーバーのメモリ故障、2008年9月14日に人為的なミスによる障害が発生したが、今回のような顧客データベースの同期に関するトラブルではなかった。2007年のトラブルでは130便が欠航、遅延が464便にのぼり、6万9300人に影響が生じた。2008年は53便が欠航、276便が遅延し、5万4300人に影響が及んだ。
■関連リンク
全日本空輸
シスコシステムズ
日本ユニシス
・ANAのシステム障害、完全復旧 7万2000人影響(16年3月23日)
・ANAのシステム障害が復旧 顧客DBの同期トラブル 7万人影響、146便欠航(16年3月22日)
■関連記事
全日空、ラウンジでiPadなどに雑誌を無料配信 日本ユニシスと
ANA、iPadなどへの新聞雑誌コンテンツ配信を全国に拡大 日本ユニシスと空港ラウンジで
[雑誌]月刊エアライン 16年5月号「ANA国際線30周年」
[雑誌]月刊エアライン 15年5月号「世界と日本のエアライン・フリート」
[雑誌]月刊エアライン 15年4月号「新しいANA」
(終わり)
79 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:36:23.14 ID:VlrXkvI70.net
今回のは難しいよ
>>2に書いてあるとおり
> 障害の原因となったイーサネットスイッチについては、23日午前1時14分に交換。
故障したイーサネットスイッチを使い続けていた。
つまり部分的に故障していた。一部は動いていたわけ。
イーサネットスイッチにも故障のアラートは表示されていない。一部は動く。
これでイーサネットスイッチが原因であるとすぐに気づくのは難しいだろうね。
調査したけど一部は動いているからわからなかったんじゃないか?
なんかわからんけど、1台構成なら動く!とわかったら
その方向でとりあえず復旧させるのは当然だろう。
6 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:16:31.22 ID:GQdbph3c0.net
なんか良くわからん
RAID1を4台でやってて、コントローラーがイカれたみたいなもん?
RAID1を4台でやってて、コントローラーがイカれたみたいなもん?
23 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 00:30:58.54 ID:3hWOeE6Y0.net
>>6
物理的に4台のDBSVがあって
それにそれぞれSWが2台ずつぶら下がり
合計8台のSWがおそらくだがたすき掛け状態で結ばれていたんだと思われる
仮に奇数同士のSWが普段は稼働して同期を取っていたとしてそのうち一台が故障。
さすればすぐに、故障した相方にスワップするよう設計されていたはずが
そうはならず、4台のDBSVのうち一台に通信ができなくなって整合性エラー発生
ってバカかよ
んなもん、なんで整合性の取れないSVを速攻切り離す設計にしてなかったんだ?
ってネットワーク系のSEは思うんだろうな
俺が設計者ならSW冗長にするよか、予備のDBスタンバイさせておくんだけど
まぁSW冗長にする方が、安いは安いもんな
物理的に4台のDBSVがあって
それにそれぞれSWが2台ずつぶら下がり
合計8台のSWがおそらくだがたすき掛け状態で結ばれていたんだと思われる
仮に奇数同士のSWが普段は稼働して同期を取っていたとしてそのうち一台が故障。
さすればすぐに、故障した相方にスワップするよう設計されていたはずが
そうはならず、4台のDBSVのうち一台に通信ができなくなって整合性エラー発生
ってバカかよ
んなもん、なんで整合性の取れないSVを速攻切り離す設計にしてなかったんだ?
ってネットワーク系のSEは思うんだろうな
俺が設計者ならSW冗長にするよか、予備のDBスタンバイさせておくんだけど
まぁSW冗長にする方が、安いは安いもんな
26 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:36:36.23 ID:GtRs5lHB0.net
>>23
その理解はさすがにおかしい
サーバよりスイッチが多いとかイミフ
108 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:03:15.70 ID:9qdtskdb0.net
>>23
なんで8台?
完全結合するとしても6台だぞ
4C2=6なんで
そもそも2台って発表されてるし
間違え過ぎw
8 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:17:56.90 ID:Z17/9I0w0.net
こういうのって経営陣や会社がどうこうじゃなくて、外注のシステム屋の問題なのでは?
11 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:20:02.00 ID:A1kLEcQ80.net
シスコが補償しないの?
414 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:22:33.92 ID:NFps9Ge30.net
>>11
cisco「ええっ?俺?」
機材の復元までは補償するが
運用結果での損失は免責と思われ
419 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:32:02.69 ID:Eyb0egRk0.net
>>414
今回の一件の被害者はシスコだな。
イーサスイッチが一台故障したくらいで全サービスダウンになったのは
システム設計のチョンボであって、シスコは全然悪くないのに、
シスコの責任だ、みたいな風評被害が出てる。
34 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 00:42:18.74 ID:3hWOeE6Y0.net
>本来であれば、
>スイッチが故障すると「故障シグナル」を発信し、
>自動的に予備機に切り替わる設計になっていたが、
>今回はシグナルが発信されず、予備機に切り替わらなかった
このことを事実すると一台のDBSVに二台のSWがぶら下がっていると
思わざるをえない
>スイッチが故障すると「故障シグナル」を発信し、
>自動的に予備機に切り替わる設計になっていたが、
>今回はシグナルが発信されず、予備機に切り替わらなかった
このことを事実すると一台のDBSVに二台のSWがぶら下がっていると
思わざるをえない
39 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:47:15.50 ID:2LLK4itk0.net
>>34
https://www.ana.co.jp/topics/notice160330/index.html
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
48 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 00:55:19.66 ID:3hWOeE6Y0.net
>>39
おいおいマジか
本当にこんなクソみたいな設計なの?
この構成を見ると、つまりはDBSVは少なくとも同じ建物内に
あるってことか?
俺はANAの予約システムクラスになれば
少なくとも国内4拠点にそれぞれに冗長化された専用線引いて
運用していると思ってた
俺の昔担当した通販サイトは、そんなに超大手でも無いけど
国内3拠点の構成だったぞ
メンテナンス超めんどくさかったのに
40 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 00:48:02.78 ID:7WdhkfSX0.net
やっぱりネットワーク機器の障害でしょ。
なんでDBサーバーを並列稼働してるのに全滅してて「DBサーバー障害とみている」
と言ってるのか意味不明だったもの。
こういうのは単純なところから調べないと。
なんでDBサーバーを並列稼働してるのに全滅してて「DBサーバー障害とみている」
と言ってるのか意味不明だったもの。
こういうのは単純なところから調べないと。
43 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:51:09.49 ID:VlrXkvI70.net
>>40
> なんでDBサーバーを並列稼働してるのに全滅してて「DBサーバー障害とみている」
> と言ってるのか意味不明だったもの。
>>2にかいてあるが、全滅したのは午前8時22分。
それまでは3台で動いていた。
だからそれまではDBサーバー障害だと思われていた。
> 今回のシステム障害が発生したのは、22日午前3時44分。4台あるDBサーバーのうち、1台が停止。残り3台で運用していたが、午前8時22分に4台すべてが停止した。
46 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 00:54:06.59 ID:2LLK4itk0.net
>>40
同じプログラムが走ってると,
「特定のデータパターンが入力されるとクラッシュするのでは?」
みたいに考えてもおかしくはないよね。
62 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:09:38.75 ID:EOtz9HTA0.net
>>40
DBサーバーの管理者視点で上層から丁寧に追っていったら時間が掛かったって感じかな?
NWとサーバーで別々の担当がいてそれを上の管理者が統括してそれぞれに障害を追わせ
れば結構すぐに分かりそうなものだけど、ANAレベルの会社でも人手が足りんのかね
73 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:24:48.10 ID:VlrXkvI70.net
>>62
表面上はデータベースのダウンだからね。
4台全部落ちたのであれば、1台だけ起動してみるのは当然。
そしてそれで正常に動くいてしまう。
異常時に知らせてくれるスイッチが異常状態を示していないのだから、
問題ないと勘違いしてしまうのも無理はない。
1台で正常に動いたわけだしね。
その後、2台起動すると1台目がダウンするわけで、そこでデータの同期に
問題がある?と推測する。
まだスイッチの問題だと気づいていない。
だって1台で正常に動いたわけだしね。
わからない原因を調べるよりも、まずシステムを復旧させるのが優先。
1台ではスペック不足になると最初から見積もられていたので、
1台で運用できるように機能を制限してシステムを変更。
それから調査を行ってやっとスイッチの問題だと判明する。
76 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:28:37.27 ID:7WdhkfSX0.net
>>62 なるほどDBのエキスパートが先に動いてしまったか。
わたし、ワンフロアでたった20台しかない中小企業の「パソコン当番」
やってるんだけど、「つながりませーん」からやれ、サーバーかPCか
はたまたルーターか、とソフトウェア的なアプローチから入ったらどんどん
深みにはまって、ようするにぶっ壊してしまい業務止めたことあるわ。
直接的な原因は、スイッチングハブの寿命だったという。
それ以来、単純なところから調べてくことに決めた。
56 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 01:06:06.12 ID:gq57BUtU0.net
よく分からんが、どれか1台死ぬと停止するんじゃなく、
「1台死んだので整合が取れない状態です」みたいなエラーを出して稼働し続けるほうがいいんじゃないかと思うんだが、
どうなの?
70 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:19:48.21 ID:0hiC5gTP0.net
>>56
DB同士を繋いでるスイッチの故障だから
DBから見たら他の3台が見えず、自分単独で動いているように見える
単独だとデータの整合性が保たれないので停止するのは正しい
82 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:41:38.91 ID:2LLK4itk0.net
>>70
スイッチが中途半端に壊れてるってことだから,
DBから他の3台のDBは見えてたんだと思うよ。
通信速度が遅くなったり,パケットをロスしたりして
同期が規定時間内で終了しなくなってたんだろう。
故障信号を出さないにしても,
通信が完全に沈黙してたら
原因の発見はもっと早かっただろう。
66 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 01:14:14.42 ID:VeSBBMUL0.net
うわあシスコ不買だわ
信用がないね
69 名前:ココ電球 _/ o-ν ◆tIS/.aX84. [] 投稿日:2016/04/02(土) 01:18:05.47 ID:QB4SxQQh0.net
>>66
シスコ以外になんかあるの?
71 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:20:20.62 ID:qoStYozS0.net
Oracle RACのインターコネクト(ノード間の生死確認やDB間のデータ転送をするネットワーク)で使われてるスイッチが、中途半端にぶっこわれてノードメンバシップを正常に管理できなくなった。
根本的な原因はスイッチ障害時に、スイッチ側が切り替わらずに中途半端に動作を続けたこと。
綺麗にスイッチが全損すれば、マスターノードだけ生き残るはず。
どちらかといえば、Oracleは被害者
DBの冗長性の確保はミドルウェア(Oracle)によって実装されてる。そこの挙動は利用者で制御できない。設計ミス云々言ってる人はミドルウェアのバグだといいたいの?
根本的な原因はスイッチ障害時に、スイッチ側が切り替わらずに中途半端に動作を続けたこと。
綺麗にスイッチが全損すれば、マスターノードだけ生き残るはず。
どちらかといえば、Oracleは被害者
DBの冗長性の確保はミドルウェア(Oracle)によって実装されてる。そこの挙動は利用者で制御できない。設計ミス云々言ってる人はミドルウェアのバグだといいたいの?
110 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:05:47.34 ID:9qdtskdb0.net
>>71
スイッチ周りの設計の問題
スイッチ周りの設計の問題
116 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:12:42.87 ID:qoStYozS0.net
>>110
インフラ設計したことないだろ。
将来発生する未知数のバグまで全て考慮して冗長化するなんて、不可能。
バグが一切ないアプリケーション設計をするくらい不可能。
インフラ設計したことないだろ。
将来発生する未知数のバグまで全て考慮して冗長化するなんて、不可能。
バグが一切ないアプリケーション設計をするくらい不可能。
119 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:24:05.00 ID:9qdtskdb0.net
>>116
4948Eを2台じゃサービス中にバックアップ一つ確保しながら保守交換できない
サーバは4台も用意してるのに
おかしい
4948Eを2台じゃサービス中にバックアップ一つ確保しながら保守交換できない
サーバは4台も用意してるのに
おかしい
122 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:29:26.06 ID:LZ66aY3P0.net
>>119
サービス中に保守交換なんかすんの?
サーバの4台って負荷分散もあるからじゃないの?
123 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:30:34.58 ID:9qdtskdb0.net
>>122
けど1台でなんとかなったらしいぜ
普通長期サービス停止の後は●到するのに
212 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 13:25:01.39 ID:2LLK4itk0.net
>>123,174
閑散期は1台で足りるけど,
繁茂期・ピーク時は2台ないと処理が間に合わない
なので,その2倍の4台を用意してるらしいが。
88 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 01:49:38.61 ID:oRt+vuGe0.net
飛行機落とすなよ
わしは絶対乗らんが
近いうちに堕ちるのは確実
92 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 02:01:04.66 ID:BzBVRh4H0.net
エイブル?
昔IBMがつくったSABREのパクリかよ
95 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 02:09:50.80 ID:VlrXkvI70.net
時系列
22日午前03時44分 DBサーバーが1台停止。残り3台で運用
22日午前08時22分 残り3台が停止
22日午前08時59分 1台再起動に成功
22日午前09時27分 複数起動すると不安定になるため、1台のDBサーバーで運用することを決定(本来は最低2台必要)
22日午前11時30分 1台運用のためのシステム変更完了。搭乗手続き再開
22日午後00時46分 予約発券機能が復旧
22日午後08時10分 国内線サービス復旧
23日午前01時14分 故障したイーサネットを交換
23日午前03時05分 DBサーバーを4台構成に復旧
23日午前04時14分 他社システムとの接続部分復旧
ってまとめていたら、こっちにすでにまとめてあったw
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/?SS=imgview&FD=1153259116&ST=erm
100 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 02:36:57.29 ID:jKV0Q6WM0.net
どこでパケロスしてるかモニターしたらすぐわかるってことはないの?
そこが一番解せない点なんだが
105 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 02:57:02.50 ID:KfAzeV8q0.net
いやいや今どきスイッチ二重化してないなんて有り得ないですからw
なんか隠してんじゃないのー
215 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 14:03:19.45 ID:c+mrprM30.net
>>105
すいません、パソコンしか知らないんですけど
スイッチの2重化って
[サーバーにネットワークポート2つ]
| |
sw sw
i i
端末にネットワークポート2つ
ってことですか
114 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:07:27.04 ID:sfo6VThr0.net
これCiscoの問題だよなぁ
上の方でテキトーな発言してる人いるけど大体のシステムが採用してる普通の構成だよ(´・ω・`)
125 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 03:31:38.83 ID:9qdtskdb0.net
サービス中の保守交換は日常茶飯事だから
どのコンポーネントも三重化が当たり前だが
152 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 05:24:37.95 ID:Q+O99ti60.net
ん?
故障したら故障信号が出ないことは十分ありうるだろ
153 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 05:26:53.07 ID:VlrXkvI70.net
>>152
だから
・スイッチの故障信号がでたらスイッチを切り替える
・何処かで不具合があったら、スイッチが原因とは断定できないから何も切り替えられない
って話
200 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 12:30:45.26 ID:Q+O99ti60.net
>>153
は?
改修できてんじゃんw最初からやっとけって話だ
154 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 05:27:07.37 ID:WT4OGOQY0.net
スイッチが中途半端に壊れた。
スイッチの障害通知出す所のバグで通知がされなかった。
なかなかに運悪い。現場お疲れさまだな。
>スイッチがシグナルを出さない状況でも、DBサーバーからスイッチの故障を検知できるよう、24日にシステムを改修。
これなにやったんだろw
155 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 05:32:07.90 ID:VlrXkvI70.net
>>154
同期できずにダウンというログだけじゃなくて
ネットワーク通信が出来ないというログも記録するようにしたんだと思うよ。
ネットワークの不調を検知することは出来るが、スイッチが原因とは
断定できないので当然検知まで。自動的な切り替えは無理。
158 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 05:50:33.25 ID:CEfQxCxr0.net
二台のスイッチでボンディングのアクトアクト構成で
ハートビート、同期させればスイッチの片系ダウンしても
止まらんのでは?
160 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 05:54:24.52 ID:L7lq7XTu0.net
>>158
ダウンしてくれればいい。中途半端に生きて、切り替わらないことなんていくらでもある。
166 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 06:25:04.71 ID:CEfQxCxr0.net
>>160
Act&stnじゃなくて、act&actでは組めないの?
163 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 06:16:18.97 ID:/IJ7Ja7V0.net
>>1
>>本来であれば、スイッチが故障すると「故障シグナル」を発信し、
>>自動的に予備機に切り替わる設計になっていたが、
>>今回はシグナルが発信されず、予備機に切り替わらなかった。
この「故障シグナル」なるものを、L2自身が出すってのは
確定なんかね。
>>本来であれば、スイッチが故障すると「故障シグナル」を発信し、
>>自動的に予備機に切り替わる設計になっていたが、
>>今回はシグナルが発信されず、予備機に切り替わらなかった。
この「故障シグナル」なるものを、L2自身が出すってのは
確定なんかね。
165 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 06:22:02.32 ID:LZ66aY3P0.net
>>163
4948が出さなかったら何が出すんだ?w
170 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 06:42:51.35 ID:L7lq7XTu0.net
>>165
故障シグナルwww
聞いたことねーわwwwww
keep-aliveで、aliveを返さない事で対抗が死んだって判断するんだよ。
おまえネットワーク知らねーだろwww
173 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 06:55:28.41 ID:LZ66aY3P0.net
>>170
>>1の記事の書き方が悪いんだろうけど、
故障シグナルはsnmpのtrapとか、
システムログとかの事を指してるか、
或いはhsrpのトラッキングとかの事だろ。
それくらい分かれよw
178 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 07:14:54.49 ID:L7lq7XTu0.net
>>173
snmpが故障信号ってwwww
swが死んだらどう信号出すんだよwwwwwwww
189 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 09:59:39.84 ID:jzq603ha0.net
サーバやネットワークを冗長化するだけでいいわけじゃなくて、
冗長化された機器や経路を、ひとつにみせかけるカラクリが必要になる。
理由は、通信してくる相手が、どっちに繋いだらいいかわからないから。
アマゾンのサイトなんて、Webサーバが何台も並んでるのにURLはひとつだけ。
もし、複数のサーバそれぞれに独自のURLを持たせて、ユーザに繋ぎ先を選ばせるのなら
妙なカラクリはいらない。
でもサーバごとに負荷の偏りが起こり、1番目がつながらないときは2番目に接続するとか、
ユーザの使い勝手が悪くなる。また1台に集中攻撃をすればすぐにサイトを落とされるから、
安心して事業を継続できない。・・・とかいろいろ都合が悪いので、複数をひとつにみせかける
必要が出てくる。
今回は系間ネットワークだからアマゾンと違うけど、4台あるOracleサーバの1号機が2号機と
通信したいときも同じかんじで、2号機のIPが複数あると困ってしまう。
一方のIPにつないで、しばらく応答がなかったら他方へつなげばよさそうだけど、それを
待ってる間、DBの同期が滞ってしまう。じゃあ両方のIPへ同時につないで届いたほうを使え
ばいいかというと、2号機は送られてきた2つの同期情報のどっちを信頼していいかわから
なくなる。片方は通信劣化していて、どっちも同じじゃないかもしれない。やっぱり、接続先
と経路をひとつに見せないと都合が悪い。
Oracle側で、2本のパスでうまくやりくりするロジックが作れないわけでもないけど、
2つある経路やIPをひとつにみせかけてくれるカラクリがあれば解決する。
Ciscoスイッチと、サーバOSの機能を組み合わせればそのカラクリが作れるし、20年以上前
から世界中で使われてる枯れたカラクリで安心できるはずだった。
そのカラクリに、特定のコンディションでしか発生しないレアかつ致命的な不具合があり、
今回うまく動かなかった。
ひとつに見せるカラクリは、自動/手動どっちもできるけど、手動だと人が気づくまで
サービスが止まるから、自動でやることが多い。
199 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 12:28:11.58 ID:ITwbrCnG0.net
スイッチの冗長の仕方が悪いな
そんなクリティカルなシステムをヘボい冗長スイッチで組んでたんだろ
メーカーを分けるとか遅達廃棄とかいくらでも対応策はあったろうに
そんなクリティカルなシステムをヘボい冗長スイッチで組んでたんだろ
メーカーを分けるとか遅達廃棄とかいくらでも対応策はあったろうに
201 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 12:31:22.30 ID:VlrXkvI70.net
>>199
> そんなクリティカルなシステムをヘボい冗長スイッチで組んでたんだろ
普通に考えて高いだろw
> メーカーを分けるとか遅達廃棄とかいくらでも対応策はあったろうに
「2台とも壊れていた」って話ならメーカー分けるのは意味あるが、
これはぜんぜん違う話だろw
っていうか障害解決できなかったわけじゃないからね?
障害解決まで時間がかかった(それでも十分速いが)のが
イーサネットスイッチのバグで異常状態がわからなかったって話だから
209 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 12:53:12.27 ID:ITwbrCnG0.net
>>201
バグならメーカー分けてれば回避できただろう
そもそも方系ダウンして通信ができなくなることがありえないよ
なんのために2倍の投資して冗長するんだ
219 名前:名無しさん@1周年[] 投稿日:2016/04/02(土) 14:29:22.30 ID:9BZRC6Kn0.net
>>199
別メーカー同士のSwitchの冗長構成の動作はどこが保証するの?
不具合が起きれば両方のメーカーにSRするのか?
別メーカー同士のSwitchの冗長構成の動作はどこが保証するの?
不具合が起きれば両方のメーカーにSRするのか?
223 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:33:18.94 ID:VwxR2Fbu0.net
>>219
冗長機器同士は切り離しとかないと冗長の意味がないだろ
互いに影響してお陀仏とか一体何がしたいんだ
冗長機器同士は切り離しとかないと冗長の意味がないだろ
互いに影響してお陀仏とか一体何がしたいんだ
224 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:34:43.61 ID:EPol8N/r0.net
>>223
お前が何がいいたいのか?なんだがw
別メーカーにしようが、自動的に切り替わるわけがないだろ。
そもそもスイッチが原因であるとわからなかったんだから。
お前が何がいいたいのか?なんだがw
別メーカーにしようが、自動的に切り替わるわけがないだろ。
そもそもスイッチが原因であるとわからなかったんだから。
225 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:51:46.80 ID:VwxR2Fbu0.net
>>224
別にスイッチで切り替えなければ良い話だろ
別にスイッチで切り替えなければ良い話だろ
226 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:54:19.57 ID:EPol8N/r0.net
>>225
> 別にスイッチで切り替えなければ良い話だろ
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
> スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。
>そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。
動作してるのに、どうやって?w
> 別にスイッチで切り替えなければ良い話だろ
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
> スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。
>そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。
動作してるのに、どうやって?w
227 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:56:10.57 ID:VwxR2Fbu0.net
>>226
もう馬鹿としかw
もう馬鹿としかw
229 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:57:52.64 ID:HBq5NxfT0.net
>>227
中途半端に生きてるから切り替えの判断ができなかったのに、別メーカーのスイッチ繋げば解決すると思ってる方がバカだろ
231 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 16:03:40.77 ID:Cn4NdAwp0.net
>>229
もうちょっと質の高い監視系を作り込んどくべきだったね
235 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 16:16:03.31 ID:HBq5NxfT0.net
>>231
監視系というか、その状態でもエラーがそれなりの頻度で上がってるんだろうから
それが規定値超えたら念のため予備系に振るという動作を足せばいいんだろ
再発防止のシステム改修もその方向だろうし
236 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 16:23:04.59 ID:Cn4NdAwp0.net
>>235
今回の場合サーバ間の通信に微妙な障害が発生していることがわからないといけなかった
だから監視のレベルを上げないと厳しい
無通信状態ではなかったのだから
pingやSNMPポーリングレベルの監視では
なかなか看破できないだろう
240 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 17:16:25.80 ID:EPol8N/r0.net
>>236
> pingやSNMPポーリングレベルの監視では
イーサネットスイッチにはpingやSNMPの機能ついてないしな。
安いやつは。
高いやつはついているが、でもそれって、
イーサネット自体に異常があるかどうか調べる機能が
ついていることが前提で、これがバグっていると?
ってことで結局同じ話になる。
221 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:14:55.78 ID:YDumWQAN0.net
高ければ未知のバグにあたらないとでも思ってるのかよw
222 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 15:17:25.66 ID:VW2C87rL0.net
>>221
もっとコスト削減させずに二重三重の障害に耐えうるシステムを作らなかったからだろうな
あと一応やらないと面目が立たないっていうしょうもない理由もあるかも
230 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 16:02:25.46 ID:Cn4NdAwp0.net
>>222
そもそもANAはでかい技術部隊持ってるしな
SIだけに責任押し付けるのは無理がありすぎる
SIとの関係においては客であるANA優位だろうけど
ANAにも十分社会的な責任がある
減給は当然で辞任していいくらい
239 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 17:11:21.49 ID:ouqragZf0.net
IOSもそれなりに未知のバグ多いしな
構築中に発覚すると計画狂ってめんどくさいから困る
まあこれはCisco機器に限った話でもないけど
241 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 17:17:26.50 ID:VW2C87rL0.net
>>239
構築中の方がマシでしょ
稼働中だともういじれないから切り分けが難しくて…
249 名前:名無しさん@1周年[sage] 投稿日:2016/04/02(土) 21:49:21.69 ID:8ne+PuDv0.net
syslogガーとかSNMPガーっていう人たちは、それを監視すれば自動的に切り替わるとか思ってんの?
252 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 01:11:42.91 ID:bHYnY9Nt0.net
>>249
多分報告のときに故障シグナルって表現をしたからこういう話になってるんだろうが、結局シグナルって何を指してるんだろうね
型番まで細かくだしてるのに故障シグナルってぼんやりしてない?
多分報告のときに故障シグナルって表現をしたからこういう話になってるんだろうが、結局シグナルって何を指してるんだろうね
型番まで細かくだしてるのに故障シグナルってぼんやりしてない?
253 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 01:12:00.11 ID:/Jfh7jAf0.net
>>249
あのさあ…。頭悪そうだね君。
あのさあ…。頭悪そうだね君。
258 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 02:03:04.03 ID:iOPhFzH80.net
>>252
そこがよくわからんよね
仮にトラップだのログだのの話だとして検知ができるだけ
IOSのバグといっている以上、切り替えはスイッチ側に
やらせようとしていたわけだし
>>253
目標は何ですか?って話なだけなのよ
通常は、障害発生⇒自動で切替・同時に障害を検知⇒障害部位の
問題を解消⇒正常化
なわけで、スイッチから障害のトラップだのログが送られてきても
切り替わらない
ただ企業を叩きたいだけってんなら「なるほどね」だけども
現実的にトラップだのログだので自動的に切り替える方法が
あるなら知りたいわけ
そこがよくわからんよね
仮にトラップだのログだのの話だとして検知ができるだけ
IOSのバグといっている以上、切り替えはスイッチ側に
やらせようとしていたわけだし
>>253
目標は何ですか?って話なだけなのよ
通常は、障害発生⇒自動で切替・同時に障害を検知⇒障害部位の
問題を解消⇒正常化
なわけで、スイッチから障害のトラップだのログが送られてきても
切り替わらない
ただ企業を叩きたいだけってんなら「なるほどね」だけども
現実的にトラップだのログだので自動的に切り替える方法が
あるなら知りたいわけ
256 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 01:30:09.59 ID:Ap1KRAmt0.net
いや、故障シグナルが送信されなかったから切り替わらなかったって説明にも取れるので
最後の一文は同意できないかなあ
このニュースの文章が微妙なのかも
ちなみに249ではない
最近頭悪そうとかバカとかしかレスしない人が増えてるなあと思い書いてみた
最後の一文は同意できないかなあ
このニュースの文章が微妙なのかも
ちなみに249ではない
最近頭悪そうとかバカとかしかレスしない人が増えてるなあと思い書いてみた
280 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 10:17:19.64 ID:ugU0C4tA0.net
>>256
>>258
255の文章が理解できてないみたいだな。
故障シグナルが何を意味するか特定できないんだから、
その意味をケース別に分けて考えればいいだけなんだが。
>>258
255の文章が理解できてないみたいだな。
故障シグナルが何を意味するか特定できないんだから、
その意味をケース別に分けて考えればいいだけなんだが。
282 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 11:05:38.36 ID:qrTybEn20.net
>>280
別に故障シグナルはなんでもいいんだわ
問題はそれが発出されず、切り替えができなかったことなんだから
スイッチ側でそれをする事になってたが、今回の事象含めて、サーバー側でも対応できるようにしますよって事だろ
別に故障シグナルはなんでもいいんだわ
問題はそれが発出されず、切り替えができなかったことなんだから
スイッチ側でそれをする事になってたが、今回の事象含めて、サーバー側でも対応できるようにしますよって事だろ
285 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 11:19:51.63 ID:ugU0C4tA0.net
>>282
だからさ、1の記事では、
その故障シグナルと、自動切り替えが機能しなかったのは、
別の話であるとも読み取る事はできるといってんだが。
日本語理解でかないんかお前w
だからさ、1の記事では、
その故障シグナルと、自動切り替えが機能しなかったのは、
別の話であるとも読み取る事はできるといってんだが。
日本語理解でかないんかお前w
289 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 11:35:49.05 ID:qrTybEn20.net
>>285
>本来であれば、スイッチが故障すると「故障シグナル」を発信し、自動的に予備機に切り替わる設計になっていたが、今回はシグナルが発信されず、予備機に切り替わらなかった。
これを故障シグナルの発信と自動切替機能が別だと理解するのは無理だわ
>本来であれば、スイッチが故障すると「故障シグナル」を発信し、自動的に予備機に切り替わる設計になっていたが、今回はシグナルが発信されず、予備機に切り替わらなかった。
これを故障シグナルの発信と自動切替機能が別だと理解するのは無理だわ
291 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 11:44:15.83 ID:ugU0C4tA0.net
>>289
そういう風に理解しろって話じゃなくて>>1の記事をかいた奴が素人なんだから、
そういう可能性もあり得るよね。その場合、故障シグナルが意味するところはSNMPのTrapだね。
だから、「SNMPガーとか言ってる人はSNMPのTrapで自動切り替わりできると思ってるんだろうか」と、
と言ってるやつは頭が悪そうだねと言ってる。理解できた?
1から10まで説明して貰えないと理解できないんだからやっぱり頭悪いんじゃないか。
そういう風に理解しろって話じゃなくて>>1の記事をかいた奴が素人なんだから、
そういう可能性もあり得るよね。その場合、故障シグナルが意味するところはSNMPのTrapだね。
だから、「SNMPガーとか言ってる人はSNMPのTrapで自動切り替わりできると思ってるんだろうか」と、
と言ってるやつは頭が悪そうだねと言ってる。理解できた?
1から10まで説明して貰えないと理解できないんだからやっぱり頭悪いんじゃないか。
303 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:09:36.88 ID:qrTybEn20.net
>>291
だいたい理解した
>>249はsnmp監視しとけば自動切換できると思ってるの?
→監視機能と切替機能は別なんだから故障だけ上がっても意味ないだろと
ID:ugU0C4tA0は「故障シグナル」としか書かれてないからそれが何をさしてるのかと言うのは意味があると
全く話噛み合ってないな
つか話聞かずにバカと言い出したID:ugU0C4tA0の方がよっぽど馬鹿に見えるわ
んで改めてレス見返したが中身ねーな
バカしか言ってねーじゃん
304 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 12:12:39.83 ID:ugU0C4tA0.net
>>303
いや、俺のいってる事を理解できてないよお前w
307 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 12:17:33.79 ID:ugU0C4tA0.net
読み取れないのは馬鹿だから。
馬鹿じゃなければ>>291>>292で俺の言ってる事が何かは分かる。
283 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 11:09:45.96 ID:PcI5lF1j0.net
>>280
>その場合、故障シグナルと自動切り替わりは別の話と理解するだろ普通は。
普通は。と書いていたので、そんなの違う受け取り方も出来るから同意できないって話をしただけですよ。
255でのレス内容はケース別に考えているようには見えません。
あなたの文章はいまいち何がいいたいのかよくわからないし、また馬鹿とか罵倒入りでレスしているし。
まともな意見を言う時に最後に罵倒の言葉なんかつけない方が理解されやすいですよ。
293 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 11:49:38.99 ID:Eyb0egRk0.net
> 障害発生を受け、スイッチがシグナルを出さない状況でも、DBサーバーからスイッチの故障を検知できるよう、24日にシステムを改修。
アホな設計だったんだな。
故障したスイッチ自身からのシグナルに依存するようなシステム設計する奴は頭が壊れてる。
294 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 11:53:16.58 ID:ugU0C4tA0.net
>>293
コイツも馬鹿だなw
297 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:01:26.40 ID:Eyb0egRk0.net
所詮は素人が集まる板だから仕方ないだろね。
UNIX、TCP/IP、イーサネット等を使った
オープン系の大規模高信頼システムは
20年前くらいから始まってるが、
その頃よりもインテグレーターの設計力が落ちてる。
UNIX、TCP/IP、イーサネット等を使った
オープン系の大規模高信頼システムは
20年前くらいから始まってるが、
その頃よりもインテグレーターの設計力が落ちてる。
301 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:09:01.19 ID:njLAEg7e0.net
>>297
今回の障害原因を、システム設計の性にする人が一番の素人。
スイッチからOS、ミドルウェアまで全部スクラッチ開発して、バグが発生しないシステム設計をしてもらいたいものだ。
今回の障害原因を、システム設計の性にする人が一番の素人。
スイッチからOS、ミドルウェアまで全部スクラッチ開発して、バグが発生しないシステム設計をしてもらいたいものだ。
313 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 12:33:29.36 ID:KK5g/eZm0.net
>>301
いやどう考えても設計がおかしいだろうw
というか、だから ANAも対策として監視設計を変更したんだろうし
いやどう考えても設計がおかしいだろうw
というか、だから ANAも対策として監視設計を変更したんだろうし
317 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:39:16.39 ID:WsyQynb60.net
>>313
じゃあ具体的にどこまで監視しろと?
じゃあ具体的にどこまで監視しろと?
322 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 12:45:28.68 ID:KK5g/eZm0.net
>>317
どこまでと言うか、
「スイッチが自身の故障シグナルを外部に通知して切り替える」
って仕様がおかしいんであって
「外部サーバーからスイッチの状態を死活監視する」
って仕様に普通にすればよかったんだよ
それは特段難しくもなく、普通にやってる事だから2日で実装できたんだろう
>まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日
>にシステム改修を終えた。スイッチが「故障シグナル」を出さなくても、DBサーバー
>からスイッチの故障を検知できるようにした。
どこまでと言うか、
「スイッチが自身の故障シグナルを外部に通知して切り替える」
って仕様がおかしいんであって
「外部サーバーからスイッチの状態を死活監視する」
って仕様に普通にすればよかったんだよ
それは特段難しくもなく、普通にやってる事だから2日で実装できたんだろう
>まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日
>にシステム改修を終えた。スイッチが「故障シグナル」を出さなくても、DBサーバー
>からスイッチの故障を検知できるようにした。
326 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:53:32.36 ID:njLAEg7e0.net
>>322
あのな、外からスイッチの状態をどうやって監視するんだ?
snmpポーリングか?スイッチが誤った結果報告したらどうするんだ?
スイッチへのping監視か?ping応答の結果、全てのポートインタフェースの正常性を確認できるのか?
スイッチに接続してるサーバ全てがスイッチへのping監視する必要あるぞ。お前が設計したシステムはそんなことやってるのか?
あのな、外からスイッチの状態をどうやって監視するんだ?
snmpポーリングか?スイッチが誤った結果報告したらどうするんだ?
スイッチへのping監視か?ping応答の結果、全てのポートインタフェースの正常性を確認できるのか?
スイッチに接続してるサーバ全てがスイッチへのping監視する必要あるぞ。お前が設計したシステムはそんなことやってるのか?
328 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:54:31.00 ID:WsyQynb60.net
>>322
いやさすがに外部サーバーからの死活監視はしてたと思うよw
死活監視を盛り込まないなんてあり得ないしお客さんからも指摘が入るだろう
死活監視をしないなんて余程の理由がANA側にあって無理やりさせなかったレベルだと思う
死活監視では発見出来ないレベルの障害だったからこんな話になっているんだけど
素人じゃなくて本気で言ってるの…?
いやさすがに外部サーバーからの死活監視はしてたと思うよw
死活監視を盛り込まないなんてあり得ないしお客さんからも指摘が入るだろう
死活監視をしないなんて余程の理由がANA側にあって無理やりさせなかったレベルだと思う
死活監視では発見出来ないレベルの障害だったからこんな話になっているんだけど
素人じゃなくて本気で言ってるの…?
331 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:13:58.50 ID:KK5g/eZm0.net
>>326
SNMP-GETでスイッチの接続ポートステータスと
Interface Errorを見ればいいじゃん
>>328
俺もそう思うんだけどプレスリリース内容が
>スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。
>国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。
>ANAは再発防止策も公表。まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日にシステム改修を終えた。
>スイッチが「故障シグナル」を出さなくても、DBサーバーからスイッチの故障を検知できるようにした。
こんな感じだから「外部監視やってなかったの?」と勘ぐられても仕方ないよ
SNMP-GETでスイッチの接続ポートステータスと
Interface Errorを見ればいいじゃん
>>328
俺もそう思うんだけどプレスリリース内容が
>スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。
>国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。
>ANAは再発防止策も公表。まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日にシステム改修を終えた。
>スイッチが「故障シグナル」を出さなくても、DBサーバーからスイッチの故障を検知できるようにした。
こんな感じだから「外部監視やってなかったの?」と勘ぐられても仕方ないよ
332 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:16:42.78 ID:njLAEg7e0.net
>>331
たから、SNMP-GETで結果応答するの誰だよ?
スイッチ自身だろ?
それがバグって正しい結果応答しなかったらどうすんだ?
今回のはそういう話だろ。
たから、SNMP-GETで結果応答するの誰だよ?
スイッチ自身だろ?
それがバグって正しい結果応答しなかったらどうすんだ?
今回のはそういう話だろ。
339 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:27:51.50 ID:KK5g/eZm0.net
>>332
>それがバグって正しい結果応答しなかったらどうすんだ?
だから導入前に障害試験と障害試験で普通はバグを潰すんだろう
仮に発生頻度が低いバグならSNMP-GETなら定期的に取得するから問題ない
というか当事者の対策が
「DBサーバーからスイッチの故障を検知できるようにした。」
だからね
>それがバグって正しい結果応答しなかったらどうすんだ?
だから導入前に障害試験と障害試験で普通はバグを潰すんだろう
仮に発生頻度が低いバグならSNMP-GETなら定期的に取得するから問題ない
というか当事者の対策が
「DBサーバーからスイッチの故障を検知できるようにした。」
だからね
342 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:32:35.64 ID:WsyQynb60.net
>>339
SNMPGETして、本当はポート動いてないのに動いてるって返してきたらどうするの?
SNMPGETして、本当はポート動いてないのに動いてるって返してきたらどうするの?
346 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:38:45.93 ID:KK5g/eZm0.net
>>342
トラフィック閾値監視と組み合わせる
サーバーが送信したトラフィックとスイッチ側の受信したトラフィックを比較して
極端に変動してれば警告メッセージをだしてエンジニアが切り分けるとか
トラフィック閾値監視と組み合わせる
サーバーが送信したトラフィックとスイッチ側の受信したトラフィックを比較して
極端に変動してれば警告メッセージをだしてエンジニアが切り分けるとか
352 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:53:35.82 ID:ugU0C4tA0.net
>>346
サーバーが送信したトラフィックとスイッチ側の受信したトラフィックを
どうやって比較するの?そんでどこが警告メッセージを出すの?
サーバーが送信したトラフィックとスイッチ側の受信したトラフィックを
どうやって比較するの?そんでどこが警告メッセージを出すの?
344 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:35:18.17 ID:njLAEg7e0.net
>>339
で、今回の障害が発生した後で、発生頻度が低いバグがあることがわかりました!
ってなってるんだけど。
それが設計ミスなのか?って聞いてるんだが。
その設計をすると、世界初のバグを事前に発見できるの?
で、今回の障害が発生した後で、発生頻度が低いバグがあることがわかりました!
ってなってるんだけど。
それが設計ミスなのか?って聞いてるんだが。
その設計をすると、世界初のバグを事前に発見できるの?
348 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:43:03.39 ID:KK5g/eZm0.net
>>344
バグを事前に100パーセント検知する事は不可能し、そこは問題視してない
今回少なくとも俺が問題視してるのはバグを事前に検知できなかった事ではなく、
「スイッチが障害時に自分自身で外部に故障シグナルを通知して切り替える」
って設計だよ
何か特殊な事をやってるのかと思えばC4948だとそれもなさげだし。
本当にTrapで通知する設計なら素人仕事
バグを事前に100パーセント検知する事は不可能し、そこは問題視してない
今回少なくとも俺が問題視してるのはバグを事前に検知できなかった事ではなく、
「スイッチが障害時に自分自身で外部に故障シグナルを通知して切り替える」
って設計だよ
何か特殊な事をやってるのかと思えばC4948だとそれもなさげだし。
本当にTrapで通知する設計なら素人仕事
349 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:50:01.36 ID:ugU0C4tA0.net
>>348
このスイッチがTrapで通知してただけだと想定してる時点で素人だよ。
そんな訳ない事は素人じゃなければ分かるからそもそもそんな事を疑わない。
このスイッチがTrapで通知してただけだと想定してる時点で素人だよ。
そんな訳ない事は素人じゃなければ分かるからそもそもそんな事を疑わない。
351 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:53:21.07 ID:KK5g/eZm0.net
>>349
じゃあお前は「スイッチが故障シグナルを発信しなかった」ってのをどう読み解くんだよ
素人の俺に判るように教えてくれw
ちなみにスイッチのモデルがCatalyst4948Eって事は公表されてるから
ちゃんと実装されてる機能で回答してね
じゃあお前は「スイッチが故障シグナルを発信しなかった」ってのをどう読み解くんだよ
素人の俺に判るように教えてくれw
ちなみにスイッチのモデルがCatalyst4948Eって事は公表されてるから
ちゃんと実装されてる機能で回答してね
353 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:57:12.23 ID:ugU0C4tA0.net
>>351
読み解くって読み解けるレベルの情報がないのに読み解くも糞もないだろ。
この素人記者の書いた記事からは、故障シグナルが監視系のものか、
自動冗長の為のプロトコルなのかも分からない。
読み解くって読み解けるレベルの情報がないのに読み解くも糞もないだろ。
この素人記者の書いた記事からは、故障シグナルが監視系のものか、
自動冗長の為のプロトコルなのかも分からない。
355 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 14:06:51.66 ID:KK5g/eZm0.net
>>352
監視サーバー(Zabbix等)でスイッチとDBサーバーのトラフィックを取得して
それぞれとIn/outを比較
で一定以上の差分があれば監視サーバーから警告メッセージを送信ってとこかな。
誤検知のリスクが高いからここは障害ではなく、警告に止めてオペレーターが
手動で切り分けると
>>353
>故障シグナルが監視系のものか、
>自動冗長の為のプロトコルなのかも分からない。
L2 用途でDBバックエンドで単一セグメント通信における
冗長化のためのプロトコルって何よ?
少なくとも構成と文面的に故障シグナルは監視系(障害通知)と推測するだろ
監視サーバー(Zabbix等)でスイッチとDBサーバーのトラフィックを取得して
それぞれとIn/outを比較
で一定以上の差分があれば監視サーバーから警告メッセージを送信ってとこかな。
誤検知のリスクが高いからここは障害ではなく、警告に止めてオペレーターが
手動で切り分けると
>>353
>故障シグナルが監視系のものか、
>自動冗長の為のプロトコルなのかも分からない。
L2 用途でDBバックエンドで単一セグメント通信における
冗長化のためのプロトコルって何よ?
少なくとも構成と文面的に故障シグナルは監視系(障害通知)と推測するだろ
360 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 14:15:39.43 ID:ugU0C4tA0.net
>>355
DBの同期系がL2用途で単一セグメントの通信である根拠は?
DBの同期系がL2用途で単一セグメントの通信である根拠は?
362 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 14:19:15.35 ID:njLAEg7e0.net
>>360
それは、RACの仕様から推察できるわな。
インターコネクト用のネットワークは、クラスタメンバ間で、ブロードキャスト通信ができることが条件。同じセグメントである必要がある。
それは、RACの仕様から推察できるわな。
インターコネクト用のネットワークは、クラスタメンバ間で、ブロードキャスト通信ができることが条件。同じセグメントである必要がある。
366 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 14:22:46.80 ID:ugU0C4tA0.net
>>362
ああそうなのね。ならそうだな。
>>355
なら可能性の一つはスパツリとかじゃね。
ああそうなのね。ならそうだな。
>>355
なら可能性の一つはスパツリとかじゃね。
374 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 14:34:04.74 ID:zrcf361l0.net
>>366
stpなら隣接機器側で障害を検知出きるからスイッチを故障シグナルを通知する必要なくね?
333 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:18:05.76 ID:KK5g/eZm0.net
>>331
これは想像だけど外部(監視サーバー)からスイッチへのPing監視はしてて、SNMP-GETによる
状態監視はやってなかったんじゃない?
で、これらの状態変化はTrapで通知する設計だったけど、それがバグで通知出来なかったと
これは想像だけど外部(監視サーバー)からスイッチへのPing監視はしてて、SNMP-GETによる
状態監視はやってなかったんじゃない?
で、これらの状態変化はTrapで通知する設計だったけど、それがバグで通知出来なかったと
336 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:26:01.87 ID:WsyQynb60.net
>>333
あなたの言う通りSNMPポーリングしてなかったってことかなあ
こんな大規模システムでもやらないのかね
やらないときはやらないのか…?うーん
SNMPGETも結局IOSに問い合わせるからIOSがバグって違う応答返したら終わるよね
サーバー側のポートで見ればいいのか…
337 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 13:26:04.20 ID:ugU0C4tA0.net
つーか現場も知らず設計もした事ない素人が憶測で想像しても意味ないんじゃないか。
殆どが的外れな意見でしょw
>>333
SNMP-GETで何を監視するの?それで今回の障害が防げるの?
338 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:27:33.75 ID:PcI5lF1j0.net
>>337
それお前のことかな?w
341 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:32:28.15 ID:Eyb0egRk0.net
>>337
お前、何いってんの?
この程度の設計はシステム屋ならいつでもやってることだぞ。
これくらいのことも出来ないようならWebデザイナーとして喰ってくか、
コーダーとして喰ってくかしかない。
310 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 12:21:50.23 ID:ugU0C4tA0.net
因みに>>1の記事かいた奴は仕事なのに馬鹿にでも理解できるどころか、
馬鹿が誤解してしまうような記事を書いてるから問題外だろ。
もしかしたらANAやユニシスの説明が悪かったのかもしれんが。
318 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 12:41:54.01 ID:GOEFBiBY0.net
で、無能なシステム保守会社はどこなの?
この程度のトラブルなら、原因究明に20分・交換作業に15分・システム復旧に20分
一時間で直さなきゃ 常駐保守員がいるなら
335 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 13:26:01.70 ID:Eyb0egRk0.net
DBサーバー同士をつなぐためのスイッチだから、
サーバー相互のハートビートが途切れたら予備系に切り替えるように
設定しとけばよかっただけのケース。
「改修」の中身はコンフィグファイルの修正だけだろう。
365 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 14:22:42.39 ID:Eyb0egRk0.net
俺が書いた>>335の意味すら理解できないレベルの集団だからなあ。
384 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:33:50.29 ID:lHWloAnJ0.net
>>335
> サーバー相互のハートビートが途切れたら予備系に切り替えるように
> 設定しとけばよかっただけのケース。
お前ハートビートがどんな問題でも解決する魔法の技術だと思ってないか?w
ハートビートでデータベースサーバーが停止したら待機系に切り替えるってのは
よくある設計だが、今回はすべてのデータベースサーバーがイーサネットスイッチの故障で
停止したってわかってるか?
イーサネットスイッチ自体をハートビートで切り替えるなんて聞いたことねぇよ。
388 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:41:33.00 ID:Eyb0egRk0.net
>>384
バカですか?
DBサーバー閉塞なんてもんは最後の最後の手段。
その前にハートビート途絶を契機として予備系に切り替えれば
数秒から十数秒程度の中断で済んでた話。
お前、マジでDBを触ったことないだろ。
354 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 14:01:17.28 ID:ugU0C4tA0.net
ただこの場所に入ってるような機器だとそれなりの監視はしてて当然で、
Trapだけしかしてないとか想定しちゃってる時点で普通はそんな想定はしないんだから、
素人なの?って思われるよね。何かおかしい事いってるか俺w
357 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 14:09:35.26 ID:KK5g/eZm0.net
>>354
こういう質問は嫌だが「それなりの監視はしてて当然」以外にTrapじゃないって根拠はあるか?
それこそお前の思い込みじゃないのか?
その当然してて当たり前の事が出来てなかったからたかだか1台のスイッチ故障で大規模障害になったんじゃないのか?
その当たり前の事が出来てなかったからANAは訴訟を検討してるんじゃないのか?
371 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 14:31:14.49 ID:ugU0C4tA0.net
>>357
原因はIOSのバグでした。
ならANAと契約してるのはSIだからSIに訴訟を検討するのは当たり前だろ。
そしてSIはシスコに訴訟を検討する流れだろ。
ただし検討なら別にどういう情況でもできるが、
実際に訴訟になるかどうかは勝算次第だから、
実際に訴訟がおこってどっちが勝つか分からないと意味がない。
訴訟を検討してるんだから当たり前の事ができてなかったと推測するのは早漏だね。
376 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 14:36:48.65 ID:zrcf361l0.net
>>371
今回の件は大きなニュースにもなり社長が謝罪してるんだぞ
仮に訴訟で負けたら恥の上塗りだから勝算かないとやらないよ
その理屈ならなぜ数年前のバグは訴訟してないの?
375 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 14:35:47.74 ID:aLxVjc2/0.net
しかしこれ、スイッチが原因なら、 システム変えてもまた起きるだろうね。再現実験で再現出来たと聞くしね。
下手にシステムをメインフレームに戻しても、また大きな別の障害を生むことになるだろうし、何より年数を必要とする。金も掛かる。
シスコ以外で使えるスイッチってあるの?
下手にシステムをメインフレームに戻しても、また大きな別の障害を生むことになるだろうし、何より年数を必要とする。金も掛かる。
シスコ以外で使えるスイッチってあるの?
383 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:33:47.00 ID:Z9xSR/mU0.net
>>375
DBならスイッチなんかよりファイバーチャネルっていう専用装置があるよ
DBならスイッチなんかよりファイバーチャネルっていう専用装置があるよ
385 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:35:57.11 ID:iOPhFzH80.net
>>383
ストレージとの接続の話じゃないんで
386 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:38:19.87 ID:Z9xSR/mU0.net
>>385
RACのことじゃなかったのか?
387 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:40:07.40 ID:Al70ws540.net
>>386
お前のところストレージだけじゃなくてRACノード間のネットワークハートビートにFC使ってるの?
398 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:56:11.22 ID:Z9xSR/mU0.net
>>387
ノード間のネットワークハートビートの異常って>>1に書いてる?それとも別ソース?
データの整合性が取れないってとこから共有ストレージとの異常かと思ったんだが
390 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:48:00.21 ID:lHWloAnJ0.net
スイッチが2つあったとして、何と何のハートビートをしてるのか
言ってほしいものだがなw
具体的なイメージが湧かないだろうから
A B C D E F G H
┌┴┴┴┴┴┴┴┴┐
│スイッチ │ × 2台
└────────┘
例えば、ポートAを調べていて反応がなければ
データベースサーバーが悪いのかもしれない。
その場合切り替えたって意味がない。
全てのポートを調べるのか? IPアドレスはスイッチには存在しない
接続先に存在する。つながらなくてもスイッチが悪いかどうかはわからない。
それともスイッチ自体に管理機能があってIPアドレスがあって、
そいつに問い合わせるのか? それだと特定のポートの故障は
管理機能がチェックできるかになって、管理機能にバグが有るのなら同じこと。
言ってほしいものだがなw
具体的なイメージが湧かないだろうから
A B C D E F G H
┌┴┴┴┴┴┴┴┴┐
│スイッチ │ × 2台
└────────┘
例えば、ポートAを調べていて反応がなければ
データベースサーバーが悪いのかもしれない。
その場合切り替えたって意味がない。
全てのポートを調べるのか? IPアドレスはスイッチには存在しない
接続先に存在する。つながらなくてもスイッチが悪いかどうかはわからない。
それともスイッチ自体に管理機能があってIPアドレスがあって、
そいつに問い合わせるのか? それだと特定のポートの故障は
管理機能がチェックできるかになって、管理機能にバグが有るのなら同じこと。
393 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:52:13.79 ID:iOPhFzH80.net
>>390
2台で単純化しちゃうと
DBサーバーA ------- スイッチ -------- DBサーバーB
DBサーバーAがUDPを使ってDBサーバーBに「生きてるか?」って
問い合わせる
独自で実装してる場合はわからんってなるけど
400 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:58:38.23 ID:VdvF88fu0.net
>>393
L7監視するとして、DB 2台構成では互いに通信できないケースが救えるわけないだろう
勝手に2台にすんな
402 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:02:47.78 ID:iOPhFzH80.net
>>400
ID:lHWloAnJ0がハートビートの仕組みを知らないみたいだったから
それの説明として書いたつもり
今回の話として書いたわけじゃないよ
404 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:04:28.11 ID:lHWloAnJ0.net
>>402
あほかw 今回の障害はハートビートでは解決できないのに
ハートビートしていればーとかいう技術知らないアホがいるから
説明してやってるんだろw。
ハートビートしてデータベースサーバーが障害があった時の
切り離しは当然行われた。
395 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:54:33.58 ID:iOPhFzH80.net
Bを切り離してBの機能をA、C、Dに振り分けるけど
399 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 15:56:32.11 ID:lHWloAnJ0.net
>>395
> Bを切り離してBの機能をA、C、Dに振り分けるけど
今回壊れたスイッチはそのままにしてってことだよなw
401 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:00:54.94 ID:iOPhFzH80.net
>>399
ん?
サーバーBが死んだときの話なのに
なんでいきなりスイッチが壊れてるの?
413 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:22:13.06 ID:JewltNLs0.net
snmpのtrapってudpで、しかも現象発生時に単発しか飛ばないと思うんだけど。
クラスタのサーバ〜サーバ間のハートビートとかと違って。
だから、trapを切り替わり条件にするのが
一般的な実装なのかってところが知りたいところ。
詳しく知らないんで。
もちろん、ポーリングと併せて監視には十分だろうけど。
415 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:23:09.65 ID:iOPhFzH80.net
>>413
一般的じゃないです
420 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:36:26.88 ID:1XcqSU+O0.net
そうはいうけど、Catalyst 4948Eってのはおいくら万円よ。
はなしはそれからだ。
はなしはそれからだ。
423 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:41:07.29 ID:p3Rg4oLf0.net
>>420
ggrks
200万円くらいかな。グレードによって変わるだろうけど。
ggrks
200万円くらいかな。グレードによって変わるだろうけど。
427 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:45:41.25 ID:1XcqSU+O0.net
>>423
自動車1台の価格やないかい。
そらアイテー業界ではハードは壊れると考えるのが常識かもしれまへんが、それとメーカーの責任と別でっ者ろ。
そもそもその常識すらも、世間の非常識かもしれまへんで。
自動車1台の価格やないかい。
そらアイテー業界ではハードは壊れると考えるのが常識かもしれまへんが、それとメーカーの責任と別でっ者ろ。
そもそもその常識すらも、世間の非常識かもしれまへんで。
429 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:48:56.71 ID:lHWloAnJ0.net
>>427
> 自動車1台の価格やないかい。
もっと高いイーサネットスイッチ知ってるの?
値段が高ければそれに比例して性能が上がるわけじゃないんだけど。
> 自動車1台の価格やないかい。
もっと高いイーサネットスイッチ知ってるの?
値段が高ければそれに比例して性能が上がるわけじゃないんだけど。
434 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:54:06.91 ID:1XcqSU+O0.net
>>429
ほー、もっと高いの買うてたら壊れんかったとでもいうんかい。
じゃかましいわ。だったらその高いやつをいますぐ使わせたらんかい。はなしは10年後、それがこわれないかどうか、見届けてからや。
ほー、もっと高いの買うてたら壊れんかったとでもいうんかい。
じゃかましいわ。だったらその高いやつをいますぐ使わせたらんかい。はなしは10年後、それがこわれないかどうか、見届けてからや。
436 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:55:23.65 ID:lHWloAnJ0.net
>>434
> ほー、もっと高いの買うてたら壊れんかったとでもいうんかい。
だから俺は世の中に壊れないものなんて
無いって言ってるんだけど?
壊れない方法もない。
> ほー、もっと高いの買うてたら壊れんかったとでもいうんかい。
だから俺は世の中に壊れないものなんて
無いって言ってるんだけど?
壊れない方法もない。
443 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:59:09.24 ID:1XcqSU+O0.net
>>436
へえ、じゃあなんでもっと高いスイッチの話をだしたんや。関係ないやろがい。
へえ、じゃあなんでもっと高いスイッチの話をだしたんや。関係ないやろがい。
446 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:00:02.92 ID:lHWloAnJ0.net
>>443
俺は高いスイッチの話なんかしてねーよ。バカじゃねの?
俺は高いスイッチの話なんかしてねーよ。バカじゃねの?
448 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:04:41.45 ID:1XcqSU+O0.net
>>446
たかが12分とんで6秒まえのことをもうお忘れとは健忘症いうやつやな。お大事にの。
たかが12分とんで6秒まえのことをもうお忘れとは健忘症いうやつやな。お大事にの。
450 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:06:08.59 ID:lHWloAnJ0.net
>>448
時間計算するよりも、どのレスのことか
指摘したほうが速いぞw
まあできなかったんだろうな。
俺は値段の話なんかしてないからな。
454 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:08:09.38 ID:1XcqSU+O0.net
>>450
このていどの計算でじかんてw
日本人の暗算能力も落ちたもんやで。
455 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:09:45.41 ID:lHWloAnJ0.net
>>454
> このていどの計算でじかんてw
復旧までたった3時間だからな。
例えば、お前が今日レスし始めたのも、3時間近く前だ。
372 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 14:32:46.43 ID:1XcqSU+O0 [1/13]
457 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:10:52.06 ID:p3Rg4oLf0.net
>>455
12分前のレスのことじゃねーの?
モチツケ
459 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:11:44.48 ID:1XcqSU+O0.net
>>455
意味不明や。
もうこの辺で勘弁しといたるわ。
エセ関西弁使うのも疲れたしな。
432 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:50:52.82 ID:lHWloAnJ0.net
>>427
> そらアイテー業界ではハードは壊れると考えるのが常識かもしれまへんが、
お前、何業界にすんでるの?
形あるものを作ってる業界で、壊れないものなんて無いし、
人間だってミスをする。
お前の世界で、お前の常識を言ってみなよ。
438 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:56:23.81 ID:1XcqSU+O0.net
>>432
話のすり替えおつやのう。
程度の問題ちゅうのがわからんのか。
444 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:59:24.79 ID:lHWloAnJ0.net
>>438
だから、今回のは障害発生(全データベースサーバーダウン)から
わずか1時間で回避策を見つけ、
わずか3時間で搭乗手続きを再開できる、程度問題の話だったってこと。
障害復旧まで速いよ。
451 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:06:38.01 ID:1XcqSU+O0.net
>>444
そのていど、ですむ話なら社長は謝らんやろな。
453 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:07:52.95 ID:lHWloAnJ0.net
>>451
その程度でも社長は謝るんだよ。
お前じゃあるまいしw
「たいして問題なってませーん。俺は謝りませーん。」
ってお前なら言うんだろ?
たいした問題じゃないときに。
456 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:10:05.71 ID:1XcqSU+O0.net
>>453
はあ、じゃあなにをもって、その程度、とう表現をつこうてんのや?支離滅裂なやっちゃで。
422 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:40:08.21 ID:Eyb0egRk0.net
ANAもJALもミスのレベルが低い。
IBMやNTTデータなら朝飯前の仕事だが、
予算の都合で安い業者に発注しちゃったんだろうな。
また、この程度のミスは設計段階で発注側が気づいて当然なんだが、
両社とも気づいてないね。
安い業者に丸投げして、結局、高く付いたね。
IBMやNTTデータなら朝飯前の仕事だが、
予算の都合で安い業者に発注しちゃったんだろうな。
また、この程度のミスは設計段階で発注側が気づいて当然なんだが、
両社とも気づいてないね。
安い業者に丸投げして、結局、高く付いたね。
424 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 16:41:58.78 ID:ugU0C4tA0.net
>>422
レベルが低いのはお前だよ馬鹿w
レベルが低いのはお前だよ馬鹿w
428 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:48:35.50 ID:zrcf361l0.net
>>424
さっきから罵倒してるだけで技術的質問荷は何も答えてないね
ほんとはお前さんが素人なんじゃないのw
431 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 16:49:51.49 ID:ugU0C4tA0.net
>>428
技術的な質問ってどこにあるの?
何か答えないといけないようなのあったっけ?
441 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:57:51.98 ID:zrcf361l0.net
>>431
>>374 の回答して
445 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 16:59:51.94 ID:ugU0C4tA0.net
>>441
隣接機器側で直接つながってないリンクの障害をどうやって検知するの?
464 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:36:46.46 ID:mOhRYX1+0.net
>>445
プレスリリースに「4台のサーバーを繋ぐスイッチ」ってあるじゃん
465 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 17:38:08.99 ID:ugU0C4tA0.net
>>464
そりゃそういう構成だろうね。それが何?
430 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:49:25.88 ID:p3Rg4oLf0.net
それにしても、変な壊れ方をして自身から異常なパケットを出すようになった
ネットワークスイッチを素早く見付ける方法って何があるんだろう?
全てのI/Fのエラー数等を監視しておけば分かるだろって言われるかもしれんが
みんなの所は本当にそこまでやってるのか?
以前に遭遇したことがあるが、結局1台ずつスイッチを抜いていって
ようやく特定できたわ・・・
433 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:52:07.38 ID:lHWloAnJ0.net
>>430
> それにしても、変な壊れ方をして自身から異常なパケットを出すようになった
> ネットワークスイッチを素早く見付ける方法って何があるんだろう?
ネットワークスイッチとは独立した機械で、
ネットワークスイッチをいろんな点から診断することが出来る
専用の機械を作る。
それをネットワークスイッチに内蔵させて
インテリジェントなネットワークスイッチを作るw
437 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 16:55:45.08 ID:p3Rg4oLf0.net
>>433
無線ループしそうだなw
コントローラを外出ししたタイプなら
OpenFlowスイッチがそれに当たるのかな?
467 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 17:44:50.71 ID:ugU0C4tA0.net
冗長してるんだからループするだろw
471 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:51:16.99 ID:mOhRYX1+0.net
>>467
どんな構成をイメージしてる?
仮にお前さんが言う通りL2冗長のSTP構成なら通知シグナルとやらがなくても2切り替わるじゃん
474 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:55:29.25 ID:Eyb0egRk0.net
記事から読み取れる範囲で推測すると
サーバー4台はそれぞれスイッチAとスイッチBに
接続され、スイッチAとスイッチB同士は独立、
という構成だろうな。
サーバー4台はそれぞれスイッチAとスイッチBに
接続され、スイッチAとスイッチB同士は独立、
という構成だろうな。
475 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 17:57:26.97 ID:ugU0C4tA0.net
>>474
独立してたら冗長にならないだろw
独立してたら冗長にならないだろw
476 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 17:58:33.54 ID:Eyb0egRk0.net
>>475
わらた。本格的にド素人だな。もしかして中学生ですか?
わらた。本格的にド素人だな。もしかして中学生ですか?
477 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:00:42.34 ID:ugU0C4tA0.net
>>476
一般的なL2冗長も知らない馬鹿は黙ってろ。
一般的なL2冗長も知らない馬鹿は黙ってろ。
479 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:03:18.26 ID:njLAEg7e0.net
>>477
STPくまなくても、サーバのbondingがact/stbyだったら問題ないでしょ?
その構成でやること多いよ?
STPくまなくても、サーバのbondingがact/stbyだったら問題ないでしょ?
その構成でやること多いよ?
491 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:16:18.23 ID:ugU0C4tA0.net
>>479
サーバAとサーバB間の通信で、
サーバAとスイッチAのリンクが使えなかった場合、
サーバAとサーバBってどうやって通信するの?
サーバAとサーバB間の通信で、
サーバAとスイッチAのリンクが使えなかった場合、
サーバAとサーバBってどうやって通信するの?
494 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:18:16.42 ID:njLAEg7e0.net
>>491
スイッチ同士を繋いどけばいいんじゃないの?
スイッチ同士を繋いどけばいいんじゃないの?
498 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:20:10.92 ID:Al70ws540.net
>>494
それだと独立してないとID:ugU0C4tA0は言いたいんだろ
499 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:22:12.26 ID:njLAEg7e0.net
>>498
それとSTP使うかどうかは無関係では?
507 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:30:32.37 ID:ugU0C4tA0.net
>>499
俺はスパツリ使ってるとは言ってないけどね。
あくまでも可能性の一つとして故障シグナルがそれを指してる事もあり得るって話だけで。
まあ可能性は低いだろうけど。
501 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:24:33.65 ID:ugU0C4tA0.net
>>494
ああそうだねw
480 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:03:24.76 ID:aB0PccNM0.net
一般的にL2は冗長化しないからなぁ。何のためにL3があるんだか。
481 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:05:13.27 ID:njLAEg7e0.net
>>480
これは意味不明
486 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:09:48.74 ID:aB0PccNM0.net
>>481
RFCぐらい嫁よな。
487 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:12:17.04 ID:njLAEg7e0.net
>>486
RFCに何書いてあるだか知らんが、
インターコネクト用途にL3SWいらないんだが、それは?
489 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:13:27.72 ID:aB0PccNM0.net
>>487
RFC暗記せずにこのスレにいるのか、おまえは。
490 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:13:56.49 ID:njLAEg7e0.net
>>489
暗記してないから教えてくれ
492 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:17:43.15 ID:aB0PccNM0.net
>>490
ググレカス
505 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:28:21.80 ID:ugU0C4tA0.net
馬鹿晒しあげw
スイッチ間の接続は必須だろ馬鹿。
474 :名無しさん@1周年:2016/04/03(日) 17:55:29.25 ID:Eyb0egRk0
記事から読み取れる範囲で推測すると
サーバー4台はそれぞれスイッチAとスイッチBに
接続され、スイッチAとスイッチB同士は独立、
という構成だろうな。
508 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:31:58.49 ID:Eyb0egRk0.net
>>505
お前、既にリングの上で血吐いて這いつくばってるよ。
その構成でスイッチ同士をつなぐことはほとんどない。
理由くらい自分で考えてご覧。
510 名前:名無しさん@1周年[] 投稿日:2016/04/03(日) 18:34:09.01 ID:ugU0C4tA0.net
>>508
つーか素人は黙ってろって。
512 名前:名無しさん@1周年[sage] 投稿日:2016/04/03(日) 18:36:23.84 ID:Eyb0egRk0.net
>>510
わらた。
お前、俺はこの道のプロだよ。
紙と鉛筆を用意して、>>474のネットワーク構成図を書いて、
通信の仕組みを理解してみ。
それが出来ないようなら、お前は一生猿のままだ。










