지난 10월 발생한 SK(주) C&C 판교 데이터센터 화재 관련 실제 화재상황 수준을 반영한 세부 대응계획과 모의훈련이 없었다는 조사 결과가 나왔다. 장기 먹통 사태를 일으킨 카카오도 대형 재난상황에 대한 대비가 부족했다.
과학기술정보통신부는 방송통신위원회, 소방청과 함께 10월 15일 SK(주) C&C 판교 데이터센터 화재로 인한 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 6일 발표했다.
SK(주) C&C와 카카오, 네이버 등 3사에는 1개월 이내에 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 보고하도록 할 계획이다.
조사에 따르면 화재는 10월 15일 오후 3시 19분 데이터센터 지하 3층 배터리실에서 발생해 오후 11시 45분 완전 진화됐다. 화재진압 후 순차적으로 전력공급을 재개해 10월 19일 새벽 5시경 전력공급이 정상화됐다.
SK(주) C&C는 2016년 리튬이온배터리를 설치한 뒤 특화된 방화조치는 하지 않은 것으로 나타났다. 당시 화재가 발생한 뒤 가스 소화 장비가 작동했으나 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있었다.
리튬이온 배터리가 일부 무정전전원장치(UPS)와 물리적으로 완벽히 분리되지 않은 공간에 배치돼 있었다. 또 화재 대비 매뉴얼은 있었으나 살수 상황, 발화 구역 등 실제 화재상황 수준까지 반영한 세부 대응계획과 모의훈련은 없었던 것으로 밝혀졌다.
카카오는 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치를 통해 10월 20일 오후 11시경 정상화됐다. 장애 복구에 127시간 33분이 소요된 것으로 조사됐다.
카카오는 '운영 및 관리도구'가 다른 데이터센터에 이중화돼있지 않아 대기(Standby) 시스템이 제대로 동작하지 못했고, 서비스 장애 복구가 지연됐다. 일부 서비스 구성 요소도 데이터센터 간 이중화가 이뤄지지 않았다. 핵심 기능이 판교 데이터센터에 집중된 점도 피해를 키웠다. 또 일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했으나 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대한 대비도 부족했던 것으로 드러났다.
네이버는 일부 기능 오류가 발생했으며 주요 서비스와 기능 대부분은 약 20분~12시간 내에 정상화 됐다.
정부는 사고 직후 방송통신 대책본부를 구성·운영해 신속한 장애 복구를 독려하고 원인을 조사했다. 분석 결과에 따라 3사에 책임 있는 조치와 대책마련 등 후속조치를 시행하도록 할 계획이다.
단기적으로 조치 가능한 사항은 각 사가 선제적으로 조치하도록 하고, 중·장기적 조치가 필요하거나 구체적 방안 마련 등이 필요한 사안은 향후 조치 계획을 1개월 내 보고하도록 할 예정이다.
또 이들이 제출한 조치 결과, 향후 계획 및 재난예방·복구에 대한 의견 등은 추후 정책방안 마련에 반영할 방침이다.
SK(주) C&C에 대해서는 다양한 화재감지 시스템 구축 방안 수립을 주문할 예정이다. 배터리와 기타 전기설비 간 물리적 공간을 분리하고 전력선을 재배치하는 등 구조적 안정성 확보도 요구한다. 모의훈련 실시 후 결과 보고도 요구할 예정이다.
카카오에는 서비스 장애 복구 지연의 핵심 원인인 ‘운영 및 관리도구’를 비롯해 핵심 기능 등에 매우 높은 수준의 다중화를 적용하도록 할 계획이다. 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 세우고 모의 훈련도 하도록 할 방침이다.
이종호 과기정통부 장관은 "이번 사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해 복구와 재발 예방에 최선의 노력을 다함으로써 디지털 서비스에 대한 국민 신뢰를 다시 회복할 수 있기를 바란다"고 말했다.
이어 “정부는 이번 사고를 계기로 주요 디지털서비스에 대한 재난대응체계를 원점에서 재검토하고 사업자별 개선방안, 점검결과, 제도개선 등을 종합해 확고한 디지털 위기관리 체계를 구축해나가겠다”고 밝혔다.