[아이뉴스24 박진영 기자] 정부가 지난 10월 데이터센터 화재로 인한 카카오 먹통 사태에 대한 조사결과를 발표했다.
SK C&C 데이터센터의 경우 초기진압이 어려운 리튬이온배터리를 사용했음에도 화재에 대비한 사전 조치가 적절하지 않았으며, 물을 써야하는 상황에서 선별적 차단 조치가 이뤄지지 않은 것으로 나타났다.
또 카카오는 이중화 체계를 제대로 갖추고 있지 않았을 뿐더러 핵심 기능이 판교 데이터센터 한 곳에 집중돼 있어 최대 127시간 서비스 장애가 발생한 것으로 드러났다.
과학기술정보통신부(장관 이종호)는 방송통신위원회, 소방청과 6일 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표했다. 또 SK C&C, 카카오, 네이버 3사에게 1개월 이내 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 제출하도록 할 계획이라고 밝혔다.
앞서 지난 10월 15일 오후 3시 경 SK C&C 판교 데이터센터 지하 3층 배터리실에 화재가 발생하면서 화재 진압, 건물 전력 차단 등 이유로 카카오, 네이버 등 입주기업 서비스에 장애가 발생했다. 화재는 이날 오후 11시 45분(소방청 확인시간 기준)에 완전히 진화됐다.
서비스 장애와 이용자 피해가 가장 컸던 카카오는 20일 오후 11시 서비스가 정상화 됐으며, 장애 복구에 총 127시간 33분이 소요됐다. 네이버는 기사 댓글 이용불가 현상 등 일부 기능에서 오류가 발생했으며, 주요 서비스와 기능 대부분은 약 20분~12시간 내 정상화됐다.
◆SK C&C 데이터센터 화재 사전 대책 미흡…살수 상황 등 세부 대응계획 없어
SK C&C 판교 데이터센터에서 화재가 발생한 후 가스 소화 장비가 작동했으나, 가스 소화가 어려운 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있었다. 더욱이 SK C&C는 지난 2016년 리튬이온배터리를 설치한 후 현재까지 특화된 방화조치를 하지 않은 것으로 드러났다.
앞서, 배터리 온도 등을 모니터링하는 시스템(BMS)을 갖추고 있었으나, 화재 발생 직전까지 화재에 대한 이상징후가 나타난 바는 없었던 것으로 나타났다.
또 리튬이온 배터리가 일부 무정전 전원 장치(UPS)와 물리적으로 완벽히 분리되지 않은 공간(천장 공간이 미분리된 격벽)에 배치되어 있어 화재 열기 등으로 UPS가 작동이 중지됐고, 일부 전원공급도 중단됐다.
배터리 상단에 포설되어 있던 전력선이 화재로 인해 손상됐고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단했다.
또 각 UPS 그룹이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계가 갖춰져 있었으나, 화재 등으로 특정 공간의 UPS에 동시 장애 발생 시에는 그 UPS들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조였다.
더욱이 살수가 필요한 상황에서 살수로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치가 이뤄지지 못한 것으로 나타났다.
또 화재 대비 매뉴얼은 있었으나 살수 상황, 발화 구역 등 실제 화재상황 수준까지 반영한 세부 대응계획 및 모의훈련도 없었다.
◆카카오 이중화 체계 작동 안해…카카오인증 등 핵심기능 판교센터 집중
카카오는 서비스 기능을 5개의 레이어로 구분하고, '액티브(Active)-스탠바이(Standby)' 체계로 데이터 이중화 체계를 갖추고 있었으나 이번 사고에서 스탠바이 시스템이 제대로 동작하지 않았다.
특히 스탠바이 서버를 액티브로 만들기 위한 권한관리 기능인 '운영 및 관리도구'가 판교 데이터센터 내에서만 이중화되어있을 뿐 타 데이터센터에 이중화되어있지 않았던 것이 문제였다. 이로 인해 판교 데이터센터의 액티브 서버 작동 불능 시 서비스 장애 복구가 지연됐다.
또한 애플리케이션, 서비스 플랫폼 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화되어 있지 않아 복구에 상당 시간이 소요됐다.
더욱이 카카오톡, 다음 등 카카오 서비스 대부분 핵심기능이 판교 데이터센터에 집중되어 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받았다. 특히, 여러 서비스의 구동 초기단계부터 필요한 '카카오인증'과 같은 핵심기능도 판교 센터에 집중돼 서비스 전반에 광범위한 영향을 미친 것으로 드러났다.
또한 카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나, 각 단계별 체계화 및 자동화가 미흡했다.
일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 하였으나, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족했다.
한편, 카카오는 지난 10월 19일부터 11월 6일 간 10만 5천116건의 피해를 접수했으며, 이 중 유료 서비스에 대한 피해는 1만4천918건, 금전적 피해를 언급한 무료 서비스는 13만198건이 접수됐다.
이 가운데 네이버의 경우 데이터센터 간 이중화 조치로 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 쇼핑, 뉴스, 파파고 등 일부 기능에 오류가 발생했다. 대부분 기능 오류는 다른 기능에 비해 상대적으로 낮은 복구 우선순위, 복구하는 데이터의 무결성 확인 등 이유로 복구에 시간이 소요됐다.
◆SK C&C에 데이터센터 안정성 강화…카카오에 서비스 다중화·피해구제책 마련 요구
정부는 원인 조사·분석 결과를 바탕으로 SK C&C, 카카오, 네이버 3사에 대해 단기적으로 조치 가능한 사항은 각 사가 선제적으로 조치토록 할 방침이다. 또 중·장기적으로 조치가 필요하거나 구체적 방안 마련 등이 필요한 사안은 향후 계획을 1개월 내 보고토록 할 계획이다.
과기정통부는 SK C&C에 데이터센터에 화재 예방 및 탐지 시스템을 강화하도록 요구했다. 배터리모니터링시스템 계측정보 등 관리 강화 방안과 기존 배터리 모니터링 시스템 이외의 다양한 화재감지 시스템을 구축하도록 한 것이다.
또 리튬이온 배터리 화재 시 필요한 소화설비 등릏 구축하거나 불가능할 경우 대안을 마련토록 했다.
데이터센터의 전력공급 생존성 확보도 요구했다.
우선 배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내에 위치한 전력선을 재배치해 구조적 안정성을 확보하거나, 대안 조치를 강구토록 했다.
또 화재 등 재난 발생 구역의 전력을 개별 차단할 수 있는 방안을 마련하고 재난 현장에 직접 진입하지 않고도 해당 구역의 전력 차단 등 조치를 할 수 있도록 다양한 방안을 수립해야 한다.
아울러 현실적인 재난대응 시나리오 개발 및 세부 훈련 계획 수립하여 모의 훈련을 실시하고 결과를 보고해야 한다.
카카오에는 ▲서비스 다중화 ▲재난대비 훈련 등 조치 ▲이용자 고지 및 피해 구제 등을 요구했다.
우선 카카오 서비스 장애 복구 지연의 핵심 원인인 '운영 및 관리도구'를 데이터센터 간 액티브-액티브 등 매우 높은 수준의 다중화를 적용토록 했다.
카카오의 핵심 기능에 대해서는 우선순위, 중요도 등을 고려해 현재보다 높은 수준의 분산 및 다중화를 적용할 수 있는 방안 수립해야 한다.
또한 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의 훈련을 실시해 보고하도록 했다.
신속한 장애 복구를 위해 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구방안도 수립해야 한다. 또 장애 탐지-전파-복구 전 단계의 복구체계를 재점검하여 자동화 기능 요소 발굴 등 개선방안도 수립하도록 했다.
아울러 카카오는 서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축해야 한다. 또한 이번 장애와 관련된 국민 피해를 구제하기 위한 원칙과 기준을 설정하고, 보상 계획을 수립하도록 요구했다.
네이버에 대해선 보다 철저한 장애 예방과 신속 복구를 위해 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검해 개선방안을 마련하고, 주 데이터센터 전소 등 상황을 가정하고 모의 훈련을 실시해 보고하도록 했다.
한편, 과기정통부는 1개월 후 3사가 제출한 조치결과 및 향후 조치계획과 전문가·사업자 의견과 법·제도 개선사항을 반영해 디지털서비스 안정성 확보를 위한 종합적 개선방안을 2023년 1분기 중 수립할 계획이다.
이종호 과기정통부 장관은 "정부는 이번 사고를 계기로 주요 디지털서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도개선 등을 종합해 디지털 시대에 맞는 안정성 강화방안을 마련함으로써 끊김없는 디지털서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해 나가겠다"고 밝혔다.
/박진영 기자([email protected])
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기