[아이뉴스24 심지혜 기자] 정부가 지난 25일 발생한 KT의 유무선 통신망 장애 사고 원인이 라우팅(네트워크 경로설정) 오류인 것으로 최종 확인했다. 안전 불감증이 사고를 일으킨 셈이다.
재발방지를 위해 네트워크 관리체계를 점검하고 작업 시뮬레이션 시스템 도입, 절차 준수 점검 체계 구축 등을 마련하기로 했다.
과학기술정보통신부(장관 임혜숙)는 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 29일 발표했다.
이번 KT 네트워크 장애사고는 11시 16분경부터 시작돼, DNS 트래픽 증가에 이어, 네트워크 장애가 발생했다. 12시 45분경 KT의 복구조치가 완료돼 약 89분의 서비스 장애가 발생했다.
◆ 부산국사 작업오류, 서울 거쳐 전국에 영향
조사반은 이번 사고 로그기록을 분석한 결과, 부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력했고, 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 판단했다.
부산의 백본 라우터는 모든 지역 백본 라우터와 연결돼 있는 서울 센터(혜화・구로) 라우터에 잘못된 정보를 전달했다. 이후 서울 센터 라우터가 전 지역의 백본 라우터에 잘못된 정보를 전달하면서 라우팅 오류는 전국으로 확대됐다. 최초에 라우터에 잘못된 정보가 입력된 이후 30초 이내에 전체 라우터에 라우팅 오류가 전파됐다.
라우터는 인터넷 상에서 IP(인터넷 프로토콜)주소를 부여받은 장치 간 통신을 위해 인터넷 트래픽을 전달하는 역할을 수행한다.
이번 사고는 '인터넷'에서 이뤄진 것이지만 당시 전화 연결도 되지 않는 사례가 발생했다. IPTV 서비스망 및 음성전화・문자 서비스망은 인터넷 서비스 망과 별도로 구성돼 있다.
그러나 인터넷 서비스 장애로 인해 전화와 문자 이용이 늘었고 단말 전원을 리셋한 이용자로 인한 트래픽 증가가 발생, 부하가 가중됐을 것으로 추정했다. 단말전원을 리셋하면 단말이 망에 다시 등록하는 작업을 해 추가적인 트래픽이 발생한다.
◆ 디도스 공격 없어…KT오판
조사반은 사고 발생 초기 KT가 장애 원인으로 지목한 디도스(DDoS) 공격 여부에 대해서도 조사했다. 당일 오전 11시 16분부터 KT DNS(도메인 주소를 IP 주소로 변환하는 역할을 수행) 서버에서 평시에 비해 트래픽이 급증했다.
중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 평시 대비 4배 이상, 부산 DNS는 평시 대비 3.7배 이상 증가하는 등 큰 폭의 트래픽 증가가 나타났다.
DDoS 공격은 ▲1개의 IP가 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 ▲대량의 네트워크 패킷을 DNS 서버에 전송하여 서비스 대역폭을 채우는 네트워크 대역폭 공격의 두가지 유형을 보이게 되는데, 조사반은 각 유형별 해당여부를 패킷, 트래픽 분석 등을 통해 조사했다. 결론적으로는 DNS 서버에 대한 트래픽 증가는 있었지만, 시스템 자원 DDoS 공격 및 네트워크 대역폭 공격이 확인되지 않은 것으로 결론을 내렸다.
◆ 인재(人災) 확인…작업실수・관리소홀 총체적 난국
조사반은 이번 당초 KT 네트워크관제센터가 야간작업(새벽 1시~6시)을 승인했으나, 작업이 주간에 수행되는 과정에서 장애가 발생하게 됐던 것으로 확인했다.
또한 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이루어진 것으로 확인했다.
기술적으로는 사전검증 단계에서 오류를 파악하지 못했다. 라우팅 작업계획서상 입력해야 할 특정 명령어(exit)가 누락됐는데, 사전 검증하는 과정에서 발견하지 못한 것이다. 심지어 1~2차에 걸친 사전검증 단계가 존재했음에도 발견하지 못했다.
또한 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재하였다.
◆ '네트워크 안정성 확보' 방안 수립
과기정통부는 이번 조사결과를 바탕으로 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다.
우선 단기 대책으로 ▲ 주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고 ▲ 주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다.
이와 함께 ▲주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축토록 하고 ▲ 라우팅 설정오류로 인한 피해를 최소화하기 위해, 주요통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한 등이 검토될 계획이다.
중장기 대책으로는 주요통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등도 추진할 예정이다.
◆ 피해보상 마련…방통위, 이행여부 점검
이용자들의 피해 보상책도 마련한다. 우선 KT가 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검할 예정이다.
방통위는 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.
/심지혜 기자([email protected])
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기