실시간 뉴스



[종합] 서비스 대란 되짚은 카카오…'미워도 다시 초심' [IT돋보기]


7일 '이프 카카오'서 서비스 장애 원인 분석, 투자 계획 등 발표

[아이뉴스24 정유림 기자] 지난 10월 15일 판교 SK C&C 데이터센터에서 발생한 화재가 대규모 서비스 장애로 번진 카카오가 '환골탈태'를 예고했다. 다양한 서비스를 안정적으로 제공하는 것이 무엇보다 중요한 만큼 기본에 충실하겠단 메시지를 강조했다. 앞으로 비슷한 사고가 또 다시 발생하지 않게 하고 이를 위한 인프라 투자 확대 등을 이어간다.

[사진=카카오]
[사진=카카오]

◆ 서비스 대란 뭐가 문제였을까… "이중화·위기 대응 미흡, 인력·자원 부족"

지난 10월 15일 판교 SK C&C 데이터센터에서 발생한 화재로 메신저 카카오톡을 비롯한 주요 서비스가 '먹통'이 되면서 곳곳에서 혼란을 빚었다. 카카오톡은 이미 국내에서 상당한 수의 이용자를 확보한 지 오래고 '카카오'란 브랜드 아래 다양한 서비스를 일상적으로 활용하는 만큼 서비스 장애가 길어진 데 대해 책임을 묻는 목소리도 커졌다.

이번 서비스 장애 대란을 계기로 카카오처럼 많은 이용자가 활용하는 서비스는 보다 안정적으로 제공해야 하고 그에 맞는 사회적 책임 역시 커졌음을 체감한 점에 대해서도 돌아봤다.

7일 온라인으로 열린 카카오 연례 개발자 컨퍼런스 '이프 카카오(if kakao)'에서 남궁훈 비상대책위원회(비대위) 재발방지대책 공동 소위원장은 "그동안 카카오는 새로운 기술을 통해 미래를 개척하고 그 과정에서 다양한 이해 관계자와 함께 성장하는 방식으로 ESG 과제를 수행해 왔지만 이번 서비스 장애를 계기로 안정적으로 서비스를 제공하는 것 그 자체가 ESG 최우선 과제란 점을 깨달았다"고 했다.

서비스 장애의 발단이 된 건 카카오가 입주해 있던 데이터센터에서 발생한 화재지만 대응 체계가 잘 갖춰져 있었다면 좀 더 빠른 복구가 가능했을 거란 지적도 나왔다. 모든 서비스의 완전 정상화가 예상보다 길어진 원인으로는 이중화 및 위기 대응 체계 구축 미흡 등이 꼽혔다.

이확영 비상대책위원회(비대위) 원인조사 소위원장은 "이번 서비스 장애를 살펴본 결과, 데이터센터 간 이중화와 시스템 복구를 위한 운영 도구 및 모니터링 시스템에 대한 이중화가 미흡했다"며 "데이터센터 전체의 장애에 대응하기 위한 인력과 자원이 충분치 않았다"고 분석했다.

또 "서비스 개발과 관리를 위한 운영 관리 도구가 필요한데 이 도구들의 이중화 역시 미흡했다"며 "상대적으로 이런 도구들의 안정성 확보에 소홀해 복구에 어려움을 겪은 것"이라고 분석했다.

이와 함께 "장애 복구를 위한 인력과 자원이 부족했다"며 "평소 이중화나 장애 대응 체계를 갖추고 있었더라도 이번 서비스 장애처럼 데이터센터 전체 상황을 가정하면 준비가 부족했다"고 설명했다.

◆ IT 엔지니어링 거버넌스 강화… 인프라 투자 확대

서비스 장애 원인을 분석한 이 소위원장은 "재해 초기 컨트롤타워가 부재해 공동체와 개별 조직이 동시 다발적으로 대응을 했다"며 "전체적인 조율과 협업을 지원하는 전사 조직이 사전에 셋팅돼 있지 않았고 서비스별로 개발자들이 최선을 다했지만 그것만으로 부족했다"고 짚었다.

기술적인 조치 외에도 조직 신설, 인력 채용 등을 통해 거버넌스를 강화한다. 남궁훈 비상대책위원회(비대위) 재발방지대책 공동 소위원장은 "카카오 내부에서 다양한 변화가 있을 예정이지만 인프라 조직을 재구성하려고 한다"며 "인프라 조직은 기존 개발 조직에서 분리돼 별도 상위 조직으로 둘 것"이라고 설명했다.

서비스 장애로 빚어진 피해 보상 논의는 별도 협의체를 통해 진행되고 있는 만큼 인프라 측면에서 투자를 확대한다. 이와 함께 예산 4천600억원을 투입해 짓고 있는 안산 데이터센터와 관련해서도 운영 안전성 확보에 주력한다.

고우찬 비상대책위원회(비대위) 재발방지대책 공동 소위원장도 "개선 사항 추가를 위해 향후 5년간은 지난 5년간 투자금의 3배 이상 규모로 투자를 확대하겠다"고 밝혔다.

또 "현재 카카오 IT 엔지니어링 조직은 개발 조직 산하에 있는데 앞으로 이를 CEO 직할의 부문 규모로 IT 엔지니어링 전담 조직을 확대 편성하는 방안을 검토 중"이라며 "아직 구체적인 규모 산출 단계에는 이르지 못했지만 관련 전문가도 추가로 적극 영입하겠다"고 설명했다.

세부적으로 데이터센터, 사이트 안정성 엔지니어링(SRE), 데브옵스(DevOps), 클라우드 개발 엔지니어 채용 및 육성을 적극 진행할 방침이다. 이밖에 대규모 장애에 대비한 재해복구 위원회를 신설하고 서비스 연속성 확보를 위한 전담 조직도 준비한다.

/정유림 기자([email protected])




주요뉴스



alert

댓글 쓰기 제목 [종합] 서비스 대란 되짚은 카카오…'미워도 다시 초심' [IT돋보기]

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스