야간작업 승인에도 주간작업 "관리부실"
[서울파이낸스 이호정 기자] 지난 25일 발생한 KT 통신 장애가 라우팅(인터넷 경로설정) 설정 오류인 것으로 조사됐다. 여기에 KT의 관리적·기술적 문제점도 파악되며 명확한 '인재'로 드러났다.
과학기술정보통신부(이하 과기정통부)는 지난 25일 발생한 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반(이하 조사반)과 함께 원인을 조사·분석한 결과를 29일 발표했다.
이번 KT 네트워크 장애사고는 지난 25일 11시 16분경부터 시작돼 DNS 트래픽 증가에 이어, 네트워크 장애가 발생했고 12시 45분경 KT의 복구조치가 완료돼 약 89분의 서비스 장애가 발생했다.
◇라우팅 설정 마무리 과정에 'exit' 명령어 누락
사고조사반은 이번 네트워크 장애사고의 원인을 파악하기 위해 DNS서버에 발생했던 급격한 트래픽 증가가 분산서비스거부공격(이하 DDoS)이었는지, 라우팅 오류가 어떻게 발생했고 장애확산이 됐는지 등을 면밀하게 분석해 결과를 도출했다.
먼저 DDoS 공격 여부를 분석한 결과 DNS 서버에 대한 트래픽 증가는 있었지만, 시스템 자원 DDoS 공격 및 네트워크 대역폭 공격은 확인되지 않았다.
이후 사고 로그기록을 분석이 진행됐고, 부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력해 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 조사됐다.
인터넷 서비스가 제공될 때, PC·스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결되는데, 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.
라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환(업데이트)하는 프로토콜을 사용한다. 이 가운데 KT는 KT 네트워크와 외부 네트워크 경로 구성에는 통산 수십만개 수준의 경로 정보를 교환하는 BGP 프로토콜을 사용하고 KT 내부 네트워크 경로 구성에는 1만개 이하의 경로 정보를 교환하는 IS-IS 프로토콜을 사용한다. 라우터는 이렇게 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 된다.
작업자의 작업내역을 확인한 결과 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 'exit' 명령어를 누락했으며, 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다는게 과기정통부 측 설명이다.
이를 통해 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 됐다.
이렇게 발생한 라우팅 오류는 부산 지역 라우터에서 잘못 라우팅 경로가 설정된 이후 다른 지역 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되며 장애가 전국적으로 확대됐다.
아울러 조사반은 IPTV망과 음성망은 인터넷과 별도로 구성됐지만 인터넷 장애로 인해 전화 및 문자 이용이 늘었고 단말의 전원을 리셋한 이용자들로 인한 트래픽 증가로 인해 일부 서비스에 장애가 발생한 것으로 추정했다.
◇야간 업무 주간에 진행···전국 확산 차단 시스템도 부재
이번 사건과 관련 조사반은 사고 조사·분석 과정에서 KT의 관리적·기술적 문제점이 있었다고 파악했다.
먼저 관리적 문제점의 경우 주간에 작업을 실시한 점이다. 당초 KT 네트워크관제센터가 야간작업(01시~06시)을 승인했으나, 작업이 주간에 수행되는 과정에서 장애가 발생하게 됐던 것으로 확인했다.
또한 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이뤄진 것으로 확인했다.
기술적 문제점의 경우 우선 사전검증 단계에서 오류를 파악하지 못했다.
라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 'exit' 명령어가 누락됐으나 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다.
1, 2차에 걸친 사전검증 단계가 존재했으나, 사람이 직접 검토하는 체계이기 때문에 오류를 발견하지 못했다는 설명이다. 또한 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했던 것으로 드러났다.
과기정통부는 "KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검할 예정"이라며 "또한 방통위는 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획"이라고 말했다.