실시간 뉴스



[인터뷰] "전화 회사라서…" 기가지니, 남다른 '음성 AI'


임미숙 KT 융합기술원 상무, '기가지니' 내부 융합 가속화

[아이뉴스24 김문기 기자] "음성 기반 인공지능(AI)은 우리가 정말 잘 할 수 있는 분야입니다. 우리의 기본 바탕이 전화 회사이기 때문이다."

임미숙 KT융합기술원 서비스연구소 AI기술&HCI담당 상무는 지난 14일 KT 우면연구센터에서 기자와 만나 음성 기반 AI 기술 개발에 있어 KT가 앞서 나갈 수 밖에 없는 이유를 설명했다.

전통의 전화 회사로서 그간 쌓아온 노하우가 최신 기술력에 최근의 서비스 트랜드와 접목, 꽃을 피울 수 있는 기반을 갖추고 있다는 뜻이다.

최근의 AI 솔루션은 오픈소스 기반의 알고리즘 개발, 이를 구현할 수 있는 방대한 데이터가 승패를 좌우한다 해도 과언이 아니다. 즉, 서로를 음성으로 엮어 통화가 가능토록 하는 전화 회사로서 음성 기반의 기술 및 특허를 꾸준히 쌓아온 KT는 소위 '물만난 고기'인 셈.

임미숙 KT 융합기술원 서비스연구소 상무가 KT의 P-TTS 기술력에 대해 설명하고 있다
임미숙 KT 융합기술원 서비스연구소 상무가 KT의 P-TTS 기술력에 대해 설명하고 있다

◆ 20년 이상 쌓아올린 음성 노하우, TTS를 만나다

최근 KT는 음성인식을 기반으로 AI를 접목, 음성합성기술(TTS)을 발전시켜 고객의 목소리를 흉내낼 수 있는 '내 목소리 동화'를 상용화했다. 아이를 둔 가정에서 부모가 직접 음성을 입력하면, AI가 이를 데이터화 해 지속적으로 추가되는 동화를 부모 목소리로 AI 스피커를 통해 들려줄 수 있다.

임미숙 상무는 "음성과 관련 근본적인 인식 기술을 갖고있음에도 처음에는 음성(목소리)를 만들어내는 기술은 관심밖이었다"며, "하지만 기가지니 사업을 시작하면서 목소리를 밖으로 표현하는 중요성에 주목, 그동안 해왔던 기술을 총제적으로 모아 이를 접목시켰다"고 설명했다.

실제로 '내 목소리 동화'는 일견 단순해 보이나 그 속에 수많은 기술 역량과 특허, 서비스 솔루션들이 융합된 서비스다. 이를 통해 확인할 수 있는 KT 강점은 크게 3가지다.

기본적으로 음성합성 기술을 꼽을 수 있다. 샘플마다 다르지만 1초안에 1만6천개 가량의 소리값이 있다. 한국어의 경우 1초안에 낼 수 있는 음절은 3~4개 수준. 초성과 중성, 종성으로 나누면 각 음소값은 더 많아진다. 이를 분석하려면 상당히 고도의 컴퓨팅 작업이 필요하다.

가령 '내 목소리 동화'는 고객이 약 300문장을 입력해야 한다. 읽는 속도나 정확도가 다르기 때문에 최대 빠르면 30분에서 많게는 2시간 가량 소요된다. 이를 음성합성 AI엔진에 넣으면 대략 1일 이내로 결과를 얻을 수 있다.

임 상무는 "기존 TTS는 각 음소를 이어 붙이는 방식으로 했기 때문에 음성 품질이 어색하고 부자연스러웠다"며, "향후 AI 컴퓨팅 수준이 더 높아진다면 개인화 음성합성(P-TTS)도 실시간 가능해질 것"이라고 말했다.

박정석 KT 융합기술원 서비스연구소 PM이 KT의 음성기반 AI에 대한 기술적인 특성에 대해 설명하고 있다
박정석 KT 융합기술원 서비스연구소 PM이 KT의 음성기반 AI에 대한 기술적인 특성에 대해 설명하고 있다

◆ 목소리 특성 달라도, 누구나 쓸 수 있도록 하는게 '핵심'

KT 음성 AI의 또 다른 강점은 기업간거래(B2B) 시장에 통용됐던 P-TTS를 소비자(B2C) 쪽에서 구현했다는데 있다.

새롭게 음성을 합성하려면 최대한 안정된 환경, 이를테면 스튜디오 내에서 많은 문장을 꽤 오랜시간 동안 입력해야 한다. 일반 소비자에는 시간과 장소가 제약적이다. 그러나 접근성이 높은 서비스가 고객 관점에서는 최고의 서비스가 될 수 있다.

이를 해결하기위해 일반적으로 전문 성우를 섭외해 약 2만 문장 이상을 녹음, 베이스 음성을 만들어낸다. 여기까지는 구글이나 여타 사업자들이 주로 쓰는 방식이다. 하지만 여기에 고객 음성의 특색과 억양 등의 목소리 개성을 입히는 작업은 고도의 기술적 노하우가 필요하다.

전문 마이크가 아닌 스마트폰을, 스튜디오가 아닌 다양한 실생활 장소에서 고객이 녹음 작업을 하기 때문에 이를 제거하고 필요한 음성만을 뽑아내려면 최적화된 알고리즘이 필요하다.

박정석 KT 융합기술원 서비스연구소 PM은 "사람의 목소리 특성에 따라 합성이 잘되기도, 때로는 안되기도 하는데 이는 사람마다 발음상 차이가 있고, 발음이 부정확할 수도 있고, 또 잡음이 섞여 들어오기 때문"이라며, "알고리즘에서 이를 잘 걸러내야 한다"고 설명했다.

이어, "KT는 이미 수많은 음성 데이터를 기반으로 이에 대한 특허와 노하우를 쌓아왔기 때문에 최적화된 데이터 처리 능력과 알고리즘 설계가 가능했다"며, "전화선상으로 들어온 음성을 처리하는 등 원천기술을 보유하고 있고, 음성을 어떻게 처리할 지에 대한 연구개발(R&D)도 꾸준히 실행해왔다"고 덧붙였다.

다른 강점은 '기가지니' 조직에서도 찾아볼 수 있다. KT의 기가지니 사업은 시작부터 R&D와 서비스 사업조직이 밀착돼 움직이면서 신속한 상품 개발이 가능하게 됐다.

임 상무는 "기존에는 기술이 완성되면, 이를 가지고 사업화하는 과정을 거쳤다면, 기가지니 AI의 경우 어느 정도 기술개발이 진행되는 상황에서 사업단과 밀착해 함께 서비스를 구상하고 발전시킨다"며, "기술도 결국에는 고객에게 전달돼야 의미를 가질 수 있다"고 강조했다.

KT는 향후 P-TTS에 감정을 불어넣는 게 목표다.

임 상무는 "현재 TTS는 단조롭지만 가까운 시일내 사람의 희노애락까지 표현할 수 있도록 연구개발이 한창이다"라며, "기계가 직접 감정을 전달한다기 보다는 고객들이 편하게 느낄 수 있는 수준이 어느 정도인지에 대한 방향성을 갖고 가려 한다"고 의지를 보였다.

◆음성 기반의 다양한 서비스 접근성 확대

음성기반의 AI는 음성합성기술 이 외에 화자인식, 음성제어(인식) 등으로 세분화된다. KT는 화자인식과 관련해 콜센터에서 자유발화인증을, 기가지니 AI 스피커를 통해 K쇼핑에 지니페이를 상용화했다.

콜센터 내 자유발화인증은 지난 1월부터 도입됐다. 고객이 콜센터와 처음 통화한 뒤 다음 통화부터는 고객의 목소리를 듣고 본인확인 작업을 수행한다. 즉, 기존 본인확인을 위한 절차를 생략해 신속한 업무 처리가 가능하다는 얘기다.

박 PM은 "기존에는 특정 단어나 문장을 통해 통계학적으로 화자를 인증했다면, 이제는 수많은 데이터를 기반으로 딥러닝 엔진을 구축해 아무말이나 해도 고객인증이 가능한 솔루션을 내제화한 것"이라며, "기존 방식과 달리 이 같은 딥러닝 자유발화인증은 우리가 처음"이라고 강조했다.

K쇼핑에서 상품을 결제할 때도 지니페이를 통한 화자인증이 가능하다. IPTV인 올레tv에서도 유료 콘텐츠 결제를 화자인증으로 할 수 있다. 결제된 대금은 올레tv 요금으로 합산돼 청구된다.

KT는 향후 기가지니 안에서 적절한 서비스가 개발된다면 화자인증 방식을 확대할 계획이다.

음성제어의 경우도 관건은 인식률. 이 역시 KT가 이미 관련 기술과 노하우를 구척, 자신있는 분야라는 설명이다.

임 상무는 "일반적으로 청정한 곳과 잡음이 많은 지역에 대한 인식률 목표는 연구환경(랩) 기준에 근접한 수준까지 올라와 있는 상태로, 일반적으로 체감할 때는 그 보다 살짝 못 미치는 수준"이라며, "타사의 콜센터에도 KT 음성인식 솔루션을 적용하면서 최고의 성능을 낼 정도로 정교하게 설계돼 있다"고 자신감을 보였다.

그는 "현재 시작단계로 고객에게 더 나은 서비스를 전달할 수 있도록 최종 목표 달성까지 연구개발 등에 매진할 것"이라고 의지를 보였다.

김문기 기자 [email protected]




주요뉴스



alert

댓글 쓰기 제목 [인터뷰] "전화 회사라서…" 기가지니, 남다른 '음성 AI'

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스