네이버 AI 스피커, 연예인·가족 목소리로 말한다

[아이뉴스24 민혜정 기자] 네이버 인공지능(AI) 스피커가 연예인, 이용자의 가족 목소리를 입는다.

네이버는 딥러닝 음성합성 기술로 4시간 분량의 녹음된 음성 데이터만 있어도 원하는 목소리를 탑재할 수 있는 기술을 개발했다. 기존 기술로는 40~100시간 분량의 녹음된 음성 데이터가 필요했다.

4일 김재민 네이버 음성합성 리더는 서울 강남구 역삼동 D2스타트업 팩토리에서 열린 테크포럼에서 "딥러닝에 기반한 음성합성 기술로 4시간 분량의 녹음된 데이터만 있으면 다양한 목소리를 입힐 수 있는 기술을 개발했다"며 "곧 관련 서비스를 내놓을 계획"이라고 말했다.

음성합성은 텍스트를 분석해 음성으로 변환하는 기술이다. 현재 포털의 뉴스 읽어주기 서비스가 대표적이다.

AI 스피커가 기본 설정된 목소리 외에 연예인, 애니메이션 캐릭터, 가족 목소리가 적용되기 위해서도 이 기술이 필요하다.

그러나 기존 기술로는 오랜 시간동안 녹음된 데이터가 필요했기 때문에 다양한 목소리를 확보하기가 어려웠다.

네이버는 음성합성에 인공지능 딥러닝 기술(DNN-TTS)을 적용해 4시간 분량의 음성 데이터만으로도 목소리 특징을 모방할 수 있고, 어휘도 명료하게 표현할 수 있도록 했다.

아울러는 네이버는 AI 스피커에 연내 화자인식 기능을 도입할 예정이다. 화자인식은 등록된 화자의 목소리를 인식해 화자를 구별하는 기술이다.

네이버는 모바일 메신러 라인 메시지 읽어주기, 상품 주문·결제 등에 화자인식을 도입할 계획이다. 앞서 KT, 카카오도 연내 AI 스피커에 화자 인식을 추가한다고 발표한 바 있다.

한익상 네이버 음성인식 리더는 "화자인식은 등록된 사용자가 화자임을 인식하는 것이 때문에 다른 사람이 들어선 안되는 메신저 읽어주기 기능 같은 걸 도입할 수 있다"며 "상품 주문·결제 시에도 적용할 수 있게 개발 중"이라고 강조했다.

딥러닝 음성합성 기술 적용···하반기 화자인식도 도입