[양태훈기자] 음성인식 기술은 사람의 말을 인식, 텍스트로 변환하거나 특정 명령을 수행하는 솔루션을 말한다.
마우스·키보드·터치 등 물리 인터페이스(도구) 대신 사람의 음성만으로 기기 및 정보 서비스 이용이 가능한 것이 특징이다. 통상 음성인식 솔루션을 통한 입력 속도는 물리 인터페이스 대비 2~3배 빠른 것으로 알려졌다.
음성인식 기술은 입력받은 음성을 분석, 특징을 추출한 다음 미리 수집된 음성모델 데이터베이스(DB)와의 유사도를 측정해 가장 유사한 것을 텍스트로 혹은 명령어로 변환하는 방식으로 작동한다.
이는 일종의 패턴 인식 과정과 흡사한데 사람마다 목소리와 발음, 억양 등이 달라 최대한 많은 사용자들로부터 음성데이터(DB)를 수집해 이로부터 공통된 특성을 추출해 기준 패턴을 생성한다.
통상 음성인식 기술은 사용자의 음성을 인식하는 인식구간추출부터 외부 소음을 제거하고 잡음을 처리하는 '전처리부'와 음성의 특징을 추출하고 DB를 기반으로 음성을 비교분석해 인식결과를 도출하는 '인식부'로 구분돼 작동한다.
음성인식 기술의 역사는 1952년 미국 통신업체 AT&T의 벨 연구소가 단일 음성으로 말하는 숫자를 인식하는 '오드레이' 시스템을 개발한 것을 시초로 꼽는다.
이후 1963년 IBM이 세계 최초로 음성을 통해 16개의 단어를 인식, 간단한 숫자를 계산할 수 있는 음성인식 기기 '슈박스'를 공개.
미국을 선도로 영국, 일본 등의 국가 연구소들이 사람의 발화(소리 내어 말하는 언어행위)를 인식하는 전용 하드웨어 개발에 적극적으로 나서면서 발전하게 된다.
그 결과 1980년대에 들어서 음성인식 기술은 인식 가능한 단어가 1만개 이상으로 확대, 군사용부터 로봇, 건당분야 등으로 응용영역이 확장된다.
1990년대에는 1995년 낱말단위 인식과 표현이 가능한 최초의 소비자용 음성인식 제품 '드래곤 딕테이트'가 출시, 1996년 벨사우스가 ARS 서비스로 사용자가 수화기에 말한 애용을 인식해 필요한 정보를 제공하는 성 포탈 VAL를 개설해 상용화 국면에 들어선다.
2000년대에는 구글(구글 나우)과 애플(시리)을 필두로 음성인식 기술이 모바일 기기에 적극 도입되면서 본격적인 상용화를 맞는다.
구글은 2004년 뉘앙스 커뮤니케이션즈의 공동 창업자이자 미국 스탠포드연구소(SRI) 소속 마이클 코언 박사를 영입해 2010년 음성인식 서비스인 '구글 보이스'를 공개한데 이어 2012년 구글의 각종 앱에서 활용이 가능한 구글 나우를 선보인다.
그리고 지난 19일(현지시간)에는 자연어 처리 기술과 기계학습 기술 기반의 대화형 인공지능 도우미 '구글 어시스턴트'를 공개, 구글 계정을 통해 일정, 연락처, 위치정보, 검색 기록 등을 기반으로 사용자의 질문이나 명령의 문맥을 분석, 이에 맞춰 적절한 명령을 수행하는 서비스 제공을 발표한 상태다.
애플의 시리는 2003년 미국 국방부가 인공지능(AI) 기술 확보를 위해 추진한 'CALO 프로젝트'가 시초다.
이 프로젝트는 스탠포드 대학에서 분리된 SRI인터내셔널 주도로 진행됐는데, SRI인터내셔널이 2007년 '음성개인비서 연구부문'을 독립시켜 '시리'를 설립, 2010년 애플이 인수하게 된다.
시리는 스티븐 울프람이 개발한 지능형 검색엔진인 '울프람알파'를 적용해 자연어 음성인식을 구현, 자연스러운 대화형 인터페이스를 지원하는 게 특징이다.
양태훈기자 [email protected]
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기