실시간 뉴스



[단독] "사람처럼 듣고 말하는 AI"…KT, '믿:음 K 옴니 모델' 개발


텍스트·이미지·음성 통합 이해…AI 에이전트·AICC 활용 가능성

[아이뉴스24 안세준 기자] KT가 텍스트뿐 아니라 이미지와 음성까지 동시에 이해하고 답할 수 있는 자체 멀티모달 인공지능(AI) 모델을 구축한 것으로 파악됐다. 생성형 AI 경쟁이 언어모델을 넘어 옴니모달 시대로 확산되는 가운데 자체 AI 경쟁력 강화에 나선 것이다.

생성형 AI로 제작한 이미지. [사진=챗GPT]
생성형 AI로 제작한 이미지. [사진=챗GPT]

24일 통신업계에 따르면 KT(대표 박윤영)는 최근 믿:음 K 2.0 기반의 옴니 베이직 모델을 개발했다. 이 모델은 텍스트·이미지·음성을 입력받아 이를 통합적으로 이해한 뒤 텍스트와 음성으로 결과를 생성하는 것이 특징이다.

기존 거대언어모델(LLM)이 텍스트 기반 질의응답에 집중했다면, 옴니 모델은 사진을 보여주며 질문하거나 음성으로 대화를 이어가는 상황까지 처리할 수 있다. KT 측은 "사람이 보고 들은 정보를 통해 대화하는 것과 유사한 형태"라고 설명했다.

KT는 이 모델을 완전히 새롭게 설계하기보다 그동안 축적한 자체 AI 기술을 결합하는 방식을 택했다. 언어 영역에서는 믿:음 2.0을 활용했고 시각 영역에는 자체 시각 인코더, 음성 영역에는 자체 음성 인코더를 적용했다.

모델은 화면용 답변과 음성용 답변을 분리하는 방식을 적용했다. 예를 들어, 복잡한 수식 등은 화면에 텍스트로 제공하고 음성으로는 핵심 내용과 결론을 설명한다. 이를 통해 사용자가 듣기 어려운 정보를 음성으로 그대로 읽어주는 문제를 줄였다.

한국어 특화 역량 강화에도 공을 들였다. 문서, 표, 차트 등 활용도가 높은 데이터를 집중 학습했다. 한국의 문화나 역사, 사회적 맥락을 반영한 데이터도 확대 적용했다. 음성 분야에서는 음성 인식과 번역, 질의응답 데이터를 활용해 실제 서비스 환경에 가까운 학습을 진행했다.

안전성 확보에도 집중했다. 텍스트·이미지·음성이 결합된 환경에서 발생할 수 있는 유해 콘텐츠와 안전성 우회 공격을 검증하기 위한 학습 체계를 적용했다. 멀티모달 환경에서도 안전성 기준을 유지할 수 있도록 선호도 학습 기반 과정을 강화한 것으로 전해졌다.

이 모델은 향후 AI 컨택센터(AICC), AI 에이전트, 미디어 서비스 등 다양한 서비스에 적용될 수 있을 것으로 전망된다. KT 자체 AI 모델 라인업도 기존 언어 중심에서 멀티모달 영역으로 확대될 것으로 보인다.

/안세준 기자([email protected])




주요뉴스



alert

댓글 쓰기 제목 [단독] "사람처럼 듣고 말하는 AI"…KT, '믿:음 K 옴니 모델' 개발

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스