AI 번역대결, 평가방식·심사결과 공정성 '시비'

[아이뉴스24 민혜정기자] 인간과 인공지능(AI) 번역 대결에서 인간이 승리했지만 후폭풍이 거세다.

대결 후 아직 인공지능이 번역같은 고차원적인 인간의 능력을 따라잡을 수 없다는 평가도 나왔지만, 이 대결이 공정하게 이뤄졌는지에 대한 논란도 붙붙는 형국이다.

22일 업계에 따르면 지난 21일 세종사이버대와 국제통번역협회 주최로 열린 인간과 인공지능 번역 대결에서 번역사 4명은 30점 만점에 평균 25점 내외를 받았다.

인공지능은 한 군데만 15점대 나머지는 10점 이하를 받았다. 행사 주최측은 구체적으로 인공지능 번역기별 점수는 공개하지 않았지만 구글, 네이버, 시스트란 순으로 알려졌다.

'알파고' 대국 이후 이번 대결은 인간과 인공지능 대결로 화제를 모았다. 그러나 대결 과정이 '기울어진 운동장'이라는 지적이 끊이지 않는다.

우선 번역 평가는 바둑처럼 승패가 아닌 심사위원의 주관적인 평가를 따라야 하는데 심사 시간이 두 시간도 채 되지 않았다. IT업계에선 인공지능 번역기를 '걸음마' 수준이라 보는데 이를 평균 경력 5년 이상의 프로 번역사들과 대결 시킨 점도 불합리하다는 비판이 나온다.

제한시간의 경우에도 인간은 50분, 인공지능은 10분이 주어졌다. 그러나 인공지능은 실시간으로 번역을 한다. 시간이 길어질수록 유리한 것은 인간 쪽이고, 인간은 퇴고까지 가능하다.

특히 네이버 파파고의 경우 200자 이상의 텍스트는 인공지능의 인공신경망이 아니라 기존 통계기반 번역이 적용된다.

이와 관련 행사 주최 측은 "네이버의 경우 350자 지문이면 200자, 150자 이런식으로 나눠서 번역을 실행했다"며 "네이버에 일부 불리한 측면도 있었을 수 있다"고 설명했다.

그러나 'Thank you for being late' 같은 지문(232자)의 경우 네이버 답안지로 추정되는 번역물을 보면 인공지능이 아닌 통계기반의 번역기를 사용했을 때 결과와 같다.

설사 행사 주최 측 말이 맞다고 해도 지문을 나눠서 번역을 하면, 번역문의 맥락이 달라질 수 있다.

네이버 관계자는 "특정 문장이나 특정 주제 등의 일부 번역 결과를 바탕으로 어떤 서비스가 우위에 있다, 아니다 판단할 수 없다"며 "특히 네이버의 경우 인공신경망 방식이 아닌 결과로 비교를 했기 때문에 언급할 부분이 없다"고 말했다.

아울러 이번 대결 중간엔 통·번역학 투자의 중요성을 강조하는 토론까지 열렸다. 행사 개최의 목적이 헷갈리는 대목이다.

IT업계 관계자는 "기계번역끼리 대결을 해도 평가 시간을 길게, 여러명이 한다"며 "시간 내에 답변을 주는 것에 급급해 결과를 분석하는 시간도 없었는데이같은 인공지능 마케팅이 어디에 도움이 되는지 모르겠다"고 꼬집었다

"인간이 이기려고 만든 대결"