[김영리기자] 새롭게 등장하는 전문용어·신조어 등의 영어 표제어도 네이버에서 빠르게 확인할 수 있다.
NHN의 네이버는 이용자들의 전문 용어에 대한 사전 검색 수요가 증가하면서 '지식백과' 등 전문 정보를 제공하는 웹 문서 내 포함된 단어들 간의 패턴을 분석해 의미 있는 표제어를 자동으로 추출하는 방식을 추가했다고 5일 발표했다.
웹 문서 내 표제어 추출은 '지식백과', '전문정보', '뉴스' 등 양질의 전문 정보들을 담은 웹 문서를 대상으로 한다.
표제어 추출은 전문 정보에 새롭게 등장하는 영어 표제어와 한글이 인접한 단어를 자동으로 1차로 추출한 뒤 여러 단계의 필터링을 거쳐 새로운 표제어로 등재하는 기술이다.
특히 네이버는 1차로 자동 추출된 표제어 제공으로 인한 오류를 최소화하기 위해 ▲해당 표제어의 노출 빈도 정보를 통한 신뢰도 점검 ▲영어-한글 단어 간의 띄어쓰기 점검을 통한 오류 제거 ▲여러 단어에서의 단순 중복 사용 정도 점검 등 다중의 필터링 추가 적용했다.
지난 2009년 종이 사전 중심의 30만 건에 불과하던 네이버 영어사전의 표제어 수는 다양한 영역의 전문 용어 등을 꾸준히 업데이트한 결과 지난해 12월 10배 가까운 300만 건까지 확보했다. 이번 웹 문서 추출 기술을 활용해 현재는 322만 건의 표제어를 제공하고 있다.
NHN 김종환 사전&전문정보실장은 "웹 문서 표제어 추출을 통해 이용자들에게 한 단계 더 진화된 영어사전 서비스를 제공하게 됐다"고 말했다.
김영리기자 [email protected]
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기