보도 자료 상세보기
말뭉치 활용, ‘모두의 말뭉치 분석기’로 쉬워진다
말뭉치 활용, ‘모두의 말뭉치 분석기’로 쉬워진다 - 국립국어원, 말뭉치 통계 분석과 용어 색인 기능이 탑재된 말뭉치 분석기 공개 - 말뭉치 분석기를 통해 한국어 연구와 자연어 처리 분야에서 활용 기대 |
국립국어원은 한국어 말뭉치를 쉽게 분석할 수 있는 ‘모두의 말뭉치 분석기’를 2월 13일(목)부터 모두의 말뭉치 누리집(kli.korean.go.kr/corpus)을 통해 공개한다.
국립국어원은 2019년부터 언어 연구와 한국어‧한국언어문화를 잘 이해하는 인공지능 기술 개발을 지원하기 위해 고품질 말뭉치를 구축하고, 모두의 말뭉치 누리집을 통해 학계와 산업계에 제공하고 있다. 이번에 공개되는 ‘모두의 말뭉치 분석기’는 말뭉치 데이터를 통계적으로 쉽게 분석할 수 있는 도구이다.
통계 분석과 용어 색인 기능 탑재
‘모두의 말뭉치 분석기’의 가장 주목할 만한 특징은 통계 분석(n-gram) 기능이다. 통계 분석은 연속된 단어 묶음별 통계를 제공하고, 특정 단어들의 통계 분석 결과를 막대 그래프와 텍스트 시각화(Word Cloud) 형식으로 제공함으로써 사용자들이 언어 사용 패턴을 직관적으로 이해할 수 있도록 지원한다. 또한, 용어 색인(Concordance) 기능도 제공한다. 용어 색인에서는 특정 단어와 함께 사용되는 단어들의 앞뒤 문맥 정보를 제공하는데, 이 기능으로 자연스러운 한국어 표현과 언어 사용의 맥락을 파악할 수 있다.
이번에 공개되는 말뭉치 분석기는 웹 버전과 피시(PC) 버전으로 제공된다. 웹 버전에서는 신문, 일상대화 말뭉치를 대상으로 어절 및 형태소 분석(Mecab) 등 통계 분석 기능을 제공하고, 피시 버전에는 공개 소스로 제공 중인 형태소 분석기(Mecab, Okt, Komoran, Hannanum, Kkma)를 탑재하여 다양한 형태소와 어절 분석, 용어 색인 등 확장된 기능을 활용할 수 있다.
말뭉치 분석기로, 말뭉치를 활용한 언어 연구의 진입장벽 낮아질 것
국립국어원 관계자는 “이번에 공개되는 ‘모두의 말뭉치 분석기’로 한국어 사용 양상을 쉽게 분석할 수 있어, 코딩 등 프로그래밍을 잘 모르는 연구자들에게 말뭉치를 활용한 언어 연구의 진입장벽을 낮추는 계기가 될 것”이라고 말하고, “앞으로도 국립국어원은 한국어 연구를 위한 다양한 도구와 자료를 개발하여 제공함으로써 편리한 언어 연구 환경을 만들어 갈 계획”이라고 밝혔다.
※ ‘모두의 말뭉치 분석기’는 2월 13일(목)부터 모두의 말뭉치 누리집(kli.korean.go.kr/corpus) 말뭉치 활용 메뉴에서 무료로 이용할 수 있다. 웹 버전은 별도의 설치 없이 브라우저에서 바로 사용 가능하며, 피시 버전은 내려받아 설치하여 사용할 수 있다.
[붙임] 1. 모두의 말뭉치 분석기 주요 기능 1부.
2. 모두의 말뭉치 분석기 및 시각화 예시 1부. 끝.
담당 부서 | 국립국어원 언어정보과 |
책임자 | 강미영 (02-2669-9750) |
담당자 | 위진 (02-2669-9751) |