본문으로 바로가기

홍보 및 방송 자료 상세보기

국립국어원 '모두의 말뭉치'를 소개합니다!

작성자 국립국어원 등록일 2024. 10. 10. 조회수 288


■ 제목: 국립국어원 '모두의 말뭉치'를 소개합니다!

■ 분량: 5분 16초

문화체육관광부 국립국어원
----------------------------------------------------
본 영상의 내래이션은 인공 지능 음성을 사용하였습니다.
----------------------------------------------------
인공 지능! 오늘 날씨 알려줘.
네, 오늘은 정체 전선의 영향으로 전국에 비가 내리겠습니다.

인공 지능은 어떻게 우리말을 이해할까?
----------------------------------------------------
안녕하세요. 전 뭉치예요.
인공 지능이 어떻게 우리말을 이해하고 사용할 수 있는지 알려드릴게요.
인공 지능 모델이 사람처럼 언어를 듣고 이해하고 말하며 정보를 처리하려면
대량의 언어 자료인 말뭉치를 학습해야 합니다.
말뭉치는 언어학 용어인 코퍼스를 번역한 말로
언어 자료를 다양한 분야에서 모아 컴퓨터가 읽을 수 있는 형식으로 가공한 것을 뜻합니다.
----------------------------------------------------
그럼 국립국어원의 모두의 말뭉치는 어떻게 만들어질까요?

국립국어원은 일상 대화, 메신저 대화, 신문 기사 등
다양한 언어 환경을 반영하여 언어 자료를 수집합니다.
수집한 말뭉치 자료는 저작권자에게 이용 허락을 받아
말뭉치 이용자들이 연구나 기술 개발에 활용할 수 있도록 합니다.
말뭉치는 언어 정보 분석 여부에 따라 원시 말뭉치와 분석 말뭉치로 나눌 수 있습니다.
원시 말뭉치는 텍스트와 음성을 분석하지 않은 상태로 데이터베이스화 한 것을 말합니다.
언어 자료를 모아 컴퓨터가 읽을 수 있도록 입력하면 말뭉치의 기본인 '원시 말뭉치'가 됩니다.
원시 말뭉치에 품사 정보, 문장 구성 정보, 의미 정보 등
여러 가지 분석 정보를 일관성 있게 입력하여 '분석 말뭉치'를 만듭니다.
모두의 말뭉치에는
<다의어를 구별하여 '우리말샘'의 의미 번호를 입력한 '어휘 의미 분석 말뭉치'>
<문장에 나타난 개체명의 경게를 표시하고 분석 정보를 입력한 '개체명 분석 말뭉치'>
<문장 내 생략어 정보를 맥락에 따라 복원하여 입력한 '무형 대용어 복원 말뭉치'>
<문장의 구문 구조를 분석해 의존 관계 정보를 입력한 '구문 분석 말뭉치'> 등
다양한 분석 말뭉치들이 있습니다.
----------------------------------------------------
국립국어원은 매년 새로 구축하거나 수정한 말뭉치를
'모두의 말뭉치' 누리집을 통해 배포하고 있습니다.
이용자들은 '모두의 말뭉치' 누리집에서 말뭉치를 내려받을 수 있습니다.
국립국어원은 다양한 주제의 말뭉치 자료를 분기별로 꾸준하게 공개하고 있습니다.
----------------------------------------------------
국립국어원의 모두의 말뭉치는 어떻게 활용되고 있을까요?

모두의 말뭉치는 크게 언어 및 인공 지능 연구와
인공 지능 기술 개발을 위한 기계 학습 분야에서 활용되고 있습니다.
모두의 말뭉치는 언어 관련 연구 및 학술 발표, 논문, 과제 보고서 등에 활용됩니다.
산업계와 학계에서는 개체명 분석 말뭉치, 일상 대화 음성 말뭉치 등을
활용한 연구가 활발하게 진행되고 있습니다.
모두의 말뭉치는 인공 지능 모델, 서비스, 제품 개발 등에 활용됩니다.
여러 종류의 말뭉치를 활용하여 한글 낱자 카드 놀이 등의 학습 자료를 개발하고
모두의 말뭉치 데이터를 학습시켜 한국어 모델도 개발하였습니다.
삼성전자 서비스 챗봇인 써비와 초대규모 인공 지능인 네이버 하이퍼클로바를
개발을 위해서도 기계 학습을 할 때 모두의 말뭉치를 활용하였습니다.
----------------------------------------------------
놀랍죠? 모두의 말뭉치는 이처럼 다양한 분야에서 연구용으로 쓰이고
인공 지능 모델 개발을 위한 기계 학습에도 활용됩니다.
인공 지능 기술이 발전하려면 인공 지능의 성능을 진단하는 과정이 필요합니다.
국립국어원은 인공 지능의 한국어 이해 및 생성 성능을 점검하기 위한 평가 체계인
'AI 말평'을 운영하고 있습니다.
'AI 말평'은 인공 지능이 우리말을 얼마나 잘 이해하고 사용하는지 평가하는
인공 지능의 한국어 처리 능력 평가 체계라는 뜻을 담고 있습니다.
'AI 말평' 평가 체계는 '모두의 말뭉치' 누리집을 통해 접속할 수 있습니다.
'AI 말평'에서는 현재 '혐오 발언 탐지', '확신성 추론', '속성 기반 감성 분석',
'표 기반 문장 생성', '그림 기반 문장 생성' 등의 과제가 운영되고 있습니다.
'AI 말평'은 누구에게나 열려 있습니다. 한국어 처리 모델을 개발했다면
누구든지 참가 신청을 누르는 것으로 과제에 참여할 수 있습니다.
순위표(리더 보드)에서 성능 점수를 1시간 이내에 확인할 수 있습니다.
평가 참여자 게시판에서 참여자들끼리 정보를 나눌 수도 있습니다.
----------------------------------------------------
또한, 언어 자원을 적극적으로 활용하고 인공 지능의 한국어 처리 기술 향상을
도모하기 위한 경진대회도 개최하고 있습니다.
국립국어원에서는 'AI 말평'을 통해 우수한 개발자들의 성과를 인정하고
격려하여 국어 정보화 인력 양성에 힘쓰고 있습니다.
국어 전문가와 함께 만든 고품질의 한국어 말뭉치와 'AI 말평'은
한국어 처리 기술을 발전시키는 든든한 밑거름이 될 것입니다.
미래를 준비하는 우리말 자원, 국립국어원이 함께합니다.
----------------------------------------------------
문화체육관광부 국립국어원