본문으로 바로가기

보도 자료 상세보기

국립국어원, 인공지능 학습용 한국어 자료 ’22년 첫 공개

작성자 국립국어원 등록일 2022. 4. 1. 조회수 6786
국립국어원, 인공지능 학습용 한국어 자료 ‘22년 첫 공개
- 감성·추론·개체명 분석, 개체 연결, 신문 등 11종 공개 -



  국립국어원(원장 장소원)은 인공지능의 한국어 처리 능력 향상에 필수적인 인공지능 학습용 한국어 자료 11종(신규 8종, 정비 3종)을 4월 1일(금) 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에서 공개한다. 이번 공개 자료는 국립국어원에서 2021년 한 해 동안 구축하고 정비한 자료로 온라인 약정서를 작성하여 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

* 말뭉치: 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료(언어 빅데이터)

 

  최근 4차 산업혁명 시대가 다가옴에 따라 인공지능의 언어 능력을 강화하기 위하여 빅데이터 형태의 언어 학습 자료인 말뭉치의 중요성이 더욱 커지고 있다. 이에 국립국어원은 2021년에 수집한 신문, 국회 회의록, 온라인 대화 등을 담은 원시 자료 4종과 속성 기반의 감성, 추론 확신성, 개체명 정보를 분석한 자료, 개체명 분석 정보에 위키피디아 지식 정보를 연결한 개체 연결 자료 등 분석 자료 7종을 공개한다.

 

<국립국어원 인공지능 학습용 한국어 자료: ’22년 첫 공개 대상>

구분

종류

내용

신규

자료

(8종)

신문 말뭉치 2021

35개 매체의 ’21년 신문 기사 73만 건

온라인 대화 말뭉치 2021

온라인 대화 74,665건(약 3백만 발화)

국회 회의록 말뭉치 2021

국회 소위원회 회의(’03∼’20년) 자료 5,395건(약 7,300만 어절)

속성 기반 감성 분석 말뭉치 2021

속성 기반 감성 정보를 부착한 자료 1,026건

추론 확신성 분석 말뭉치 2021

문장이 포함하는 가설에 대한 화자의 확신성 정도를 표시한 자료 781건

개체명 분석 말뭉치 2021

개체명 정보를 표시한 자료 600만 어절(문어 300만 어절, 구어 300만 어절)

개체명 분석 말뭉치 개체 연결 2021

개체명 분석 정보에 위키피디아 정보를 연결한 자료 약 1,100만 어절

맞춤법 교정 말뭉치 2021

인공지능이 처리하기 쉽게 교정한 온라인 자료 250만 어절

수정추가

자료

(3종)

메신저 말뭉치

2019년에 구축한 메신저 말뭉치를 수정, 보완함

어휘 의미 분석 말뭉치 2020

‘어휘 의미 분석 말뭉치 2020’의 자료를 추가, 보완함

개체명 분석 말뭉치 2020

‘개체명 분석 말뭉치 2020’을 수정, 보완함


  이번에 새롭게 수집하여 공개하는 자료는 ’21년에 생산된 35개 매체의 신문 기사와 ’03년부터 ’20년까지 만들어진 국회 소위원회 회의록, 온라인상의 대화 자료이다. 그리고 한국어의 특성을 반영하여 속성 기반으로 감성을 분석한 말뭉치, 일반인이 문장에서 추측할 수 있는 가설을 확신하는 정도를 표시한 추론 확신성 말뭉치 등도 공개한다.

 

  특히 속성 기반 감성 분석 말뭉치*와 추론 확신성 말뭉치**는 국립국어원이 하반기에 개최할 예정인 ‘인공지능의 언어 능력 평가 대회’에 평가 자료로 사용할 예정이어서 이번 공개에서는 전체 자료의 절반 분량만 공개하였다. 해당 대회를 위해 하반기에는 비윤리 표현 말뭉치, 표/그림 등에 대한 유사문장 생성 말뭉치 등도 공개할 예정이다.

* 속성 기반 감성 분석 말뭉치: 주제별(여행, 영화, 제품)로 대표적인 속성(여행: 편의성/접근성/인지도, 영화: 연출/구성/연기, 제품: 가격/디자인/품질 등)을 정의해서 이에 대한 화자의 감성(긍정/부정/중립)을 분석한 말뭉치

** 추론 확신성 말뭉치: 문장이 포함하는 가설에 대한 화자의 확신성 정도를 표시한 말뭉치

  이 밖에도 개체명 분석 말뭉치에 위키피디아의 지식 정보를 연결한 개체 연결 자료, 그리고 인공지능이 인터넷상의 우리말 자료를 좀 더 쉽게 분석할 수 있도록 교정한 맞춤법 교정 말뭉치도 공개한다.

 

  국립국어원이 수집 및 구축한 한국어 말뭉치는 2020년 8월 공개한 이래로 1만여 건 이상 배포되었으며 270여 개의 기업 및 기관이 활용하고 있다. 특히 법률 자료를 다루는 엘박스 등 중소기업 및 새싹기업이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하고 있으며 네이버, 삼성, 에스케이텔레콤 등 대기업이나 한국전자통신연구원(ETRI) 등 관련 연구기관도 인공지능 학습에 활용하여 다양한 서비스 개발과 성능 향상을 꾀하고 있다.

 

  국립국어원 장소원 원장은 “국립국어원은 앞으로도 인공지능 기술 개발을 위한 전문적이고 분석적인 우리말 자료를 지속적으로 구축, 공개하여 인공지능의 우리말 능력을 향상하는 데 많은 도움이 되도록 지원할 계획이다.”라고 말했다.

[붙임] 공개 자료 이용 절차 1부 


이 자료에 대하여 더욱 자세한 내용을 원하시면 문화체육관광부 국립국어원 언어정보과
학예연구관 강미영(☎ 02-2669-9750) 또는 연구원 유성희(☎ 02-2669-9679)에게 연락해 주시기 바랍니다.

공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.