공지 사항 상세보기
국립국어원 2025년 일상 대화 자료 수집 및 정제사업 관련 안내
담당자: 언어정보과 박미영 학예연구관(02-2669-9754)
국립국어원 2025년 일상 대화 자료 수집 및 정제 |
국립국어원에서는 우리말 인공지능 기술 개발과 국어 연구 등에 활용하고자 대화 자료를 수집하여 가공하는 ‘2025년 일상 대화 자료 수집 및 정제’ 사업을 추진하고 있습니다. 우리말 인공지능 기술 발전 등에 기초가 되는 국가적 언어 자료의 수집과 구축 사업에 귀하의 소중한 대화 자료가 유용하게 활용될 수 있도록 많은 관심과 참여를 부탁드립니다.
□ 사업 개요
ㅇ 사업명: 2025년 일상 대화 자료 수집 및 정제
ㅇ 사업 기간: 2025. 2. 17. ~ 2025. 12. 20.
ㅇ 사업 수행자: ㈜나라지식정보, ㈜팀벨
- 녹음 용역 수행: ㈜팀벨
ㅇ 주요 사업 내용
- 일상 대화 녹음 및 음성 자료 정제(정제 후 650시간 분량)
- 음성 자료 이중 전사 및 원시 말뭉치 구축
- 구축 대상 자료에 대한 메타 정보 수집
- 납품 자료의 품질 보증 및 보완 체계 수립
ㅇ 담당자: 국립국어원 언어정보과
학예연구관 박미영(02-2669-9754)
□ 주요 질의·답변
1. 일상 대화 자료를 수집하는 목적은? |
ㅇ 일상 속에서 자연스럽게 대화한 자료를 모아 컴퓨터가 읽을 수 있는 형태로 가공한 일상 대화 말뭉치를 국가적으로 구축하여 우리말 인공지능 개발과 국어 연구 등에 공공 자료로 활용할 수 있도록 하기 위해서입니다.
2. 저작권 이용 허락 범위는? |
ㅇ 국립국어원과 국립국어원의 용역 사업 수행자가 귀하의 대화 자료를 말뭉치로 구축하고 배포하기 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.
- 수집 자료를 일정한 형식으로 전자적 기록 매체에 담아 보존하는 일
- 수집 자료를 형태소, 단어, 문장 등의 언어 단위별로 분리하며, 언어적·비언어적 정보를 부착하는 등 자료를 복제하여 변형하여 말뭉치를 구축하는 일
- 구축된 말뭉치를 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배포하는 일
ㅇ 학계·연구기관·산업체 등이 국어 연구와 언어 정보 처리 분야 응용 등을 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.
- 우리말 인공지능 기술 개발과 국어 연구용으로 말뭉치를 분석 및 처리하여 사용하도록 하는 일
3. 저작권 이용 허락 기간은? |
ㅇ 학계·연구기관·산업체 등이 연구 및 기술 개발에 활용하기 위해서는 충분한 기간 동안 안정적으로 말뭉치를 이용할 수 있는 것이 중요합니다. 예를 들어 1990년대 초반에 영국에서 구축한 BNC(British National Corpus) 말뭉치는 25년이 지난 현재까지도 안정적으로 제공되어 활용되고 있습니다. 국립국어원에서는 귀하의 소중한 대화 자료를 말뭉치로 구축하여 최소 2046년 12월 31일까지는 안정적으로 이용할 수 있도록 허락해 주시기를 바랍니다.
ㅇ 귀하께서 이용 허락 중지 의사를 밝히시면 최소 이용 허락 기간이 끝난 후 즉시 이용을 중지할 예정입니다. 의사를 밝히지 않으시면 이용 허락이 5년 단위로 자동 연장됩니다.
4. 일상 대화 말뭉치는 어떠한 형식으로 구축되는 것인지? |
ㅇ 귀하를 포함한 2~4인의 대화를 녹음하고, 녹음된 자료를 전사하고, 말뭉치의 형식을 갖추기 위한 정보를 부가하여 원시 말뭉치를 구축합니다. 여기에 형태소, 어휘, 문장과 관련된 언어적 정보를 부가하여 분석 말뭉치로 구축할 수 있습니다.
5. 개인 정보가 노출될 우려는 없는지? |
ㅇ 이름, 전화번호, 주소 등 개인 정보는 알아볼 수 없게 처리합니다.