본문으로 바로가기

공지 사항 상세보기

국립국어원 2025년 일상 대화 자료 수집 및 정제사업 관련 안내

작성자 국립국어원 등록일 2025. 4. 10. 조회수 2680

담당자: 언어정보과 박미영 학예연구관(02-2669-9754)

<국립국어원 공고 제2025-74호>

국립국어원 2025년 일상 대화 자료 수집 및 정제
사업 관련 안내


   국립국어원에서는 우리말 인공지능 기술 개발과 국어 연구 등에 활용하고자 대화 자료를 수집하여 가공하는 ‘2025년 일상 대화 자료 수집 및 정제’ 사업을 추진하고 있습니다. 우리말 인공지능 기술 발전 등에 기초가 되는 국가적 언어 자료의 수집과 구축 사업에 귀하의 소중한 대화 자료가 유용하게 활용될 수 있도록 많은 관심과 참여를 부탁드립니다.

□ 사업 개요  


 ㅇ 사업명: 2025년 일상 대화 자료 수집 및 정제

 ㅇ 사업 기간: 2025. 2. 17. ~ 2025. 12. 20. 

 ㅇ 사업 수행자: ㈜나라지식정보, ㈜팀벨

- 녹음 용역 수행: ㈜팀벨

 ㅇ 주요 사업 내용

- 일상 대화 녹음 및 음성 자료 정제(정제 후 650시간 분량)

- 음성 자료 이중 전사 및 원시 말뭉치 구축

- 구축 대상 자료에 대한 메타 정보 수집

- 납품 자료의 품질 보증 및 보완 체계 수립

 ㅇ 담당자: 국립국어원 언어정보과
                  학예연구관 박미영(02-2669-9754)

□ 주요 질의·답변


1. 일상 대화 자료를 수집하는 목적은?


 ㅇ 일상 속에서 자연스럽게 대화한 자료를 모아 컴퓨터가 읽을 수 있는 형태로 가공한 일상 대화 말뭉치를 국가적으로 구축하여 우리말 인공지능 개발과 국어 연구 등에 공공 자료로 활용할 수 있도록 하기 위해서입니다.

2. 저작권 이용 허락 범위는?


 ㅇ 국립국어원과 국립국어원의 용역 사업 수행자가 귀하의 대화 자료를 말뭉치로 구축하고 배포하기 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.

- 수집 자료를 일정한 형식으로 전자적 기록 매체에 담아 보존하는 일

- 수집 자료를 형태소, 단어, 문장 등의 언어 단위별로 분리하며, 언어적·비언어적 정보를 부착하는 등 자료를 복제하여 변형하여 말뭉치를 구축하는 일

- 구축된 말뭉치를 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배포하는 일

 ㅇ 학계·연구기관·산업체 등이 국어 연구와 언어 정보 처리 분야 응용 등을 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.

- 우리말 인공지능 기술 개발과 국어 연구용으로 말뭉치를 분석 및 처리하여 사용하도록 하는 일

3. 저작권 이용 허락 기간은?


 ㅇ 학계·연구기관·산업체 등이 연구 및 기술 개발에 활용하기 위해서는 충분한 기간 동안 안정적으로 말뭉치를 이용할 수 있는 것이 중요합니다. 예를 들어 1990년대 초반에 영국에서 구축한 BNC(British National Corpus) 말뭉치는 25년이 지난 현재까지도 안정적으로 제공되어 활용되고 있습니다. 국립국어원에서는 귀하의 소중한 대화 자료를 말뭉치로 구축하여 최소 2046년 12월 31일까지는 안정적으로 이용할 수 있도록 허락해 주시기를 바랍니다.

 ㅇ 귀하께서 이용 허락 중지 의사를 밝히시면 최소 이용 허락 기간이 끝난 후 즉시 이용을 중지할 예정입니다. 의사를 밝히지 않으시면 이용 허락이 5년 단위로 자동 연장됩니다.

4. 일상 대화 말뭉치는 어떠한 형식으로 구축되는 것인지?


 ㅇ 귀하를 포함한 2~4인의 대화를 녹음하고, 녹음된 자료를 전사하고, 말뭉치의 형식을 갖추기 위한 정보를 부가하여 원시 말뭉치를 구축합니다. 여기에 형태소, 어휘, 문장과 관련된 언어적 정보를 부가하여 분석 말뭉치로 구축할 수 있습니다.


일상대화 말뭉치 예시1일상대화 말뭉치 예시2


5. 개인 정보가 노출될 우려는 없는지?


 ㅇ 이름, 전화번호, 주소 등 개인 정보는 알아볼 수 없게 처리합니다.

국립국어원 2025년 일상 대화 말뭉치 구축, (주)팀벨은 국립국어원의 한국언어문화 인공지능 기술 개발 및 연구 활용을 위해 대화 말뭉치를 구축합니다. 일상 대화 자료 수집을 위해 녹음 작업에 참여할 분을 모집하니 여러분의 많은 참여 부탁드립니다. 혼자 또는 지인과 함께, 녹음하실 분들을 모십니다! 신청대상: 2012년생부터 연령제한 없이 남녀노소 누구나 참여 가능! 가족, 친구, 직장동료, 선후배, 지인 등 동반 참여 환영! 1인 참여도 대환영!, 모집기간: 2025년 4월 1일~모집 완료 시, 녹음장소: 서울(역삼/가산), 대전, 부산, 익산, 광주, 강원, 제주 등 순차 개설 예정, 녹음시간: 2인-1시간 30분, 3~4인: 2시간(녹음 설명 및 휴식시간 포함), 녹음 비용: 1회 녹음 시 3~4만 원 지급, 지원 방법: 1. 녹음 신청 홈페이지 회원가입 및 접속(www.the-data.works) 위의 주소 또는 하단의 QR코드로 접속, 2. 2025 일상대화 말뭉치 구축 선택, 3. 참여 신청서 작성(희망 지역/날짜/시간 선택 가능), 문의처: (주)팀벨/02-6952-2590, 본 녹음은 1인당 1회만 신청 가능합니다. 중복 신청 불가, 문화체육관광부 국립국어원 Timbel

공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.