본문으로 바로가기

학회/행사/기타 안내 상세보기

4차 산업 시대의 우리말, 디지털을 넘어 데이터로

작성자 국립국어원 등록일 2017. 11. 6. 조회수 21975
 
 
4차 산업 시대의 우리말, 디지털을 넘어 데이터로
 
- 국립국어원,2017 국어 정책 학술 대회 ‘우리말 정보화의 현황과 과제’ 개최 -
 
 

4차 산업 혁명의 핵심은 ‘언어’

  매체를 통해 하루에도 수십 번씩 들려오는 ‘4차 산업 혁명’. 4차 산업 혁명 시대가 눈앞으로 다가왔다. 사람들은 자료를 모으고 선별하고 분석해 결국 유의미한 ‘정보’를 구축하는 것이 미래 산업의 핵심이라고들 말한다. 그렇다면 데이터는 어떻게 저장되고 소통되는가? 답은 ‘언어’다. 분석, 선별 그리고 수집과 같은 일련의 작업 이전에 인간의 당면 과제는 ‘언어를 데이터화하는 방법’이다. 도래하는 4차 산업 혁명 시대의 우리의 최우선 과제 역시 ‘우리말’의 데이터화다.

 국립국어원(원장 송철의)은 4차 산업 혁명 시대에 우리 말과 글이 나아갈 길을 살펴보기 위해 학계와 업계의 전문가를 초청하여 ‘우리말 정보화의 현황과 과제’를 주제로, 오는 11월 10일(금) 서울 페럼타워에서 2017 국어 정책 학술 대회를 개최한다. 이번 학술 대회는 국립국어원에서 2018년부터 추진 예정인 국어 거대 자료(빅데이터) 구축의 구체적인 방향을 탐색함으로써 4차 산업 관련 여러 분야에 도움이 되고자 마련되었다.

 

학회/행사

⦁ 행 사 명: 2017 국어 정책 학술 대회

⦁ 주 제: 우리말 정보화의 현황과 과제

⦁ 행사일시: 2017년 11월 10일(금) 10:00~

⦁ 장 소: 서울 페럼타워 3층 페럼홀

⦁ 주 최: 국립국어원

 

인공지능의 ‘언어’를 둘러싼 각 계의 관심

  언어는 그간 언어학계의 전유물이었다. 즉, 언어학계는 사람이 언어를 사용하는 체계와 방법에 관심을 둔 최초의 집단인 셈이다. 그러나 인공지능을 중심에 둔 4차 산업 혁명이 도래한 지금, 언어는 더이상 언어학계의 전유물이 아니다.

인공지능이 사람처럼 자연스러운 대화를 하기 위해서 언어의 구조만 필요한 것이 아니다. 방대한 양의 언어 자료의 구축과 이들의 선별 처리 역시 필수적이라는 사실이 널리 퍼지면서, 처리 과정에 관련되는 각 계의 이목이 집중되었다. 그러나 각 계의 발전만으로는 4차 산업 혁명 시대에서 소위 승기를 잡기는 힘들다. 인공지능의 언어가 사람의 언어를 완벽하게 모방하기 위해서는 관련 분야들의 협업이 매우 중요하다. 이에 국립국어원은 국어의 국가 중추 기관으로서 이들 학계 간의 목소리를 나눌 자리가 시급함을 인지하고 각 계의 의견을 나누는 장을 마련하였다.

  이번 학술 대회에서는 국어학계뿐 아니라 컴퓨터공학계의 학자들과 업계의 전문가들을 초청하여 이론적 발전의 최첨단 현황과 현장의 생생한 현황도 함께 들을 예정이다. 이로써 새로운 산업 시대의 가치와 준비해야 하는 사항을 확인하고, 성공적인 4차 산업 혁명 시대의 개막을 위하여 각 계의 과제와 발전 방향을 알아보는 시간이 될 수 있을 것이다.

 

학계와 업계의 오랜 염원: 국가 기관 주도의 국어 거대 자료(빅데이터) 구축

  국립국어원에서는 수차례의 원내 4차 산업 관련 초청 강연을 통해 관련 학계의 생생한 목소리를 들었다. 학계와 업계는 기초 자료의 부재를 일관되게 성토하였다. 아이가 언어를 배우려면 부모의 언어를 풍부하게 들음으로써 언어의 구조를 추론할 수 있어야 한다. ‘풍부한 부모의 언어’가 곧 기초 자료인 셈인데, 한국어를 말하는 인공지능은 이 ‘풍부한 부모의 언어’가 없다.

  1998년부터 2007년까지 10년 중장기 사업으로 추진했던 ‘21세기 세종계획’의 결과물 중에도 국어 말뭉치가 있다. 그러나 이때 구축된 말뭉치는 인공지능 언어의 기초 자료로 쓰기에는 규모가 작고 구어(말하는 언어)보다 문어(쓰는 언어)에 치중되어 있어서 자료의 질적 측면에서 아쉬운 점이 있다.

  앞서 구축된 자료의 아쉬운 점을 보완하고 양적 확대가 충분히 이루어진 말뭉치를 개인이 구축하기에는 시간과 경제적 비용이 적지 않다. 그간 학계와 업계에서 국어 거대 자료 구축의 필요성을 절감하면서도 섣불리 나서지 못한 까닭이 여기에 있다. 따라서 국어 거대 자료는 국가 기관이 주도하여 구축하는 것이 바람직하다. 이번 학술 대회에서는 앞으로 공공재로 사용될 국어 거대 자료(빅데이터)의 성격과 구축 방법을 살펴보고 또 각 계의 요구에 걸맞은 자료의 성격을 파악할 수 있는 시간이 될 것으로 기대한다.

 

2017 국어 정책 학술 대회. 우리말 정보화의 현황과 과제. 프로그램 소개. 10시부터 10시 20분까지 개회식. 10시 20분부터 11시 10분까지 주제1 우리말 인공지능의 개발과 전망. 11시 10분부터 12시까지 주제2 말뭉치 구축의 세계 동향과 국어 말뭉치의 현주소. 12시부터 13시 30분까지 점심 식사. 13시 30분부터 14시 20분까지 주제 3 말뭉치 언어학과 이론 언어학, 사전 편찬. 14시 20분부터 15시 10분까지 주제4 기계 번역은 우리 생활을 어떻게 변화시킬 것인가. 15시 10분부터 15시 20분은 휴식. 15시 20분부터 16시 10분까지 주제5 우리말 자연 언어 처리 기술의 전망. 16시 10분부터 17시까지 주제 6 음성 언어 처리, 어디까지 왔나. 17시 폐회식