본문으로 바로가기

학회/행사/기타 안내 상세보기

2022년 제6회 원내 연속토론회 후기

작성자 국립국어원 등록일 2022. 12. 14. 조회수 19980

2022년 제6회 원내 연속토론회 후기

2022년 12월 9일 / 어문연구과


  국립국어원에서는 2022년 제6회 원내 연속토론회를 다음과 같이 개최하였다.

주 제

핵심 언어 모형을 통한, 균형 잡힌 데이터 증강

발표자

 에릭 데이비스 에스케이텔레콤 기술 임원

일 시

 2022. 12. 9.(금) 14:00

장 소

국립국어원 4층 강의실


  올해 마지막으로 실시한 여섯 번째 원내 연속토론회에서는 ‘핵심 언어 모형을 통한, 균형 잡힌 데이터 증강’을 주제로 에스케이텔레콤 기술 임원 에릭 데이비스 선생이 발표하였다.

  발표자는 인공지능 대화 프로그램 개발을 위한 한국어 범용 언어 모형(GLM: Gereral-purpose language model)을 소개하며, 해당 모형은 사람처럼 자연스러운 문장을 생성할 줄 아는 생성적 사전(事前) 학습 변환기(GPT-3: Generative pre-trained transformer 3)를 활용한 것으로서 단순한 정보 전달 이상의 심도 있는 지식까지 동원하여 인간처럼 대화할 수 있다고 하였다. 해당 언어 모형은 웹 기반 지식, 위키백과, 뉴스 등을 포함한 전문 기관의 정제된 대화 데이터를 일차 데이터로 하여 내부 언어 전문가의 이차 정제를 거쳐 기계 학습을 통해 성장하고 있다.

  발표자는 대형 언어 모형을 학습시킬 때 범용성을 기하기 위해 다양한 데이터 확보의 중요성과 대화 데이터의 규모 확충의 중요성을 강조하였다. 특히, 인공지능 대화 프로그램에 특정 과업을 부여하고 얼마나 바람직한 대화에 가까운지를 평가하는 과업 벤치마킹의 정확도가 매개변수의 규모가 커짐에 따라 유의미하게 증가하는 것을 도표를 통해 제시하기도 하였다. 한편 미국의 현재 연구 현황을 보면 높은 범용성과 자연스러운 대화 능력을 갖춘 범용 언어 모형을 통해 자동으로 정보 분석 및 도표 생성, 대고객 상담 시 예상 답변의 사전 제시, 콘텐츠 추천뿐 아니라 자동 코딩(프로그래밍 지식이 없는 사람이 말로써 특정 코드를 짜 달라고 하면 기계가 스스로 코딩을 하는 것)도 하여 인간의 삶을 편리하게 해 주는 장점이 있음을 소개하였다.

  발표자는 현재 한국어 범용 언어 모형이 특정 영역에 한정된 대화가 아니라 마치 사람처럼 이전에 대화한 내용을 기억하고 대화 맥락을 유지함으로써 여러 문장을 자연스럽게 대화하도록 하는 것을 목표로 설계되고 있다고 하였다. 이를 위해서는 사람 대 사람의 대화 데이터가 중요하며, 전체 대화 데이터 중 비율은 한 자릿수로 제일 적지만 사람 대 사람의 대화 데이터는 품질이 좋아서 기계 학습 시 매우 가치 있는 데이터라고 하였다. 대화 데이터의 종류로는 날씨를 묻는 등 일상을 주제로 한 데이터, 자연스러운 대화 속에서 지식을 전달하는 지식 대화 데이터, 감정이나 심리를 반영하는 발화에 적절하게 공감해 주는 공감 발화 데이터, 다양한 특성과 취향을 가진 가상의 인물을 설계하여 마치 사람처럼 인격을 부여한 페르소나를 기반으로 한 페르소나 대화 데이터가 있다.

  발표자는 인공지능 대화 프로그램과 사람의 실제 대화 예시를 통해 인공지능 모델이 자연스러운 대화 중심 발화, 다양한 영역에 걸친 대화, 사용자의 경험 및 세계관을 이해한 발화 능력이 있어야 함을 강조하였다.

  강연의 후반부에서는 현재 범용 언어 모형은 아직 이전 대화를 기억하지 못해서 대화가 매끄럽게 이어지지 못하는 경우도 있고, 사용자가 프로그램을 상대로 대화를 악의적으로 유도하여 폭력, 차별, 혐오 표현 등 편향된 데이터를 학습시킴으로써 윤리적 문제가 발생할 수 있는 한계와 문제점이 있음을 지적하였다. 또한 현재로서는 문자 데이터 외에는 입력할 수 없어서 앞으로 사진 등 다양한 형태의 데이터까지 생성해 낼 수 있도록 대화 모형을 개발해야 할 필요성을 언급하였다.

  마지막으로 앞으로의 범용 언어 모형은 사용자의 비윤리적 발화에 적절히 대응할 수 있도록 안전성을 확보해야 하고, 풍부한 지식을 함양하고 착한 성품을 지닌 인물을 페르소나로 삼아 사용자 맞춤형 대화가 가능하도록 설계하며, 이미지를 포함한 효과적인 시각적 정보가 있는 대화를 제공할 수 있어야 한다고 하였다. 사용자와의 대화에서 즉각적이고 단편적인 응답보다는, 충분히 숙고하고 천천히 생각하여 최선의 응답을 제시하는 것이 중요하다는 것도 강조하였다. 강연이 끝나고 질의응답 시간에는 사람이 먼저 말을 시작하지 않고 대화 프로그램이 먼저 말을 걸어 주는 인공지능 대화 프로그램의 출시 시기는 언제쯤일지 궁금하다는 질문 등 강연 내용과 관련하여 청중들의 다양한 질문과 이에 대한 발표자의 답변이 활발히 이루어졌다.


제6회 원내 토론회 사진 1

제6회 원내 토론회 사진 2