본문으로 바로가기

학회/행사/기타 안내 상세보기

2022년 제5회 원내 연속토론회 후기

작성자 국립국어원 등록일 2022. 11. 17. 조회수 3737

2022년 제5회 원내 연속토론회 후기

2022년 11월 11일 / 어문연구과


  국립국어원에서는 2022년 제5회 원내 연속토론회를 다음과 같이 개최하였다.

주 제

자연어 처리의 국내외 동향—COLING(2022)와 HCLT(2022)를 중심으로

발표자

 김한샘 연세대 교수

일 시

 2022. 11. 11.(금) 15:00

장 소

국립국어원 4층 강의실


  올해 다섯 번째 원내 연속토론회에서는 연세대 언어정보연구원 김한샘 교수가 ‘자연어 처리의 국내외 동향’을 주제로 하여 발표하였다.

  발표자는 올해 10월 각각 경주에서 개최된 ‘컴퓨터 언어학 국제 학술 대회(International conference on computational linguistics: COLING)’와 ‘제34회 한글 및 한국어 정보처리 학술 대회(The 34th annual conference on human & cognitive language technology: HCLT)’에서 다룬 자연어 처리에 대한 주요 논의를 소개하였다.

  컴퓨터 언어학 국제 학술 대회에서는 자연언어 관련 연구의 주요 주제로 정보 추출, 자동 요약 및 자연언어 생성, 추론이 통계적으로 많이 나타났고, 발표자는 사용자들이 실용적 목적으로 언어 정보를 처리하고자 하는 경향이 있음을 시사했다. 대륙별 연구 동향 중 아시아에서도 정보 추출, 지식 추출, 텍스트마이닝(text mining) 등이 주요 연구 분야로 자리매김하고 있음을 제시하였다. 또한 아프리카 언어와 같이 언어 데이터의 양이 적은 경우에는 상대적으로 데이터가 충분한 영어의 연구 성과를 기반으로 하여 이를 딥러닝을 통해 소수어에 어떻게 적용하는지가 관건이라고 하였다.

  발표자는 컴퓨터 언어학 국제 학술 대회에서 자동 쓰기 평가(Automated writing evaluation: AWE)를 주제로 한 겐타로 이누이 교수의 논의를 소개하기도 하였다. 이 논의에 따르면, 자동 쓰기 평가 모형 개발 시에는 실제 이용자가 이해할 수 있는 주제로 과제를 정의하는 것이 우선되어야 하며, 단순히 정량적인 평가보다는 과제에 대한 이해도를 평가하는 것이 중요하다고 언급하였다. 또한 쓰기 평가의 틀을 잘 구현해 두어야 자동화된 피드백을 제시하여도 이용자가 이를 쉽게 이해할 수 있다고 설명하였다.

  다음으로, 제34회 한글 및 한국어 정보처리 학술 대회에서는 발표자가 참여한 연구인 ‘언어 모델도 남녀유별을 아는가—필마스크(fill-mask) 태스크로 보는 성별과 직업의 관계’, ‘데이터로 인해 발생하는 자연어 처리 분야의 윤리적 이슈’를 소개하였다.

  예를 들어, 한국어 언어 정보 중 어떤 사람의 직장, 직종, 직급 및 승직/강직 정보를 컴퓨터에 입력하고서 이 사람의 성별 정보를 가려 놓고 기계가 이를 알아맞히게 하는 실험을 한 결과, 한국어 언어 모델의 성별 편향 분포는 심각한 불균형적 분포 양상을 띰을 지적하였다. 이를 해결하기 위해서는 훈련 데이터 자원을 재정비하고, 성별 편향 평가 기준을 확장적으로 해석할 필요성이 있으며, 성별 편향 현상에 대한 포괄적 이해 및 접근이 필요하다고 하였다.

  ‘데이터로 인해 발생하는 자연어 처리 분야의 윤리적 이슈’와 관련해서는 데이터를 수집하고 이를 가공하는 과정에서 개인정보가 유출되지 않도록 철저하게 관리하고 이를 비식별화하는 과정을 투명하게 공개해야 한다고 하였다. 해당 논의에서는 자연어 처리 분야에서의 저작권과 같은 윤리적 쟁점을 유형화하고 해결 방안을 모색하였다는 데에 의의가 있으며, 향후 기술적인 부분에서 윤리적 쟁점을 해결할 수 있는 방안을 고안해야 할 필요성을 언급하였다.

  강연의 후반부에서는 개인정보 탐지를 위한 특화 개체명 주석 분석표지(tag set)의 구축과 관련한 다른 연구를 소개하기도 하였다. 또한 한국어 회의록 생성 요약을 위한 국회 회의록 요약 말뭉치 구축 연구, 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구, 성격 유형별 문체 특성 기반 맞춤형 광고 메시지 자동 생성 연구 등을 소개하면서 자연언어 처리 기술이 경제적 가치 창출과도 밀접하게 연관되어 있음을 시사하였다.


2022년 제5회 원내 연속토론회 사진