본문으로 바로가기

학회/행사/기타 안내 상세보기

2021년 제4회 원내 연속토론회 후기

작성자 국립국어원 등록일 2021. 8. 23. 조회수 2458

2021년 제4회 원내 연속토론회 후기

2021년 8월 18일 / 국립국어원 어문연구과


  국립국어원에서는 2021년 제4회 원내 연속토론회를 다음과 같이 개최하였다.

주 제

언어 평가의 종류와 최근 평가 동향

발표자

이희경(연세대학교 교육대학원 영어교육전공 교수)

일 시

 2021년 8월 18일(수) 9:00

장 소

온라인 동영상 강의


  올해 네 번째 원내 연속토론회는 연세대학교 이희경 교수가 강의를 맡아 언어 평가의 종류와 최근 평가 동향에 대해 알아보는 시간이었다.

  먼저 평가는 목적에 따라 ‘능숙도/숙달도 평가’, ‘성취도 평가’, ‘진단 평가’, ‘배치 평가’로 분류되고, 평가 방식에 따라 ‘직접 평가’, ‘간접 평가’로 분류된다. 점수 해석에 따라서는 ‘규준 지향 평가’, ‘준거 지향 평가’로 분류된다. 평가 시기/목적에 따라서는 ‘형성 평가’, ‘총괄 평가’로 분류되고, 시험 유형에 따라서는 ‘객관적인 시험’, ‘주관적인 시험’으로 분류된다.

  지필 평가를 벗어난 새로운 평가 유형에는 ‘수행 평가’, ‘능력 지향 평가’, ‘성장 지향 평가’, 역동적 평가‘가 있다.

  새로운 평가 유형으로 등장한 ‘컴퓨터 적응 시험(Computer-Adaptive test)’은 수험자가 접하는 현재 문항에 대한 응답에 따라서 컴퓨터가 문제 은행에서 자동으로 다음 문항을 선별하여 제공하는 방식이다.

  채점자 개입 방식으로는 시험의 타당성을 확보하기 위한 노력으로 채점의 용이성과 신뢰성을 높이기 위해 자동 채점기가 개발되었다. 쓰기용 자동 채점기에는 ‘Project Essay Grad(PEG)’, ‘E-rater’, ‘IntelliMetric’, ‘Intelligent Essay Assessor(IEA)’가 있다. 말하기용 자동 채점기에는 ‘음파 모델(acoustic model)’, ‘언어 모델(language model)’, ‘채점 모델(scoring model)’이 있다.

  마지막으로 자동 채점의 의의를 확인하였고, 자동 채점도 인간이 어느 정도 훌륭한 정보를 제공하느냐에 따라 작용 여부가 달라질 수 있음을 말하며 강의가 마무리되었다.

원내 연속토론회 후기 누리집 게재 자료1 ㅁ평가의 분류 -평가목적: 능숙도평가, 성취도평가, 진단평가, 배치고사, -평가방식: 직접/간접평가, -점수해석: 규준지향(norm-referencde)/준거지향(criterion-referenced)평가, -평가시기/목적: 형성(formative), 총괄(summative)평가, -시험유형: 주관식/객관식 평가, -새로운 평가 유형: 수행평가/성장지향평가/능력지향평가/역동적평가/컴퓨터적응시험, -채점자 개입방식: 인간/자동/혼합

원내 연속토론회 후기 누리집 게재 자료2 ㅁ컴퓨터 적응 시험 모델 Pyramid Approach, Begin - Items1 right,  Items2 wrong, Items3 right, Items4 right, Items5 wrong - Outcome 100퍼센트 80퍼센트 60퍼센트 40퍼센트 20퍼센트, Decision Tree Approach permits probabilistic outcome, e Dr.Randall E. Schumacker University of North Texas

원내 연속토론회 후기 누리집 게재 자료3 ㅁ7.채점 방식: 쓰기용 자동채점기 3)IntelliMetric
-미국의 Vantage Learning에서 개발한 자동작문채점 시스템 -E-rater와 같이 자연언어처리(Natural Language Processing) 기술과 함께 최초로 인공지능(Artificial Intelligence)이 사용되어 개발됨 -미국교육위원회(College Board)의 배치고사에 사용됨 -어구해부(parsing)를 통해 품사를 구분하고, 품사들 사이의 구문적 관계를 파악하여, 작문의 특징을 파악하여 특징에 따른 작문 점수가 내재되어 작문 점수를 산출하도록 되어 있음. -좀 더 구체적으로, 인간 채점자들에 의해 미리 부여된 작문 샘플들을 통해 훈련과정을 거침. -이 과정에서 IntelliMetric은 채점 모델을 만들며, 인간의 추론 방식과 비슷한 귀납적 추론을 통해 채점 기준들을 내재화하고 점수와 관련된 작문 특징들을 살핌. -이렇게 생성된 채점 모델은 타당성 검증을 목표로 이미 점수가 부여된 일련의 작문을 시범으로 채점하게 되고, 점수의 신뢰성이 확보가 되었다고 판단되면, 마지막으로 점수가 부여되지 않은 새로운 작문들을 채점하게 됨

원내 연속토론회 후기 누리집 게재 자료4 ㅁ7.채점 방식: 말하기용 자동채점기 2)언어 모델(language model) -모든 말하기 과업 문항에 인공지능 시스템을 훈련시켜서 개발함 -모든 문항에 대해 세계적으로 다양한 샘플을 테스트하여 다양한 샘플의 인식을 가능하도록 함. -하나의 문항에 대해서 적어도 400개의 응답 샘플이 필요함 3) 채점 모델(scoring model) -인간 채점 전문가 집단이 채점한 점수와 말하기 응답(적어도 2명  이상의 인간 채점자가 채점)을 녹음하여 이를 탑재하여 훈련시킴. -데이터의 타당성을 위해서, 반드시 각 프롬프트에 대해서 적어도 400개의 새로운 항목을 전문 채점자가 채점하고 기록한 데이터가 필수적임. 즉, 반드시 인간 채점 데이터를 위해 인간 개입이 필요. -인공지능 시스템과 인간 채점자의 신뢰도 수준은 0.96으로 매우 높고 이에 도달하지 않은 항목은 탈락되어 실제 시험에 사용하지 않음.