2007년도 국어학의 주요 일지
국어 정책 연구 동향 논저 목록
국어 교육 연구 동향 논저 목록
한국어 교육 연구 동향 논저 목록
음성학·음운론 연구 동향 논저 목록
형태론 연구 동향 논저 목록
통사론 연구 동향 논저 목록
어휘론·의미론·
사전학
연구 동향 논저 목록
국어사·국어학사 연구 동향 논저 목록
사회언어학 연구 동향 논저 목록
방언 연구 동향 논저 목록
국어정보학 연구 동향 논저 목록
문자·표기 논저 목록
사전학  논저 목록
정기 간행물 목록 논저 목록
1. 전국 대학 국어 관련 학과
-국어국문학
-국어교육학
-언어학
-한국어교육학
2. 국어 관련 학회 및 단체
  II. 국어 분야별 동향
 국어정보학
박진호 / 한양대학교
  국어정보학은 역사가 짧은 신생 학문이기 때문에, 그 개념 정의나 범위의 한정에 있어서 아직 불분명한 점이 많다. 따라서 어떤 연구가 국어정보학에 속하는가의 판단이 사람에 따라 달라질 수 있다. 본고에서는, 국어정보학을 크게 ① 컴퓨터를 이용한 한국어 연구, ② 컴퓨터로 한국어를 처리하기 위한 연구로 나누어 살펴보려 한다. 이 둘은 연구의 궁극적인 목적에서 두드러진 차이가 있다. 후자는 흔히 전산과학(computer science) 분야에서 ‘자연언어처리(natural langu -age processing)’라 불린다. 국어정보학을 좁게 정의하면 전자만으로 한정할 수도 있으나, 본고에서는 후자까지도 포함하여 다루기로 한다. 단, 후자의 경우 본고에서 누락된 연구가 많이 있을 수 있다.

1. 컴퓨터를 이용한 한국어 연구

  1.1. 일반

  『한국어 정보 처리 입문: 컴퓨터가 우리말을 이해하려면?』(한정한·남경완·유혜원·이동혁)은 국어정보학의 입문서 역할을 하기 위해 기획된 책이다. 문자코드, 말뭉치, 전자사전, 형태소 분석, 구문 분석, 의미 분석, 음성 처리, 기계번역, 응용 시스템(맞춤법 검사, 문서 요약, 정보 검색) 등의 방대한 분야를 다루고 있다. 국어정보학은 역사가 짧은 만큼 적당한 입문서가 별로 없는 형편인데, 이 책이 나옴으로 해서 입문서에 대한 갈증을 상당히 해소시킬 수 있을 것으로 기대된다. 다만, 국어정보학은 이론적인 지식만 습득하는 것으로는 부족하고, 전산화된 언어 자료를 실제로 많이 다뤄 보는 실습이 매우 중요한데, 이 책에서는 실습 부분이 좀 취약한 것으로 생각된다. 하나의 책에서 두 부분을 다 만족시키기가 어려운 면이 있을 것이다. 앞으로 이 부분을 보완해 줄 수 있는 입문서의 출현을 기대한다.
  “사전 편찬과 국어 정보화의 과제: 국어 발전 기본 계획을 중심으로”(남길임)는 국어 발전 기본 계획(안)을 중심으로 사전 편찬 및 국어 자원의 정보화의 현황과 과제에 대해 살펴보고, 앞으로의 과제로서 다국어 지원 한국어 학습용 웹사전 편찬, <표준국어대사전>의 정비 및 맞춤형 사전 편찬, 국어 정보망 구축과 통합 정보 시스템 운영을 제안하였다.
  “한글과 정보화”(이병운)는 문자의 발달 단계와 분류에 대한 논의를 바탕으로 하여 한글 및 한국어 표기법의 특징을 논의한 것이다. 정보화를 본격적으로 논의한 것은 아니나, 한글의 문자론적 특성에 대한 이해가 한글 정보화의 바탕이 될 수 있을 것이다.

  1.2. 말뭉치언어학

  말뭉치언어학 분야에서 가장 주목할 만한 업적은 『사회언어학적 코퍼스 분석의 실제』(김용진)이다. 사회언어학적 관점에서 말뭉치를 이용하여 레지스터 변이에 대한 연구를 해 온 저자가 써 온 글들을 모아서 펴낸 것이다. 제1부는 이론적 배경으로서, 사회언어학, 언어 변이, 말뭉치언어학의 기본 개념을 논의한 것이고, 제2부는 실제 언어의 분석으로서 주로 영어를 대상으로 하고 있다.
  “말뭉치 분석을 통한 접속부사의 결속 단위 고찰”(김미선)은 ‘그러나, 그리고’ 등의 ‘그’계 접속부사가 어떠한 단위들을 연결하는지를 소설 말뭉치에서 살펴본 것이다. 그 결과 ‘그’계 접속부사가 문장 내에 쓰인 경우는 6.32%, 문장 사이에 쓰인 경우는 10.46%, 문장군 사이에 쓰인 경우는 77.46%, 단락 사이에 쓰인 경우는 5.76%로 나타났다. 문장군은 Hinds의 segment의 번역어로서, ‘단락의 중심 의미를 유지하는 문장의 연쇄체’이다. 접속부사가 문장군 사이에 쓰인 경우가 압도적으로 많으므로, 텍스트 분석에 있어서 문장군이라는 단위의 중요성을 알 수 있다.
  “구어 말뭉치 자료를 통한 피동 표현 연구”(김세환)는 21세기 세종계획에서 구축된 구어 말뭉치에서 피동 표현의 사용 양상을 분석한 것이다. 접미 피동이 40.6%, ‘지다’ 피동이 31.0%, ‘되다’ 피동이 18.6%, ‘받다’ 피동이 7.3%, ‘당하다’ 피동이 2.6%로 나타났다. 어기의 종류에 따라 어떤 유형의 피동 표현이 사용될지에 대해 심한 제약이 있으므로, 앞으로 이에 대해 더욱 정밀한 연구가 필요하다.

  1.3. 어휘론

  국어학 분야에서 최근 연어에 대한 연구가 많이 나오고 있는 것을 반영하여, 말뭉치 및 컴퓨터를 이용한 연어 연구도 자주 나오고 있다. “연어의 통계적 접근을 통한 로그 우도비 중심의 연어 검증”(신효필)은 말뭉치에서 연어를 검증하기 위한 통계적 방법들(t-검증, 상호정보, 로그 우도비 등)을 검토하여 한국어의 경우 로그 우도비 방법이 적절함을 주장하였다. “연어 구성의 계량언어학적 연구: 신소설 말뭉치를 중심으로”(황용주)는 신소설 말뭉치에 나타나는 연어를 계량적으로 살펴보고, 그 뒤의 연어 구성의 변화를 통시적으로도 살폈다. 연어에 대한 계량적 연구 방법을 현대 이전 시기로 확장했다는 데에 의의가 있다. 연어에 대해서는 개념 및 인접 범주와의 변별 등 근본적인 문제에 대해 연구자들 사이의 견해차가 커서 앞으로도 당분간 논란이 계속될 것으로 보인다.
  “한국어와 중국어의 대조를 위한 한자어 명사의 계량언어학적 연구: 대상 한자어 선정 및 공기 관계의 계량화를 중심으로”(심혜령)는 외국인을 위한 한국어 교육을 염두에 두고 쓰여진 것이기는 하지만, 이 연구의 결과 자체는 여러 분야에서 활용될 수 있으므로 어휘론에 속하는 것으로 다룬다. 이 논문은 ‘한국어 교육용 기본 어휘’에서 1,040개의 한자어 명사를 가려낸 뒤 중국어의 여러 사전류 및 중국어 모국어 화자의 지식 등을 동원하여, 그 명사들이 중국어에서 동형의 대역어를 가지는지 살펴보았다. 그리고 이들 명사의 말뭉치에서의 빈도, 공기하는 서술어의 분포, 공기 서술어에 따른 대역어의 차이 등도 살펴보았다.
  “영-한 전문용어 조어력에 대한 통계적 연구: 물리, 화학, 의학, 기계공학, 화학공학 분야를 중심으로”(배선미)는 과학 기술 분야의 기초 핵심 전문용어의 영-한 대역쌍에 대하여, 영어 용어를 중심으로 특정 분야에서만 쓰이는 용어 및 여러 분야에 두루 쓰이는 용어를 조사하고, 조어 단위의 조어력을 통계적으로 살펴본 것이다. 새로운 학술 용어가 엄청나게 쏟아져 나오는 과학 기술 분야에서 대역어를 만들어 내는 데에 유용한 참고 자료가 될 수 있을 것이다.

  1.4. 문체론

  “‘산유화(山有花)’의 국어정보학적 연구”(이태영)는 김소월의 ‘산유화’에 대해 음소, 음절, 어절 단위로 통계적 분석을 하여 문학작품의 해석에 국어정보학이 도움을 줄 수 있음을 보여주고자 한 것이다. literary computing 분야에 대한 연구가 아직 활발하지 못한 국내 연구자들에게 좋은 본보기를 제시했다고 평가할 수 있다.

  1.5. 교육

  “웹 기반 올바른 우리말 사용을 위한 학습 시스템 설계 및 구현”(김귀주)은 청소년들에게 무분별한 통신 언어의 사용을 자제하게 하고 올바른 우리말 사용을 재미있게 익힐 수 있도록 여러 가지 놀이 프로그램을 구현한 연구이다. 어문 규정을 익히기 위한 ‘한말서당’, 통신 언어와 맞춤법 오류를 교정해 주는 ‘한말타자놀이’, 일상적인 잘못된 표현을 교정해 주는 ‘옳거니놀이’, 잊혀져 가는 순우리말을 학습하게 해 주는 ‘토박토박놀이’, 띄어쓰기 학습을 위한 ‘숨쉬기놀이’ 등을 구현하였다.
  “자동 문제 생성을 이용한 한국어 어휘학습시스템”(최수일)은 한국어 사전과 사용자 어휘 지능망(User-Word Intelligent Network: U-WIN) 등의 언어 자원을 이용하여 한국어 어휘 문제를 자동으로 생성하는 방법을 개발하고 이를 이용하여 한국어 어휘 학습 시스템을 개발한 것이다.
  국내에서 영어 교육의 시장이 매우 크고, 외국인을 위한 한국어 교육도 수요가 늘고 있으므로, 이러한 유의 교육 시스템의 개발은 앞으로도 꾸준히 이루어질 것으로 보인다.
  그 밖에 “코퍼스 언어학과 한국어 교육”(이승연)은 한국어 교육에서 말뭉치언어학이 어떻게 활용될 수 있을지를 종합적으로 살펴본 것이다.




2. 자연언어처리

  2.1. 음성 처리

  음성 처리와 관련하여 음성 합성 및 음성 인식에 대한 논문이 몇 편 나왔다.
  “한국어 음성합성기의 운율 예측을 위한 의사결정트리 모델에 관한 연구”(강선미·권오일)는 코퍼스 기반 음성 합성에 있어서 운율 예측(강세구 및 억양구 경계 여부 판단) 및 음소의 지속 시간, 평균피치, 세기의 예측을 위해 CART(Classification and Regression Tree)라는 통계적 알고리즘을 적용해 본 것이다. 또한 CART에 의한 결과의 편향을 보정하기 위해 SKES(Spearman or Kruskal -Wallis test and Exhaustive Search) 알고리즘을 적용해 봄으로써 미세하나마 성능의 향상 효과를 얻기도 하였다. CART와 SKES 알고리즘 적용에 의해 얻어진 통계적인 수치가 어떠한 의미를 나타내며, 합성음의 성능 향상에 어떠한 영향을 미쳤는지에 대한 정확한 평가가 앞으로의 과제로 남아 있다.
  음성 인식과 관련하여서는 후처리와 관련된 석사 학위 논문이 두 편 있었다. “음성 인식 후처리를 위한 띄어쓰기 오류 교정 및 수사열 정규화”(임동희)는 음성 인식 결과에서 “나/대명사 잘/부사 할:수/동사+의존명사 있:다/동사+어미”와 같이 띄어쓰기 오류가 있는 경우 품사 정보 및 음절 bigram과 4-gram을 이용하여 교정하는 방법을 제시하였고 “즐거운 한주 되세요”와 같이 품사 정보가 부착되지 않은 경우 품사 사전 및 품사 모호성 관련 어절 재결합 조건 등을 이용하여 품사 정보를 복원하였다. 또한 숫자, 기호, 외래어, 약어 등이 포함된 어절(“이천육년 유월 십사일”)에 대해 LEX를 이용하여 문자열을 인식한 후 교체 규칙에 따라 사용자에게 친숙한 형태(“2006년 6월 14일”)로 변환하는 방법도 소개하였다.
  “음성 인식 후처리에서 음소 유사율을 이용한 오류 보정에 관한 연구”(한동조)는 음성 인식에서 음소가 빠지거나 다른 음소로 대치되거나 불필요한 음소가 추가되는 등의 오류로 인해 형태소 분석이 실패했을 경우 이 오류를 보정하는 방법을 제시한 것이다. 음소의 신뢰도와 음소 간의 유사율을 이용하여 각 음절에 대한 후보 음절을 생성하고 오류 보정률의 평균에 따라 우선순위를 정하여 음절을 복원하게 된다.

  2.2. 철자 검사

  철자 검사와 관련된 연구도 많지는 않지만 주목할 만한 것이 있었다. “띄어쓰기 및 철자 오류 동시 교정을 위한 통계적 모델”(노형종·차정원·이근배)은 띄어쓰기 오류와 철자 오류를 따로 해결하는 기존 방법의 한계를 극복하기 위해 이 두 가지 오류를 함께 교정할 수 있는 방법을 모색한 것이다. 이 방법은 기본적으로 noisy channel model을 바탕으로 하고 있으며, 각 자소의 변환확률값과 어절변환패턴 사전을 이용하여 철자 교정 후보들을 생성한다. 생성된 후보들에 각각 띄어쓰기 교정을 위해 공백문자가 삽입된 후보가 더해지고, 이렇게 생성된 자소/어절 후보 경로에서 최종적으로 교정된 결과를 얻게 된다. 이 방법은 특히 자소변환확률을 이용하여 어절변환패턴 사전의 크기를 상당히 줄이고 사전 내에 있지 않은 패턴 또한 교정이 가능하도록 해준다.
  “한글 철자 검사를 위한 음성적 유사도 계산 알고리즘”(김효경)은 정보검색시 사용자가 예컨대 ‘넛가래/너까래/넉까래/너까레’ 등의 잘못된 표기형을 입력했을 경우 ‘넉가래’로 교정하려 할 때, 단순히 문자열만 비교하면 ‘나가래’와 같이 발음상 거리가 먼 단어도 후보가 될 수 있기 때문에, 음성적 유사성을 계산하는 알고리즘을 제안하고자 한 것이다. 저자는 계산 비용이 적고 한국어에 적합한 K-phone이라는 알고리즘을 제안하였으며, 이것을 Kodex와 Leven -shtein distance 등의 다른 방법과 비교하여 실험한 결과 분명한 성능 향상을 얻을 수 있었다.

  2.3. 형태소 분석

  형태소 분석과 관련하여서는, 분석의 기초 자료 구축에 대한 연구 및 구체적인 시스템 구현에 대한 연구가 있었다.
  ‘가로’라는 문자열은 명사+조사(가장자리로), 부사(가로 누웠다), 명사(가로 청소) 등으로 해석될 수 있는 형태론적 중의성을 지니고 있다. 형태소 분석기 등의 자연언어처리 시스템의 정확도를 높이기 위해 이러한 중의 어절 데이터를 수집하여 정리할 필요가 있다. “한국어의 형태론적 중의 어절 사전 구축의 방법과 실제”(이경호·남경완)는 바로 그러한 목적의 사전을 구축하는 방법을 매우 구체적으로 보여 주고 있다. 체언에 여러 조사가 붙고 용언에 다양한 어미가 붙는 한국어의 특성상 중의 어절을 직관적으로 파악하기 어렵기 때문에 말뭉치를 기반으로 하고 있으며, 표제 어절 정보, 분석 후보 정보, 공기어 정보 등을 사전에서 제시할 것을 제안하고 있다.
  “한국어 형태·통사적 특징을 고려한 범주 기반 가변 n-gram 품사 태깅 모델”(강미영)은, 기존의 한국어 형태소 분석기가 형태소 기반 unigram과 형태소 범주 기반 bigram을 바탕으로 한 HMM(hidden markov model)을 사용하고 있는 것의 문제점을 지적하고, 어절 내 형태소 결합 제약이나 어절 간 통사적 제약 등의 한국어의 문법적 특징을 고려한 형태소 분석기를 제안하고 있다. 어떤 어절의 분석을 위해, 그 어절 내의 각 형태소의 unigram 확률뿐 아니라, 앞뒤 어절을 고려하고 한국어에서 어절의 핵이 오른쪽에 있다는 사실을 이용함으로써, 분석의 정확도를 한결 높일 수 있다는 것이다.
  “어휘별 중의성 해소 규칙을 이용한 한국어 품사 태깅 시스템”(오수현)은 숙어 규칙과 어휘별 중의성 해소 규칙을 이용하여 해소할 수 있는 중의성을 해소하고, 그 후에도 남아 있는 중의성을 해소하기 위해 통계 정보를 이용한 HMM 기반한 태깅을 수행하는 복합형 태깅 시스템을 제안하였다. 어휘별 중의성 해소 규칙이란, 예컨대 ‘있는’의 앞 어절이 연결어미로 끝나면 ‘있’을 보조용언으로 태깅하고 그 외의 경우는 본용언으로 태깅하는 식으로, 앞뒤 문맥에 따라 중의성을 해소하는 규칙이다. 이러한 규칙에 대한 예외를 보다 철저히 조사함으로써 규칙의 정확도를 더욱 높이는 것이 앞으로의 과제라 할 수 있다.
  “규칙과 추정 어절 확률을 이용한 통합 품사 태깅 모델”(황명진) 역시 규칙 기반 태거와 통계 기반 태거의 장점을 취한 혼합 태깅 모델을 제안하고 있다. 어절 확률 계산에 있어, 어절 내 범주 패턴 정보에 따른 파라미터 set과 형태소 unigram만을 이용함으로써 기존의 통계 기반 방법에 비해 통계 사전의 크기를 줄일 수 있었고, 범주 패턴 정보를 사용함으로써 data sparseness 문제를 경감할 수 있었다.
  “단어의 통사 분석을 위한 계산 모형”(김동주)은 어절 내의 계층적 구조를 분석하기 위한 알고리즘을 제시한 것이다. 이를 위해 자질을 갖춘 형태소 목록, 형태론적 변형을 다루는 규칙, 단어 형성을 위한 규칙을 설정하고 있다. 분석 알고리즘은 GLR 알고리즘을 변형한 것이다.



  2.4. 구문 분석

  구문 분석과 관련하여서는, 특정 언어 범주가 구문 분석에서 제기하는 문제나 특성을 논의한 국어학자의 연구와 구체적인 구문 분석 모델을 설계하고 구현한 공학자의 연구가 있었다. 한정한과 박진호의 연구는 전자의 예이고, 우연문 외와 김동주의 연구는 후자의 예이다. 한정한과 박진호의 연구는 구문 분석뿐 아니라 형태소 분석이나 의미 분석의 문제도 다루고 있으나, 구문 분석에 가장 주안점이 두어져 있다고 할 수 있으므로 여기에서 다룬다.
  “‘-는 바람에’ 유형의 사전 기술과 전산 처리: [원인]의 문법적 연어를 중심으로”(한정한)는 ‘-는 바람에’, ‘-는 통에’, ‘-는 탓에’, ‘-기 때문에’, ‘-ㄴ 덕분에’ 등 [원인]의 부사절을 만드는 복합 표현들을 말뭉치에서 살펴보고, 이들의 어휘통사적 실현 패턴, 의미/화용적 선호 관계를 사전에서 기술하는 방안을 제안하고, 이 사전 정보를 이용하여 이들 표현이 출현하는 문장을 전산 처리하는 방법을 모색한 것이다. 한국어의 특징적인 구문 요소에 대해 이런 식의 연구가 축적되면 구문 분석 등에 유용하게 쓰일 수 있을 것이다.
  “보조용언의 전산 처리에 있어서의 몇 가지 문제”(박진호)는 보조용언이 자연언어처리의 여러 단계에서 제기하는 여러 가지 문제점을 제시하고 그에 대한 해결책을 논리적으로 모색해 본 것이다. 형태소 분석과 관련하여서는 본용언과 보조용언의 판별 문제, 구문 분석과 관련하여서는 보조용언의 작용역의 문제, 의미 분석과 관련하여서는 다의적인 보조용언의 센스 판별 문제를 다루고 있다. 말뭉치에서 이들 문제를 계량화하는 작업, 그리고 구체적인 자연언어처리 시스템에서 이들 문제에 대한 해결책을 구현하는 작업이 앞으로의 과제로 남아 있다.
  한국어의 구문 분석에 있어서는 최근 의존문법에 기반을 둔 파싱이 대세를 이루어 가고 있다. 의존 파싱(dependency parsing)에 있어서는, 하나의 의존소에 대한 지배소 후보가 여럿 있을 때 어떤 지배소를 선택할 것인가 하는 문제가 핵심이 된다. 이 때 한국어에서는 지배소가 의존소의 뒤에 온다는 사실과 의존 관계들이 서로 교차하지 않는다는 제약을 이용하면, 지배소 중의성의 상당 부분을 해결할 수 있다. 그러고도 남는 중의성을 해소하는 데에는 수식 거리가 매우 중요한 변수가 된다. 대체로는 의존소가 가까이에 있는 지배소를 수식할 가능성이 크지만, 항상 그렇지는 않기 때문에, 지배소 선택 알고리즘이 그리 단순치 않은 것이다. “지배 가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 모델”(우연문·송영인·박소영·임해창)도 바로 이 문제를 다루고 있으며, 의존소의 지배 가능 경로 문맥을 이용하여 수식 거리를 추정하는 확률 모델을 제안하고 있다. ‘지구에서 처음 생물의 싹이 텄다는 사실은 부자연스럽다’라는 문장의 경우 ‘지구에서’라는 의존소의 지배자가 될 수 있는 것은 ‘처음’, ‘텄다는’, ‘사실은’, ‘부자연스럽다’이므로 이들 네 요소가 ‘지구에서’의 지배 가능 경로를 이루게 된다. 의존소에 따라 선호하는 수식 거리가 존재한다는 아이디어에 기반을 두고 있으며, 수식 거리는 실제 문장에서의 거리가 아니라 지배 가능 경로 내에서 계산된다. 이럼으로써 원거리 의존 관계의 문제를 상당히 많이 해결할 수 있게 된다.

  2.5. 의미 분석

  한국어에는 많은 부사격 조사가 존재하고 하나의 부사격 조사가 여러 의미역을 나타낼 수 있기 때문에, 기계번역 등을 위한 의미 분석에서 많은 문제를 제기한다. 의미역 결정과 관련하여 격틀 정보 및 의미역 정보를 담고 있는 사전을 이용하는 방법과 의미역 정보가 부착된 학습 말뭉치를 이용하는 방법이 제안되어 있다. 전자는 사전 구축에 있어서, 후자는 학습 말뭉치 구축에 있어서 비용이 많이 든다는 단점이 있다. “부분 지도 학습에 기반한 한국어 부사격의 의미역 결정”(김병수)과 “비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정”(김병수·이용훈·이종혁)은 21세기 세종계획에서 구축된 전자사전에 들어 있는 격틀 정보 및 의미역 정보를 이용하여 학습 말뭉치를 자동으로 구축하여 이로부터 확률 정보를 추출하여 부분지도(semi-supervised) 또는 비지도(unsupervised) 학습(training) 알고리즘에 따라 점진적으로 학습하여 의미역을 결정하는 방법을 제시한 것이다.
  최근 자연언어처리 분야에서 어휘의미망, 온톨로지, 시소러스 등에 대한 연구가 활발히 이루어지고 있다. 미크로코스모스도 미국 뉴멕시코 주립대학에서 개발된 온톨로지이다. “미크로코스모스 온톨로지로의 한국어 기본 동사의 사상”(신효필)은 한국어의 기본 동사들을 미크로코스모스 온톨로지의 체계에 사상(mapping)함으로써, 한국어 의미 처리를 위한 언어 자원을 구축하고자 한 시도이다. 국립국어원에서 2003년 5월에 발표한 한국어 학습용 어휘 목록에 포함된 1,283개 동사를 대상으로 하였고, 세종전자사전에 수록된 이들 동사의 논항, 의미역 등의 정보를 참조하였으며, 말뭉치를 통해 어의를 더 세분하였다. 이들 각각의 어의에 대해 수작업으로 미크로코스모스의 개념 체계에서 해당 개념을 찾아서 사상시킨 것이다.
  온톨로지나 어휘의미망을 수동으로 구축하는 데에는 많은 비용이 들기 때문에, 구축 과정을 부분적으로나마 자동화하기 위한 연구가 행해지고 있다. 이런 자동화 과정은 비용을 줄여줄 뿐 아니라, 사람의 직관에 의한 작업이 가져올 수 있는 비일관성과 부정확성 등의 문제도 해결할 수 있게 해 준다. “사전정의문의 중심어를 이용한 동사 어휘의미망의 구축 및 활용평가”(김혜경)도 그러한 노력의 하나이다. ‘우리말큰사전’에 수록된 ‘[-하]동사류’의 사전정의문에서 중심어를 추출하여, 이들 중심어의 각 센스를 ‘코어넷’의 개념명에 사상시켰다. 3,656개의 센스가 723개의 개념에 대응되었으며, 이것은 동사뿐 아니라 명사 등의 다른 어휘 부류와도 연결된다. 또한 이렇게 구축된 어휘의미망의 활용성을 단어 클러스터링 시스템을 통해 평가하는 작업도 수행하였다. 이렇게 사전정의문을 바탕으로 하여 어휘의미망을 구축하는 작업은, 사전정의문 및 그 중심어가 정확하게 일관된 지침에 따라 작성되어 있다면 매우 큰 가치를 지닐 수 있지만, 그렇지 않을 경우 문제를 지니게 된다.
  기계번역에 있어서, 출발언어와 목표언어를 개별적으로 하나하나 사상(mapping)하는 transfer 방식은, 언어의 수가 늘어남에 따라 필요한 번역시스템의 수가 기하급수적으로 늘어난다는 문제점이 있다. 언어가 n개 있으면 번역시스템은 nP2=n×(n-1)개 필요하게 된다. 만약 중간언어를 하나 잘 만들어 놓으면, 출발언어를 중간언어로 번역하는 n개의 시스템과 중간언어를 목표언어로 번역하는 n개의 시스템만 있으면 된다. “어휘개념구조(LCS) 기반의 중간언어표상(ILR) 방법론 연구”(오장근)도 그러한 중간언어를 만들어내기 위한 기초 연구라 할 수 있다. Sowa의 개념도식, Jackendoff의 어휘개념구조, RRG의 논리구조, 미크로코스모스의 텍스트의미표상 등 기존 제안들을 살펴보고, 주로 LCS에 기반을 둔 방안을 제안하고 있다. 그런데 중간언어가 성공하려면, 세계 모든 언어에서 표현될 수 있는 모든 개념을 다 표현할 수 있을 만큼의 표현력(expressive power)을 갖추어야 한다. 언어에 따라 특정 의미 영역에서 의미가 세분될 수 있으므로, 가능한 한 세계의 많은 언어를 살펴볼 필요가 있다. 언어 유형론 연구와 자연언어처리가 접목될 수 있는 지점이다.



  2.6. 담화/텍스트 분석

  “결정 트리를 이용한 지시 표현 ‘것’의 구별”(조은경·김학수·서정연)은 지시 표현 ‘것’(예: ‘영어로 된 책 말고 일본어로 된 것’)과 비지시 표현 ‘것’(‘집에 갈 것입니다’)을 구별하기 위해 언어 문맥 자질, 담화 자질, 위치 자칠 등을 이용한 C4.5 결정 트리(decision tree) 알고리즘을 제안하고 있다. 앞으로 ‘것’의 용법을 더 세분할 수 있도록 자질을 보완하는 방향으로 연구가 발전되기를 바란다. “국어 공지시 해석 시스템에 관한 연구”(조은경)도 ‘것’, ‘그것’을 중심으로 조응 표현의 쓰임을 말뭉치에서 살피고 공지시 해석을 위한 기계 학습 방법을 모색한 것이다. 말뭉치에 기반하여 조응 표현과 선행어간의 특성을 살핀 결과, 문장 성분 중심의 현저성뿐 아니라 다양한 자질을 고려해야 함을 보였다.
  “중심화 이론을 이용한 텍스트 구조화”(노지은·나승훈·이종혁)는 자연스러운 텍스트 생성을 위해 문장 순서를 결정하기 위한 텍스트 구조화(text structuring)를 다루고 있다. 중심화 이론(centering theory)에 기반하여 문장 순서의 자연스러움에 대한 여러 평가 척도를 살폈는데, 기존 연구에서 가장 효과적이라고 알려진 MIN.NOCB의 문제점을 지적하고, 대안으로서 MAX.CPS를 제안하였다. 또한, 임의의 평가 척도가 주어진 문장들에 대해 가질 수 있는 기대치를 먼저 예측하고, 그것에 따라 다른 평가 척도를 적용하게 하는 프레임워크를 제안하여, 중심화 이론 안에서 최상의 문장 순서를 찾기 위한 새로운 방법론을 모색하였다. 또한, 명사들의 현저성(salience)을 서열화하는 여러 방법을 문장 순서 평가 척도의 관점에서 분석하였다. 그 결과, 단순히 문장에서 실현된 순서에 따라 명사들의 현저성의 서열을 정하는 것이 효율적임을 보였다.
  문서 자동 분류도 자연언어처리의 중요한 응용 분야 중 하나이며, 그 자체가 다시 여러 분야에 응용될 수 있다. “자연언어처리를 통한 문서 유사도 비교: 블로그 배경음악 추천에 대한 응용”(박두진)은 문서 자동 분류 기법을 이용하여 블로그의 내용을 판단하고 그것을 기반으로 해서 배경음악을 추천하는 시스템을 고안한 것이다. 블로그의 문장을 분석하기 위해 CYK 알고리즘 및 결합범주문법에 기반한 파서를 구현하였고, 이 결과를 DB의 노래 가사와 비교하여 적절한 음악을 추천해 주도록 하였다. 앞으로 단어의 의미 정보를 수록한 사전과 개념들 간의 관계를 계산하기 위한 온톨로지 같은 자료를 이용하면 성능을 더 높일 수 있을 것이다.

  2.7. 대화 및 질의응답 시스템

  키워드 기반 검색 시스템은 단어 단위의 검색어를 바탕으로 사용자가 원하는 정보를 찾아 주는 시스템이다. 한두 개의 키워드로 사용자의 검색 요구를 충분히 나타낼 수 없는 경우가 많이 있기 때문에, 검색 결과에 대한 사용자의 만족도가 낮은 편이다. 자연어 질의응답 시스템은, 자연언어로 된 문장으로 사용자가 자신의 검색 요구를 표현하면, 이를 분석하여 사용자의 검색 요구를 정밀하게 파악함으로써 검색의 정확도를 높일 수 있는 시스템이다. 그러나 이런 시스템은 자연어 질의 문장을 정확하게 분석할 것을 전제로 하는데, 자연언어처리의 현단계 수준이 그에는 미치지 못하므로, 현재는 영역(domain)을 한정하여 연구가 진행되고 있다. “자연어 질의응답 시스템 DB 모델링을 위한 특정 분야 텍스트의 언어적 특징 분석: 2006 FIFA 독일 월드컵 관련 한국어·불어 인터넷 신문 기사를 코퍼스로 선택하여 부분 문법(Grammaire locale)을 이용한 문형구조 추출”(박진아)은 축구라는 한정된 영역에서 그러한 연구를 수행한 것이다. 2006년 FIFA 월드컵과 관련된 한국어 및 불어 코퍼스를 문체적, 통계적으로 분석하였고, 이를 바탕으로 DB를 모델링하였다. 질의어 처리 모듈에서는 부분 문법(local grammar)을 이용하여 관용 표현, 수 표현, 철자 변이 현상 등을 처리하였고, 통사 분석에는 UNITEX를 이용하였다.
  대화 시스템은 사용자의 발화에 대해 적절한 응답 발화를 출력해 주는 시스템인데, 이를 위해서는 사용자 발화의 통사/의미 분석, 대화 관리, 응답 발화 생성의 과정을 거치게 된다. “EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템”(김석환·이청재·정상근·이근배)은 디지털 방송 서비스의 애플리케이션 중 하나인 EPG(Electronic Program Guide)에서 사용자의 방송 프로그램 검색 질의에 자동으로 응답하는 대화 시스템을 구현하고자 한 것이다. EPG는 속성상 DB의 관리 및 갱신이 매우 중요한데, 웹마이닝 기반의 EPG DB 관리자를 구현함으로써 DB 구축 비용을 최소화하고, 정확한 정보를 신속하게 제공할 수 있도록 한 것이 특징이다.

  2.8. 문자 코드

  유니코드 체계에서는, 문자론적 관점에서 동일한 하나의 문자를 둘 이상의 방법으로 나타낼 수 있는 경우가 있다. 독일어에서 사용되는 ‘Ü’의 경우 U+00DC라는 하나의 코드 포인트로 표현될 수도 있지만 U+0055 U+0308라는 두 개의 코드 포인트의 결합으로 표현될 수도 있다. 한글의 경우에도, 완성형 한글 음절 하나로 표현될 수도 있고, 한글 자모 시퀀스로 표현될 수도 있다. 따라서 문자열 비교, 검색 등을 위해서는 이런 것을 정규화할 필요가 발생하게 된다. 유니코드에서는 한글을 포함하여 정규화 방법을 제공하고 있으나, 옛한글 및 한글의 구조적 특성을 충분히 이해하지 못한 상태에서 만들어졌기 때문에 여러 가지 문제가 발생할 수 있다.
  “유니코드 환경에서의 올바른 한글 정규화를 위한 수정 방안”(안대혁·박영배)은 이런 문제를 해결하기 위해 새로운 한글 정규화 방안을 제안한 것이다. 정규화의 조합 알고리즘만을 수정하는 방안, 한글 자모 조합 방법만을 수정하는 방안, 정규화 알고리즘과 조합 방법 둘 다 수정하는 방안을 제시하고, 셋째 방안이 최선의 대안이라고 주장하고 있다.
  “유니코드의 한글 인코딩 표준안”(안대혁·박영배)도 역시 같은 문제의식에서 출발하여, 한글을 표상하는 여러 인코딩 방식이 존재함으로 인해 발생하는 호환 문제와 기존의 정규화에 의해 한글 음절의 조합 형태가 바뀌는 부작용을 분석하고, 음절의 유일성을 보장하면서도 효율적인 새로운 한글 인코딩 표준안을 제안하고자 한 것이다.