2024.05.03 (금)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공
상세검색
닫기

문화 넓게 보기

국내 첫 자동 문장 분절 프로그램 개발

한국국학진흥원, 인공지능 기반 고문헌 자동 문장 분절 웹서비스

[우리문화신문=김영조 기자]  전통 기록유산 속 한문 문장을 자동으로 분절해 주는 ‘고문헌 한문 자동 문장 분절’ 프로그램이 곧 공개된다. 한국국학진흥원(원장 정종섭)은 2022년부터 국학자료를 대상으로 한 인공지능(AI) 기반 자동번역 프로그램 개발에 착수했다. 그 결과 고문헌 문자인식(OCR) 프로그램에 이어, 자동으로 문장을 분절해 주는 프로그램 개발에 성공했다. 한국국학진흥원 관계자에 따르면, 본 인공지능 기반 고문헌 자동 문장 분절 프로그램의 정확도는 약 90% 이상이라고 밝혔다.

 

국학자료 자동번역 프로그램으로 가기 위한 단계적 접근

 

전통 기록유산은 대부분 한문으로 기술되었기 때문에 일반인은 접근하기 어려운 실정이다. 따라서 현재 활용을 위해서는 디지털 텍스트화와 한글 번역이 필수적이다. 63만여 점 소장하여 국내 가장 많은 기록유산 소장 기관인 한국국학진흥원이 인공지능을 활용한 자동번역 프로그램 개발에 착수하면서 전통 기록유산에 대한 디지털화와 번역에 청신호가 켜졌다.

 

 

한국국학진흥원은 소장자료를 기반으로 원문자료의 자동 인식부터 문장 분절, 한글 번역까지 일련의 과정을 인공지능을 통해 자동화시킬 계획이다. 이번에 공개한 ‘고문헌 자동 문장 분절 프로그램’은 한문 번역 과정의 정확도 제고를 위해서 필수적인 것으로, 이후 자동번역 시스템 구현에 기초 자료로 활용될 예정이다.

 

4차 산업시대, 전통 기록유산의 현대적 활용을 위한 획기적 전환

 

현재 전통 기록유산은 비디지털화, 미번역이라는 거대한 활용장벽에 막혀 있다. 전통 기록유산의 원문 텍스트와 한글 번역 구축에는 막대한 예산과 비용이 소요된다. 전문기관의 연구에 따르면 지금과 같은 아날로그식 방법을 유지할 때, 전통 기록유산에 대한 디지털화와 번역에는 300년 이상이라는 오랜 기간이 소요된다고 한다. 그러나 인공지능 기술을 활용한 문자인식, 문장 분절을 활용하면, 관련 인력 대비 30배 이상의 빠른 속도로 디지털화 작업이 가능하다.

 

 

이번 사업은 관련 산업에 적극적으로 활용되어 전통 기록유산에 대한 일반인들의 접근성을 한 단계 높일 수 있을 것으로 전망된다. 나아가 우리의 전통 기록 자료와 첨단기술을 접목하여 관련 분야 일자리 창출에도 이바지할 것으로 기대한다.

 

한국국학진흥원, 원내 평가 이후 일반인에게도 공개

 

한국국학진흥원은 이번 달 원내 연구원들을 대상으로 시험을 거친 뒤, 일반인에게도 한국국학진흥원 누리집(https://ocr.ugyo.net/space/)를 통해 프로그램을 공개할 예정이다. 본 프로그램은 컴퓨터뿐 아니라 태블릿, 슬기말틀(스마트폰)로도 이용할 수 있다. 이 밖에도 현재 한국국학진흥원은 OCR을 활용한 고도서 한자 인식(https://ocr.ugyo.net/ocr/)과 이미지 검색(https://ocr.ugyo.net/isearch/)도 서비스 중이다.