2024.11.21 (목)

  • 구름조금동두천 12.8℃
  • 맑음강릉 14.2℃
  • 맑음서울 13.5℃
  • 구름조금대전 13.9℃
  • 구름조금대구 14.8℃
  • 맑음울산 14.5℃
  • 구름조금광주 14.2℃
  • 맑음부산 15.8℃
  • 구름조금고창 14.1℃
  • 구름많음제주 16.7℃
  • 맑음강화 13.4℃
  • 구름많음보은 12.7℃
  • 구름조금금산 13.8℃
  • 구름조금강진군 15.2℃
  • 맑음경주시 15.5℃
  • 맑음거제 13.5℃
기상청 제공
상세검색
닫기

문화 넓게 보기

한문 디지털 텍스트화, 이제 인공지능으로

한국국학진흥원, 인공지능 기반 ‘고도서 한자 인식 프로그램’ 웹서비스 열어

[우리문화신문=김영조 기자]  한국국학진흥원(원장 정종섭)이 국학자료 속 한문을 디지털 텍스트화하는 문자인식(OCR, Optical Character Reader) 프로그램인 “고도서 한자 인식”을 28일, 기관 누리집을 통해 대중에게 공개하였다. 이로써 막대한 분량의 국학자료의 디지털화 작업에 본격적인 속도가 붙을 전망이다. 한국국학진흥원은 4차 산업혁명 시대 국학자료 관리 방법의 획기적인 전환 필요성을 인식하고, 장기 프로젝트로 인공지능(AI)을 활용한 국학자료 자동번역 프로그램 개발에 착수했다. 이번에 공개한 고도서 한자 인식 프로그램은 국학자료 속의 한자를 디지털 글자(텍스트)로 변환하는 기술로, 한문 인식률의 정확성은 약 90% 이상에 달한다.

 

인공지능 기술 활용 문자인식, 국학자료 디지털화 속도 30배 앞당겨

 

국학자료는 한문으로 적혀있으므로 일반인은 접근하기 어려운 높은 벽이 존재한다. 그러므로 국학자료의 활용을 위해서는 디지털 텍스트화와 한글 번역은 필수적이라 할 수 있지만, 여기엔 막대한 예산과 긴 시간이 필요하다. 현재 방대한 분량의 국학자료를 디지털화 그리고 뒤치는(번역하는) 작업은 ‘스캐닝ㆍ촬영→텍스트 입력→전문 번역’이라는 20년 전부터 이뤄진 방식 그대로 진행되고 있다.

 

 

 

※‘고도서 한자 인식’ 웹서비스 : http://ocr.ugyo.net/ocr

 

그 결과 이미지 디지털화는 50% 미만, 텍스트 디지털화는 5%도 채 진행되지 못하였다. 전문기관의 연구에 따르면 지금과 같은 방식이라면, 국학자료에 대한 이미지 디지털화 완료에는 20년 이상, 텍스트 디지털화 완료에는 380년 이상이 소요된다고 추정한다. 그러나 인공지능 기술을 활용한 문자인식 프로그램을 개발ㆍ활용한다면 인력 대비 30배 이상 빠른 속도로 디지털화 작업이 가능하다.

 

최다 소장 국학자료 기반으로 한문 자동번역 프로그램 개발의 선두에

 

한국국학진흥원은 60만 점에 달하는 우리나라에서 가장 많은 국학자료를 소장하고 있는 기관이다. 한국국학진흥원이 인공지능을 활용한 자동번역 프로그램 개발에 착수하면서 국학자료에 대한 디지털화와 번역에 청신호가 켜졌다. 기관은 소장한 국학자료를 기반으로 고도서 원문자료의 자동인식부터 표점, 한글 번역까지 일련의 과정을 인공지능을 통해 자동화할 계획이다. 이번에 공개한 고도서 한자 인식 프로그램은 이 작업의 첫 단추이다. 향후 기관은 지속적인 데이터 축적을 통해 한자의 해서체뿐만 아니라 초서체에 대한 인식률도 높여갈 예정이다.

 

 

 

※‘고도서 이미지 검색’ 웹서비스 : http://ocr.ugyo.net/isearch

 

한국국학진흥원 누리집을 통해

“고도서 한자 인식, 고도서 이미지 검색, 필사본 자전 서비스” 이용 가능

 

한국국학진흥원은 한 달 동안 원내 연구원들을 대상으로 점검을 마친 뒤, 28일 일반인에게도 고도서 한자 인식 프로그램 웹서비스(http://ocr.ugyo.net/ocr)를 공개한다. 본 웹서비스는 한국국학진흥원 누리집(https://www.koreastudy.or.kr)에서 제공되며, 컴퓨터뿐 아니라 태블릿, 슬기말틀(스마트폰)로도 이용할 수 있다. 또한 OCR을 활용한 “고도서 이미지 검색(http://ocr.ugyo.net/isearch)”과 필사본 서체를 확인할 수 있는 “필사본 자전 서비스(http://ocr.ugyo.net/chodic)”도 함께 공개할 예정이다.

 

 

 

※‘필사본 자전’웹서비스 : http://ocr.ugyo.net/chodic

 

한국국학진흥원 정종섭 원장은 “인공지능을 활용해 국학자료를 자동 번역하는 사업은 일반인들이 국학자료를 쉽고 가깝게 접할 수 있는 중요한 작업”이라고 하며, “나아가 우리의 전통 기록유산과 첨단기술을 접목한 새로운 일자리 창출뿐만 아니라, 기록유산에 담긴 소중한 가치를 발굴하는 데 이바지할 것이다”라고 밝혔다.