2024.04.20 (토)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공
상세검색
닫기

문화 넓게 보기

구글과 네이버가 발표한 ‘멀티 모달’이 뭔가요?

슬기로운 컴퓨터ㆍ손말틀(휴대전화) 쓰기를 위한 귀띔

[우리문화신문=김영조 기자]  최근 구글과 네이버가 ‘멀티 모달(Multi Modal)’ 기술을 적용한 검색 기능을 제공한다고 발표했다. 일반인들에겐 다소 생소한 말인 ‘멀티 모달’은 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미한다. 멀티 모달이 무엇이며 현재 우리 생활 속에서 어떻게 활용되고 있는지 알아본다.

 

 

지난 2021년 말, LG가 알파고를 뛰어넘는 ‘초거대 인공지능(AI)’를 개발했다는 보도가 있었다. 사람처럼 시청각을 활용하고 데이터를 추론할 수 있는, 세계 가장 큰 규모의 데이터를 학습한 슈퍼 인공지능 ‘엑사원’을 공개했다는 것이다. 여기에 멀티 모달이라는 용어가 등장한다. 슈퍼 인공지능 엑사원은 글자와 이미지 학습을 넘나드는 멀티 모달(multi-modality) 기능을 수행한다고 한다. 글자, 음성, 이미지, 영상 등 서로 다른 양식의 데이터를 자유자재로 이해하고 변환할 수 있어 사람처럼 배우고 생각하며 추론할 수 있다는 설명이다.

 

 

멀티 모달의 정의​

 

사람과 사람 사이의 의사소통(커뮤니케이션)은 주로 음성과 제스처였다. 그럼 사람과 기계 사이의 의사소통은 어떻게 할까? 전통적으로 키보드라는 장치를 통해 글자가 주로 쓰여 왔다. 하지만 슬기말틀(스마트폰)의 등장 이후 단말기가 소형화되면서 키보드를 이용한 사람과 기계 사이의 의사소통은 한계에 달했다. 이에, 음성, 제스처, 펜 등을 활용한 멀티 모달 접속장치(인터페이스)가 발전하게 되었다. 여기에 인공지능 기술의 발달로 음성처리 기술이 획기적으로 발전하면서, 사람과 기계 사이의 커뮤니케이션은 의사소통까지도 할 수 있는 사용자 친화형 기술로 변모하는 중이다.

 

멀티 모달은 앞서 소개한 바와 같이, 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 뜻한다. 그리고, 모달(=모달리티, modality)은 상호과정(인터랙션) 과정에서 사용되는 의사소통 채널을 말한다. 예를 들어, 우리가 컴퓨터에 무언가를 입력하려고 할 때 사용하는 키보드나 마우스 등이 하나의 모달리티를 위한 장치(디바이스)라고 할 수 있다. 곧 모달리티란 한 가지 방식의 사람-컴퓨터 사이 의사소통 ‘채널’을 뜻한다.

 

우리가 보통 쓰는 컴퓨터 입력 방법 말고 또 다른 입력장치는 무엇이 있을까? 바로 접촉하지 않아도 입력 가능한 제스처(동작), 음성 입력은 물론 표정 인식과 시선 인식까지도 각각의 입력장치라 할 수 있다. 종합해보면, 전통적인 글자 말고 음성, 몸짓과 손짓, 시선, 표정, 생체신호 등 여러 입력 방식을 융합해 인간과 컴퓨터 사이에 자연스러운 의사소통이 가능한 사용자 친화형 기술을 가능케 해주는 것이 멀티 모달이라 정리할 수 있다.

 

우리가 쓰는 슬기말틀에서도 멀티 모달을 흔히 볼 수 있다. 안드로이드 OS 슬기말틀의 경우 글자를 입력할 때 자판 단추를 눌러 글자를 완성할 수도 있지만 마이크 단추를 활성화하면 말하는 것을 글자로 변환시킬 수 있다. 글자 입력을 위해 자판과 음성 모두 쓸 수 있는 멀티 모달의 사례다.

 

하지만 위 사례에서 두 모달리티가 동시에 일어나지는 않는다. 서로 번갈아 가면서 의사소통을 하고 있다. 물론 두 가지 이상의 모달리티를 동시에 사용하기도 하지만, 주로 게임에서 볼 수 있다. 키보드만 이용하던 고전 게임이 아니라 1인칭 슈팅 게임이나 롤플레잉 게임 등에서 마우스와 키보드를 모두 쓰는 게임이 여기에 해당한다. 마우스는 조작하는 캐릭터의 시선과 방향은 물론 총을 쏘는 행동 상호작용을 담당하고, 키보드는 캐릭터의 이동을 담당하는데 동시에 입력하면서 캐릭터의 신체 부분을 각자 담당하는 것이다.

 

멀티 모달 기술은 게임, 오락 등으로 이미 실용화해 사물인터넷과 연동된 기술로 확산하고 있으며 앞으로 온몸에 컴퓨터를 두르는 유비쿼터스(ubiquitous) 세상에서 인공지능을 가미한 미래 입력 방식으로 진화할 것이라는 게 전문가들의 예측이다.

 

아직까지 다소 생소한 개념인 멀티 모달은 사실 10여 년 전부터 꾸준히 개발돼왔다. 특허청에 따르면 멀티 모달 인터페이스와 관련된 특허출원은 지난 2009년부터 꾸준히 증가해오다가 2017년부터 제스처, 얼굴, 생체신호 등의 입력 방식을 활용한 출원이 늘어났다. 특히 맥박이나 심박수, 홍채, 지문과 같은 생체신호 부분의 특허출원이 급증한 것으로 나타났다.

 

 

꾸준히 확대되는 멀티 모달​

 

서두에서 네이버가 멀티 모달 기술 적용 검색 기능을 발표했다고 말했다. 여기서, 네이버가 제공하는 멀티 모달 적용 인공지능 검색은 무엇일까? 네이버는 모바일 앱에서 사진과 함께 글자로 원하는 정보를 동시에 검색하는 사진검색 서비스 ‘스마트렌즈’에 멀티 모달 인공지능 모델을 탑재했다. 글, 사진, 음성 등 단일 수단만 적용됐던 기존 검색 환경과 달리 검색어 추가 기능을 통해 사진을 찍은 뒤 글자를 추가로 입력해 구체화한 정보를 찾을 수 있는 것이다. 특정 신발 사진을 검색한 후 글자로 색상, 디자인, 소재 등 사용자 기호에 따른 추가 검색어를 더해 찾고자 하는 제품군을 좁혀가는 식이다.

 

이처럼 컴퓨터의 역할과 성능이 생활 전체로 확장되면서, 복잡하고 어려운 입력장치와 이에 요구되는 입력을 해결하기 위한 방안으로 멀티 모달이 확대되고 있다. 만약 사물인터넷이 활성화하고, 온몸에 컴퓨터를 두르는 유비쿼터스 세상에서 입력 방식이 계속 손을 통한 접촉과 음성만으로, 또 순차적인 입력으로만 한정되어 있다면 컴퓨터와의 의사소통은 더디게 진행될 것이다.

 

바야흐로 사물 인터넷 세상이 다가오고 있다. 컴퓨터와 눈빛으로, 혹은 표정으로 대화하는 세상이 곧 열리게 될 전망이다. 사물 인터넷 시대에는 휴먼 인터페이스의 필요성과 함께 새로운 입력장치 개념에 대해서도 고민이 필요해질 것이다. 그 연장선에서 멀티 모달 입력장치는 앞으로도 계속 연구될 분야이자 새로운 개척 분야가 될 수 있다.

 

                                                                           AhnLab 콘텐츠기획팀 제공