[과학의 달인] 가상 인간, 더 사람처럼…AI 휴먼 실감화 기술 개발!

2023년 12월 14일 오후 5:02

■ 이승욱 / 한국전자통신연구원 박사

[앵커]
요즘 광고나 게임에서 가상인간 즉 디지털 휴먼을 쉽게 볼 수 있는데요. 사람처럼 구현됐지만, 여전히 어색한 부분이 있기 마련입니다. 그런데 국내 연구진이 저품질의 디지털 휴먼 영상을 실제 사람과 구분하기 어려울 정도의 고품질로 바꿔주는 기술을 개발했다고 하는데요. 한국전자통신연구원 콘텐츠연구본부 이승욱 연구원과 함께 '디지털 휴먼 실감화 기술'에 대해 자세히 이야기 들어보겠습니다. 어서 오세요.

[인터뷰]
안녕하세요.

[앵커]
저품질의 가상 인간을 고품질로 바꿔준다고 하니까 혁신적인 생각이라고 드는데, '디지털 휴먼 실감화 기술'이 어떤 기술인지 소개해주시죠.

[인터뷰]
네. 저희 기술은 일반적인 디지털 휴먼 제작 과정으로 모델링, 렌더링의 과정으로 이루어집니다. 모델링은 디지털 휴먼을 3차원 꼭짓점들로 만드는 과정이고, 렌더링은 3차원 꼭짓점들을 2차원으로 변형하여 우리가 보는 영상으로 바꾸는 과정입니다. 문제는 이 중에 모델링 비용이 아주 비쌉니다. 그래서 고품질의 사람과 구별할 수 없는 디지털 휴먼을 만드는 것은 비용이 아주 비쌉니다.

저희가 이번에 개발한 기술은 저비용으로 3D 모델링 되어 렌더링 된 디지털 휴먼 영상을 인공지능을 이용하여 사람이 구별하기 힘든 수준으로 변형하는 것입니다. 즉 렌더링 된 2차원 영상 결과물에 인공지능을 이용한 '실감화'라는 기술을 하나 더 추가하는 것이죠. 화면을 보시면 좌측이 입력 영상이고 우측이 저희가 실시간으로 실감화 한 결과물인데요. 보시다시피 실제인지 가짜인지 구별하기 어려운 정도의 사실적 결과물을 확인할 수 있습니다. 또한, 보시면 기존 생성형 인공지능과는 다르게 '떨림 현상'이 없는 것으로 확인할 수 있습니다.

[앵커]
그런데 영상이잖아요? 그래서 고품질로 바꾸기 위해서는 영상 각 프레임마다 다 바꿔줘야 하는 게 아닌가 하는 우려가 있거든요, 어떤가요?

[인터뷰]
저희 기술은 인공지능 기반으로 이루어지는데요. 먼저 인공지능에서 중요한 학습데이터를 먼저 만들어냅니다. 입력 영상의 몇 개의 프레임을 추출하여 '이 영상이 이런 식으로 변형되었으면 좋겠다'라는 정보를 글자로 입력하여 원하는 형태로 변형합니다.

이렇게 입력 영상에서 추출한 프레임과 원하는 형태로 변형된 데이터를 묶어서 '학습 데이터 쌍'이라고 표현하는데요. 이렇게 만들어진 학습 데이터 쌍을 저희가 개발한 떨림 제거 학습기에서 학습하면 원하는 형태로 만들어 낼 수 있는 거죠. 학습할 때는 학습기 에게 정답을 계속 보여주면서 원하는 형태로 만들 때까지 계속 가르치는 거죠. 이때 사용자가 원하는 스타일은 더 사실적으로 할 수도 있고, 예쁘게도 할 수 있고, 웹툰 형태로 변형 등 다양한 방식으로 가능합니다.

[앵커]
말 그대로 이것도 딥러닝, AI를 학습시켜서 만든 기술이다 이렇게 이해할 수 있을 거 같은데, 아까 영상을 보니까 사람의 잔주름이나 피부 결 표현, 머리카락, 눈동자까지 아주 디테일하게 잘 표현하더라고요. 이런 건 어떻게 구현되는 건가요?

[인터뷰]
저희가 학습할 때 수십만 장의 실제 사람 영상을 미리 학습합니다. 지금 여기에 있는 스튜디오처럼 밝은 곳에서 찍은 사람 영상, 일반적인 곳의 사람 영상 등 다양한 영상에서 촬영한 실제 데이터를 이용하는데요. 당연히 실제 데이터에는 사람의 잔주름 등의 미세 표현이 담겨있고요. 따라서 저희가 개발한 학습모델은 사람의 피부, 눈동자 등의 디테일을 학습이 될 수 있는 거죠. 여기서 중요한 점이 있는데요, 학습데이터의 품질이 좋아야 결과물이 좋습니다. 방송카메라로 촬영한 데이터로 학습하면 방송카메라 품질의 영상을 생성하고 USB 카메라로 찍은 영상으로 학습하면 USB 영상만큼 나오겠죠.

[앵커]
앞서서 이 기술에서 떨림 현상이 없는 것이 특징이라고 하던데요. '떨림 현상'이란 무엇입니까?

[인터뷰]
떨림 현상은 시간 축 불일치, 즉 time inconsistency라고 하는데요, 인공지능을 통해 동영상을 만들 때 생기는 문제점입니다. 일반적인 생성형 인공지능을 이용하면, 머리카락이나 바지의 무늬 등이 시간에 따라 변하는 것을 볼 수 있습니다. 이러한 현상은 정지영상에서는 문제가 안 되지만, 동영상에서는 치명적이죠. 동영상을 만드는 과정을 인공지능 입장에서 보면 요구사항이 추가되는 것입니다.

정지영상의 경우는 원하는 스타일 변형이라는 요구사항만 있었는데, 동영상의 경우는 이전 프레임과의 일치라는 추가적인 요구사항이 있는 것이죠. 이 추가적인 요구사항으로 발생 되는 문제입니다. 그래서 초기 인공지능으로 영상을 만드는 기술의 발전은 처음에는 남성을 입력하면 40대 남성, 안경을 쓴 40대 남성 등 사용자가 원하는 요구사항을 하나씩 추가해서 만들 수 있게 되는 것입니다.

[앵커]
조금 전에 영상으로 봤습니다만, 여러 그림을 빠르게 넘기는 것처럼, 약간 막 번쩍번쩍하는 듯한 느낌이 들더라고요. 이게 떨림 현상이라고 설명을 해주셨는데, 오늘 설명해주시는 이 기술이 어떤 산업이나 콘텐츠에 적용될 수 있을까요?

[인터뷰]
저희 기술은 실시간을 지원하기에 상호작용이 필요한 응용에 바로 사용될 수 있는데요. 실제 게임 영상에서 실감화 기술을 적용하는 것입니다. 실시간성을 지원하기에 게임 하는 도중에 원본 형태로 즐기거나, 좀 더 사실적인 형태로 즐기거나, 웹툰 형태로 변형하여 즐길 수 있게 됩니다. 이것이 가능한 거는 컴퓨터에서 실행되는 게임을 캡처하여 저희 기술로 영상을 변형하고 다시 원본 영상에 덮어쓰는 형태이기 때문에 가능한 거죠. 컴퓨터에 표현되는 모든 영상을 변형할 수 있습니다. 컴퓨터에서 유튜브를 보면서 실시간으로 영상을 변형할 수도 있고요.

또 안내 데스크에서 사용되는 '디지털 휴먼'으로 저희 기술을 이용해서 실시간으로 변형하는 것입니다. 보시다시피 실제인지 가짜인지 구별하기 어려운 정도의 사실적 결과물을 확인할 수 있습니다. 저희가 이제 '유니티'라는 저작도구에 적용 가능한 실시간 플러그인을 통해 지원 가능합니다. 또한, 디지털 휴먼으로 만들어진 광고 영상에도 적용될 수 있습니다. 좀 더 고품질의 광고를 만들 수 있습니다. 버추얼 유튜버로도 사용될 수 있습니다. 디지털 휴먼 얼굴을 만들어서 자신의 몸과 합성해서 실감 나는 방송을 할 수 있는 것이죠.

[앵커]
이 기술로 향후 애니메이션 영화도 만들 수 있다고요?

[인터뷰]
네, 맞습니다. 제가 방금 전에 학습 과정을 설명할 때 사용자가 원하는 스타일로 변환 가능하다고 말씀드렸는데요. 이때 애니메이션 스타일로 변경하면 됩니다. 얼굴의 일부를 가려도 잘 동작합니다. 유명 아이돌 가수의 뮤직비디오 등도 변경 가능합니다. 이 기술을 영화에 적용한다면, 실사 영화 한 편을 만들면 애니메이션 변형을 수행하여 두 편 이상의 영화를 만들 수 있게 됩니다. 만약 영화 겨울 왕국 같은 스타일의 애니메이션으로 바꾸고자 한다면, 학습 과정에 필요한 학습데이터 쌍을 겨울 왕국 스타일로 만들어 학습을 진행하면 겨울 왕국 풍의 영화가 만들어지게 됩니다.

[앵커]
이른바 어떤 그림체를 마음대로 설정할 수 있다, 이렇게 이해하면 될 것 같은데요. 이 기술을 적용했던 실제 사례가 있다는데 소개해주실까요?

[인터뷰]
네 저희 기술이 실제로 생방송에 적용되었습니다. 저희와 함께 연구하는 '펄스 나인'이라는 공동연구기관에서 딥페이크 기술을 보유 중이며, 이 기술이 아리랑 국제방송의 코드 네임 부산이라는 오디션 프로그램에 실시간 적용되었습니다. 그런데 페이스 스왑의 기술은 고해상도 영상을 생성하지 못합니다. 이로 인해 UHD 방송이나 4K 방송 등에 적용하지 못하는 이슈가 있었습니다. 이에 저희가 저해상도의 페이스 스왑 영상을 입력받아서 실감 성을 높이고 고해상도로 변형하는 기술을 적용하였습니다. 영상을 보시면 좌측은 올해 8월 21일 방송한 영상이고, 우측은 9월 4일에 방송한 영상인데 해상도가 증가하고 실감 성이 더 높아진 것을 확인할 수 있습니다. 그리고 앞서 설명한 리셉션 데스크의 키오스크에도 적용되었습니다.

[앵커]
게임이나 영화까지는 적용이 될 것 같다, 이런 생각을 했는데 오디션까지 본다고 하니까 굉장히 놀라운데요. 앞으로 디지털 휴먼 같은 가상인간을 활용한 콘텐츠가 굉장히 많아지겠죠?

[인터뷰]
네. 전체적인 흐름이라고 생각합니다. 디지털 휴먼의 외형 등의 실감 성이 증가하고, Chat GPT 등과 연계된 디지털 휴먼의 지능이 증가하면 더 많은 디지털 휴먼이 나타나겠죠. 실제 자아를 가진 디지털 휴먼 아이돌이 나올 수도 있겠죠. 그리고 기술의 발전으로 인해 디지털 제작비용도 줄어들면서 여러 가지 스캔들 등에서 자유로운 다양한 디지털 휴먼 관련된 연예인들이 많이 생길 것이라고 기대합니다.

[앵커]
예전에 사이버 가수 아담이 생각나는데, 아담의 후예들이 곧 등장할 것 같습니다. 박사님의 앞으로의 목표는 무엇인가요?

[인터뷰]
현재 저희가 많은 업체와 기술 협의를 진행하고 있습니다. 키오스크, 광고영상, 유튜브 등의 다양한 영역에서 저희 기술을 확산하는 것이 목표입니다. 이를 통해 국내 디지털 휴먼 산업을 세계 수준으로 끌어올리는 것이 목표입니다. 아직 디지털 휴먼 관련하여 남아있는 기술이 많이 있습니다. 이 기술을 VR, 메타버스 등에 적용하거나 추론 모델 범용성의 증가, 다양한 캐릭터로의 확대 등 추가 연구개발이 많이 필요합니다. 우리는 어쩌면 산업혁명을 뛰어넘는 인공지능 혁명시대를 살고 있을지도 모릅니다. 이 인공지능 혁명시대에 세계 최고 수준의 디지털 휴먼 기술을 지속적으로 개발할 수 있도록 많은 지원과 관심 부탁 드립니다. 그리고 마지막으로 함께 고생한 황본우, 임성재, 윤승욱, 김태준, 그리고 김기남 선임님. 감사합니다. 올 한해 정말 고생하셨습니다. 감사합니다.

[앵커]
연구원님도 고생 많으셨습니다. 내년에 이 기술이 멀리 적용될 수 있길 바랍니다. 한국전자통신연구원 콘텐츠연구본부 이승욱 연구원님과 함께했습니다. 고맙습니다.

YTN 사이언스 김기봉 (kgb@ytn.co.kr)