메뉴

YTN 사이언스

검색

[궁금한S] 전설의 가수 되살리는 AI 기술…발전만큼이나 체계적인 제도 필요

2021년 03월 19일 오전 09:00
[앵커]
과학에 대한 모든 궁금증을 풀어주는 '궁금한 S' 시간입니다. 최근 인공지능을 활용해 음성과 영상을 합성하는 기술이 빠르게 발전하고 있습니다.

실제 사람과 흡사해서 다양한 분야에 활용될 수 있지만 이를 악용하는 사례도 증가하고 있는데요.

'AI 합성기술'의 빛과 그림자에 대해 지금 바로 화면으로 만나보시죠.

[이효종 / 과학유튜버]
최근 세상을 떠난 옛 가수들이 인공지능 기술로 다시 대중들과 만났습니다. 2000년대 중반 '빙고'나 '비행기' 등 히트곡으로 인기를 끌었던 거북이를 다들 기억하실 텐데요. 리더인 터틀맨이 갑작스럽게 세상을 떠나고 안타깝게 해체가 되었죠. 하지만 인공지능 기술로 터틀맨이 다시 무대에 섰는데요.

쇳소리 진한 허스키한 창법으로 큰 인기를 누렸던 80년대 가수 김현식. 1990년 작고한 그도 다시 대중과 만났습니다. 이 노래는 박진영의 '너의 뒤에서'라는 노래인데요. 생전 한 번도 부른 적 없는 노래지만 정밀한 음성합성 기술로 구현한 것입니다. 음성합성 기술은 정확히 어떤 것일까요?

이전에는 음성을 합성하려면 많은 단계를 거쳐야 했습니다. 먼저 만들고자 하는 목소리의 모델에게 원고를 읽게 해 그의 말을 녹음합니다. 그리고 텍스트를 발음 기호로 변환한 후 운율이나 음향, 음의 길이 등을 추출해 음성을 합성합니다. 단계마다 전문 지식은 물론 방대한 녹음 데이터가 필요해 많은 시간이 걸리는 작업이었습니다.

하지만 지금은 AI 딥러닝 기술의 발전으로 빠르게 음성합성을 할 수 있게 됐는데요. 딥러닝 기술을 이용해 여러 단계를 거칠 필요 없이 입력 텍스트와 이에 대한 음성 데이터만 있으면 음성 합성이 가능한 것이죠.

AI가 사람의 목소리를 듣고 스스로 학습해 음성을 발음하는 방법을 터득한 것인데요. 2017년 3월, 구글 딥마인드가 공개한 '타코트론'이 딥러닝 기술을 이용한 음성합성의 시작이었습니다. AI 기반 음성합성 학습 기반은 사람이 말을 배우는 과정과 비슷합니다. 처음에는 옹알이만 하던 아기가 점차 주변의 목소리를 듣고 학습하는 것처럼 AI도 학습을 통해 호흡이나 높낮이와 강세 등 발음하는 방법을 터득하는 것이죠.

터틀맨의 무대는 목소리를 AI로 구현하는 데서 그치지 않고 생전 모습까지 재현했습니다. 이를 위해 실제 터틀맨의 체형과 비슷한 모델을 선정해 동작을 촬영했고, 터틀맨의 과거 활동사진과 동영상 자료를 AI에 학습시킨 뒤 최적의 얼굴 데이터를 추출했습니다.

이 데이터를 모델의 동작과 함께 합성해 자연스러운 모습을 구현했는데요. 이게 바로 '페이스 에디팅'기술입니다. 그리고 이 페이스 에디팅 기술에는 생성적 적대 신경망인 GAN 기술이 대표적인데요. GAN 기술은 두 가지입니다. 가짜를 만들어내는 알고리즘과 가짜를 판별하는 알고리즘이 있는데요. 가짜를 만들어내는 알고리즘이 판별하는 알고리즘에 "진짜 같아?"라고 물어봐서 진짜 같지 않으면 다시 학습을 시키고 더 정교한 가짜 콘텐츠를 만들어갑니다. 가짜 알고리즘이 만들어낸 것이 진짜인지 가짜인지 판별이 안 되는 수준까지 되면 학습이 끝나는 것이죠.

GAN 창시자 이안 굿펠로우는 GAN을 '위조지폐범'과 '경찰'에 비유했습니다. 경찰이 진짜 지폐와 위조지폐를 구별해 범인을 잡으면 위조지폐범은 경찰의 눈을 속이기 위해 더 정교한 위조지폐를 만드는 것과 비슷하다는 것이죠.

사실 사람의 영상을 AI에게 학습시켜 합성 영상을 만드는 것은 이번이 최초가 아닙니다. 딥페이크라고 알려진 기술은 기존 영상에 다른 사람의 얼굴을 합성시킬 수 있으며 현재는 육안으로 합성인지 아닌지를 구분하기 어려운 수준에 이르렀죠.

[오바마 前 美 대통령 딥페이크 말: 트럼프 대통령은 완전한 머저리입니다. 물론 아시다시피 나는 이런 말을 하지 않았습니다.]

이 말을 하는 영상 속 오바마는 진짜 오바마가 아닙니다. 실제 말의 주인공은 이 영상을 만든 감독인데요. 오바마는 이 감독이 컴퓨터로 자신의 입술 모양만 합성해 만든 이미지입니다. 특정인의 표정이 다양하게 담긴 15초 분량의 원본 영상과 웹캠, 얼굴 매핑과 목소리 변환 프로그램만 있으면 누구나 조작이 가능합니다.

이처럼 AI가 만든 딥페이크 기술이 현실을 왜곡해 대중이 판단을 흐릴 수 있고, 가짜뉴스의 도구가 될 수 있습니다. 무엇이 진짜인지 아닌지 객관적으로 분별할 수 없는 지경이 되는 것이죠. 이런 딥페이크 기술이 사회 문제를 일으킬 수 있다는 우려가 있어 지난 6월에는 딥페이크 영상물을 유포하거나 제작하는 경우 5년 이하의 징역 또는 5천만 원 이하 벌금을 물도록 법이 개정되었다고 합니다.

AI를 이용한 음성합성과 영상합성은 계속 발전하고 있습니다. 이런 기술을 유용하게 사용하는 방법을 연구하는 것은 물론 악용할 수 없도록 체계적인 제도와 사회적 합의가 필요할 것 같네요.

그럼 <궁금한 S>는 여기서 인사드릴게요. 과학에 대한 궁금증이 있다면 언제든 유튜브에 사이언스 투데이를 검색해주세요. 이상 궁금한 S였습니다.

[저작권자(c) YTN science 무단전재, 재배포 및 AI 데이터 활용 금지]
예측할 수 없는 미래 사용 설명서