■ 이규빈 / 광주과학기술원 교수
[앵커]
CCTV 화면으로 범죄의 단서를 찾을 때 저화질 화면에서는 정확한 얼굴 생김새의 파악에 어려움을 겪는 일이 많죠. 오늘 '과학의 달인'에서는 인공지능기술을 이용해 CCTV의 흐릿한 범인 얼굴을 선명하게 밝혀낼 수 있는 기술에 대해 이야기 나눠보겠습니다. 광주과학기술원 이규빈 교수와 함께합니다. 어서 오세요.
인공지능(AI) 딥러닝 기술을 적용해 저화질 영상에서도 사람 얼굴의 주요 특징을 잘 인식할 수 있는 기술을 개발하셨는데요. 참 놀랍습니다. 이게 어떤 기술인지 설명해주시죠?
[인터뷰]
최근에는 휴대폰 잠금 해제와 같이 생활 곳곳에서 인공지능을 활용한 얼굴 인식 기술들을 접할 수 있는데요, 보통은 카메라 가까이에서 얼굴 이미지를 촬영하면 인식을 수행하는 방식입니다. 이는 정형화된 구조에서 높은 해상도로 촬영된 얼굴 이미지를 이용해 인식을 수행하기 위함인데요.
만약 낮은 품질의 얼굴 이미지를 인식 모델에 입력했을 때는 급격한 성능 저하가 발생합니다. 그 이유는 눈, 코, 입과 같이 얼굴 인식에 중요한 얼굴의 주요 특징들을 인공지능 모델이 잘 보지 못하기 때문입니다.
그래서 저희는 사람의 이목구비를 보고 높은 정확도로 인식을 수행하는 고해상도 얼굴 인식 모델의 지식을 저해상도 얼굴 인식 모델에게 전달하는 인공지능 모델 간 지식 전이 방법을 썼습니다. 지식 전이 과정에서 고해상도 이미지를 처리하는 선생님 모델이 정답을 만들면, 저해상도를 처리하는 학생 모델이 그 정답 값을 흉내 내도록 학습합니다. 학습 후에는 저해상도 학생 모델이 혼자 작동합니다.
이런 인공지능 간 지식 전달이 저해상도 얼굴 인식 성능을 획기적으로 향상할 수 있었던 핵심 기술인데요. 그러니까 화질이 낮은 화면을 물리적으로 고화질의 화면으로 바꾸는 것이 아니라 AI의 축적된 정보 학습을 통해 저화질로 나타난 피사체가 실제로 무엇인지를 인식해내는 기술이라고 말할 수 있습니다.
[앵커]
이번 기술은 인공지능(AI) 딥러닝 기술을 적용했다고 말씀해주셨는데요. 이번 기술의 핵심은 무엇인가요?
[인터뷰]
저희 연구의 핵심은 고해상도 얼굴 인식 모델과 저해상도 얼굴 인식 모델이 인식을 수행할 때, 인공지능 모델이 집중하는 영역의 차이가 있음을 “어텐션맵”을 통해 확인한 것입니다. “어텐션맵”은 딥러닝 모델이 인식을 수행할 때, 상대적으로 입력 이미지의 어떤 영역에 집중해서 인식을 수행하는지를 표현한 것인데요. 빨간색으로 표시된 영역이 파란색으로 표시된 영역보다 더 많이 집중되는 영역임을 의미합니다.
높은 인식 성능을 보이는 고해상도 얼굴 인식 모델에서는 눈, 코, 입과 같이 사람의 신원을 파악하는데 주요한 영역에서 높은 활성 값을 띄는 것을 볼 수 있습니다.
하지만 저해상도 이미지에서는 반대로 눈, 코, 입과 같은 영역에서는 활성도가 낮고, 해상도 변화에 영향을 많이 받지 않는 피부 영역에서 높은 활성화를 보이며, 인식 결과가 상당히 떨어지는 것을 볼 수 있습니다. 이는 앞서 말씀드린 것처럼 저해상도 얼굴 이미지에서는 사람 얼굴의 주요 특징을 잘 인식하지 못해 인식 성능이 떨어지는 결과입니다.
저희가 제안한 지식 전이 방법은 저해상도 얼굴 인식 모델에서 추출된 어텐션맵이 고해상도 얼굴 인식 모델에서 추출한 어텐션맵과 유사해지도록 학습하는 방법으로, 그 결과 낮은 품질의 이미지에서도 효과적으로 얼굴의 주요 영역을 포착할 수 있게 되고, 이는 인식 결과를 크게 향상 하는 데 도움됐습니다.
전체 결과를 한 번에 비교해보면, "어텐션맵"을 고해상도 모델로부터 배운 이후 이목구비와 같은 주요한 얼굴 특징이 어텐션맵에서 잘 반영되어 높은 인식 성능을 보이는 것을 확인했으며, 이를 통해 저희가 제안한 지식 전이 방법이 효과적으로 동작함을 알 수 있습니다.
[앵커]
지금 설명과 영상을 함께 보니까 고해상 이미지를 인식하는 경우에는 마치 사람이 사람을 알아보는 것과 비슷한 원리인 것 같은데, 저해상에서는 그렇지 않았거든요. 고해상의 인식을 저해상 적으로 옮겨주는 게 핵심이다 이렇게 이해를 하면 되겠는데요. 그런데 기존에도 비슷한 기술이 있었던 것으로 알고 있는데요. 기존 기술보다 나아진 부분은 뭘까요?
[인터뷰]
기존 기술과의 차이점을 말씀드리겠습니다. 기존의 비슷한 기술의 예로는 인공지능을 활용해 화질이 낮은 영상의 해상도를 높이는 초해상화 기술을 들 수 있습니다. 초해상화 기술을 활용하면, 저해상도의 얼굴 이미지도 4K 수준의 고해상도 이미지로 변환할 수 있습니다. 그렇게 되면 기존 고해상도 얼굴 인식 모델을 그대로 활용해 높은 인식 정확도를 얻을 수 있게 됩니다.
하지만 매번 인식을 수행할 때마다, 초해상도 모델을 반드시 선행해서 구동해야 하는데 그런 경우, 초해상화 모델이 인식 모델보다 더 많은 컴퓨팅 자원을 요구하며 그 결과 인식 속도도 느려지게 됩니다. 이와는 달리, 저희가 제안하는 방법은 저해상도 이미지를 고해상도로 변환하는 모델을 매번 사용하는 대신, 고해상도에서 배운 지식을 전이 받아서 저해상도 모델만 활용해서도 높은 인식 성능을 거둘 수가 있게 되고요. 그렇게 되면 빠른 속도를 보이게 됩니다.
[앵커]
점점 더 빠른 속도도 가능해질 것처럼 들리는데요. 그런데 저희가 지금까지 본 영상을 보면 전부 다 사람 얼굴이었습니다. 사람 말고 다른 대상도 인식할 수 있을까요?
[인터뷰]
네, 가능합니다. 저희가 제안한 기술은, 얼굴이 아닌 대상을 인식할 때도 사용할 수 있습니다. 고양이, 자동차, 가방, 야구공 등과 같이 일상에서 쉽게 볼 수 있는 1,000종의 물체들의 해상도가 낮은 영상으로 테스트 했을 때도 높은 성능으로 인식이 가능했습니다.
이는 얼굴을 인식하는 기술의 원리와 다른 물체를 인식하는 기술의 원리가 유사하기 때문입니다. 저희가 얼굴 인식에 특화하여 사례를 보여 드리는 이유는 사람의 얼굴은 형태가 거의 비슷해서 고양이와 자동차를 구분하는 것 보다 더 어려우므로 저희 기술의 우수성을 더 잘 표현해 줄 수 있기 때문입니다.
[앵커]
그렇다면, 얼굴이 마스크 같은 다른 물체에 가려져 있다거나 나무 같은 것에 가려져 있다면 인식이 어려울 것 같은데, 그런 우려는 없습니까?
[인터뷰]
네, 아주 좋은 질문입니다. 결론부터 말씀드리면, 저희 연구는 저해상도 물체를 잘 인식하는 모델이기 때문에 가려진 얼굴에 대해서는 인식 오류가 생길 확률이 높아집니다. 인공지능 모델들은 각각 정의된 작업에서 가장 높은 성능을 얻도록 학습이 되는데요. 어떤 모델은 가려진 물체를 잘 인식하도록, 어떤 모델은 저해상도의 물체를 잘 인식하도록 작업을 따로 정의하여 학습을 시킵니다. 목표로 하는 작업이 섞여 있으면 제안하는 기술이 가려진 물체를 잘 인식해서 성능이 좋아졌는지, 저해상도 물체를 잘 인식해서 성능이 좋아졌는지 구분하기 어렵기 때문입니다.
향후 실제 적용 시에는 가려진 물체를 잘 인식하는 기술과 저해상도 물체를 잘 인식하는 기술을 함께 사용하여 실제 상황에서 가장 잘 동작하는 인공지능 모델을 개발하게 됩니다.
[앵커]
각각 좀 잘하는 과목이 있는 학생들 같은 느낌인데요. 이번에 개발한 기술이 상용화된다면 일상에서 긍정적인 효과가 있을 것 같은데요, 지금 상용화 되고 있는 부분도 있을까요?
[인터뷰]
현재 상용화를 위해 준비하고 있습니다. 저희 기술은 멀리서 촬영된 저해상도의 영상에서도 높은 정확도로 얼굴을 인식할 수 있어, 여러 인원을 동시에 관찰하는 데 활용될 수 있습니다. 저희가 손흥민 선수의 축구 중계 영상에서 얼굴 인식을 수행하는 데모를 시연했었는데요, 먼 거리에서 촬영된 중계 영상에서도 빠르게 움직이는 손흥민 선수를 정확하게 인식할 수 있었습니다.
이처럼 멀리서 촬영된 저해상도 영상에서 작게 표현되는 사람들의 얼굴을 인식하는데 저희 기술을 활용할 수 있습니다. 공항에서 많은 인파 속 실종자를 찾거나, CCTV와 같이 넓은 지역을 관찰하는 영상에서 움직이는 용의자를 특정하기 위한 인식 기술이 그 예시입니다.
또 최근에는 천장의 카메라 또는 드론에서 촬영된 축구 경기 영상을 이용해 선수들의 움직임을 자동으로 인식하고, 데이터화 하여 분석에 활용하는 산업이 발전하고 있는데요. 현재는 인식을 위해 GPS 같은 센서를 선수에게 부착해야 합니다. 저희 기술이 적용되어 천장의 카메라 영상에서 아주 작게 표현된 선수들의 얼굴, 번호 등을 실시간으로 인식할 수 있다면, 장비 부착 없이 선수들을 인식할 수 있게 되고, 더 많은 경기 영상을 활용할 수 있게 될 것으로 예상합니다.
[앵커]
정말 첩보영화에서 보던 그런 장면이 실제로 가능해질 것 같은데요. 이번 기술로 인한 긍정적인 기대효과는 뭐가 있을까요?
[인터뷰]
멀리서 촬영된 CCTV 영상 속 용의자를 특정하고, 드론 영상 속에서 실종자를 탐색하는 등 안전과 관련된 감시 분야에서의 ICT 기술 활용성을 높일 수 있을 것으로 기대하고 있고요.
저희는 로봇에 필요한 다양한 기술들을 연구하고 있는데, 보통 산업 현장에서는 나사, 베어링과 같이 아주 작은 물체들을 인식하는 것이 어렵고 중요한 작업입니다. 기존에 해상도가 낮거나, 물체가 너무 작아 인식하지 못했던 것들도 저희 기술을 통해 인식할 수 있게 되면 제조 공정 분야에서도 로봇과 인공지능 기술이 더 많은 현장에서 활용될 수 있게 되기를 기대하고 있습니다.
[앵커]
저화질 영상을 정확하게 확인하게 되면 범인 검거뿐 아니라 예방에도 굉장히 많이 도움이 될 것 같은데요. 그렇다면 이번 기술을 개발하게 된 계기가 있었나요?
[인터뷰]
사람들에게 얼굴 인식 기술이 어떤 곳에 활용될 수 있을지 여쭤보면, 많은 사람이 저화질의 CCTV 영상에서 용의자를 추정하는 영화 속 장면을 떠올리실 것입니다.
하지만 일상생활 속 얼굴 인식 기술의 대부분은 휴대폰의 잠금을 풀고, 사무실 출입을 위한 인식 장치에 그치고 있습니다. 이는 멀리서 촬영된 영상에서는 사람들의 얼굴이 작게 표현되어, 인식이 어렵기 때문입니다.
그래서 얼굴 인식 기술을 보안, 엔터테인먼트 분야 등 생활 속 더 많은 곳에서 활용하기 위해, 먼 거리에서 촬영한 영상에서도 몇 개의 픽셀로만 구성된 얼굴을 인식할 수 있는 도전적인 연구를 진행하게 되었습니다.
[앵커]
네, 소개해주신 기술들이 사건 현장은 물론 산업현장이나 일상생활 곳곳에서도 널리 구현되지 않을까 싶습니다. 오늘 말씀 여기까지 듣겠습니다. 광주과학기술원 이규빈 교수와 함께했습니다. 고맙습니다.
YTN 사이언스 김기봉 (kgb@ytn.co.kr)
[저작권자(c) YTN science 무단전재, 재배포 및 AI 데이터 활용 금지]