[과학의 달인] 세계 최초 다크 웹 전용 AI 언어 모델 ‘다크버트'

2023년 07월 13일 오전 09:00

■ 서상덕 / S2W 대표

[앵커]
최근 마약 거래, 해킹, 악성 코드 등 사이버 범죄 수법이 나날이 증가하고 더욱 지능적으로 변하고 있는데요. 이런 사이버 범죄가 일어나고 있는 익명 기반의 네트워크인 '다크 웹'을 학습한 AI 모델을 국내 스타트업과 카이스트 연구진이 공동으로 개발했습니다. 오늘 '과학의달인' 에서는 다크 웹을 학습한 AI 모델 '다크버트'에 대해서 알아보겠습니다. S2W (에스투더블유) 서상덕 대표 나오셨습니다. 안녕하세요?

[인터뷰]
네 안녕하십니까

[앵커]
다크버트라는 이름의 소프트웨어더라고요. 이게 어떤 것인지 간단하게 소개해주실까요.

[인터뷰]
네 우리가 요즘 장안의 화제가 되는 chat GPT 같은 경우에는 사람들이 일반적으로 쓰는 말을 잘 학습해서 그런 문법적인 것이라던가 맥락을 잘 알고 있는 인공지능이라고 할 수 있겠습니다. 그래서 다크버트 같은 경우에는 저희가 다크웹 데이터를 학습을 시켜서 다크웹에 올라오는 여러 가지 범죄 관련된 내용이나 은어라던가 이런 정보에 대해서 특화된 범죄 데이터에 전문적인 언어모델이라고 할 수 있겠습니다.

[앵커]
네, 이게 버트는 무슨 뜻인가요?

[인터뷰]
버트는 구글에서 개발한 인공지능을 학습시키는 여러 가지 방법론 중 하나고요. GPT 같은 모델하고 비교를 하자면요. 버트는 조금 더 전문적인 영역에 관한 학습전용 모델입니다. 그래서 예를 들면, 바이오에 관한 학습을 많이 한 모델은 바이오 버트 라고도 불리고, 법률적인 용어를 많이 학습한 모델은 니걸버트라고 많이 불립니다. 저희 같은 경우는 다크웹에 전문적으로 학습이 잘 되어있는 모델이라서 다크버트라고 명명을 했습니다.

[앵커]
그러니까 다크웹 전용 AI 언어모델이 다크버트다 이런 말씀이신 것 같은데요. 우선 다크웹이 어떤 것인지 설명 좀 해주실까요?

[인터뷰]
네 다크웹은 요즘 사회면에 많이 등장하고 있어서 들어보신 분들은 많으실 겁니다. 다크웹이라고 하면 인터넷상에서 좀 어두운 공간에 있는 것을 말하고 있는데, 여기는 좀 익명화 기술이 적용되어 있어서 어떤 사람이 접속했는지, 어떤 사람들이 여기서 서비스를 하고 있는지, 철저하게 베일에 가려져 있습니다. 그러다 보니까 이 안에서는 좀 반사회적이거나 범죄 관련된 것들 주로 마약이라던가 또는 개인정보, 신용카드 유출정보를 거래하는 블랙마켓, 또 해킹에 관한 여러 가지 노하우를 공유하는 포럼 같은 것들이 다크웹에 존재하는 대표적인 유해사이트라고 할 수 있겠습니다.

[앵커]
아 그렇군요. 그러니까 범죄에 이용되는 그런 정보들이 많이 퍼져있는 인터넷상의 숨겨진 공간이다 이렇게 보면 될 것 같은데요. 그렇다면 개발하신 다크버트가 마치 범죄자가 된 것처럼 다크웹에 있는 여러 가지 은어라든지 거래정보라든지 이런 것들이 다 학습했다고 보면 되겠네요?
그렇다면 학습도 보통 일이 아닐 것 같은데, 어떻게 하신 건가요?

[인터뷰]
네 범죄자라기보다는 범죄에 관한 수사 전문성을 가지고 있는 그런 친구라고 보면 될 것 같고요. 그 학습을 시키기 위해서는 기본적으로 많은 양의 데이터 잘 정제되어있는 데이터들이 필요합니다. 저희 S2W라는 회사가 기본적으로 다크웹에 관한 자료를 수집하고 분석하는 일을 계속해오고 있고, 저희가 수집하는 양이라던가 분석정확도가 세계에서 가장 높은 수준이라고 자부를 하고 있습니다. 그러다 보니까 저희 내부에는 데이터가 매우 많고요. 이런 데이터들을 분류하고 학습하는 것을 사람이 할 수 없을 정도의 많은 양이 밀려들어 오기 때문에 과거부터 지금까지 AI를 통해 자동화하는 것을 하고 있었습니다. 최근에 이 모델을 정교하게 만들기 위해서 600만 페이지가 넘는 데이터들을 분석가들이 준비하고, 학습시켜서 다크버트를 설계하고 출현을 시키게 되었습니다.

[앵커]
조금 전 600만 페이지에 달하는 방대한 데이터라고 말씀해주셨는데 그런 데이터들이 공개되어있는 것도 아닐 테고, 잘 모아서 학습을 시키려면 보통이 아닐 것 같습니다. 이렇게 많은 양의 정보를 어떻게 모으신 걸까요?

[인터뷰]
저희가 다크웹을 수집하는 기술력 부분에 대해서는 독자적인 노하우를 보유하고 있는 회사입니다. 그래서 이런 것들이 GPT를 학습시키는 양에 비하면 AI 업계에서는 큰 양은 아니지만 다크웹이라는 특수한 분야를 학습시키기 위해서는 특별히 정제된 양과 정교한 데이터가 필요하므로 카이스트 연구진이라던가 저희 연구진들이 많은 시간을 들여서 개발했다고 보시면 될 것 같습니다.

[앵커]
요즘 또 디지털 안에서 사이버 범죄가 굉장히 자주 일어나고 있다 보니까요. 다크버트 같은 기술이 필요할 것 같은데요. 결과적으로 다크버트가 왜 필요한 걸까요?

[인터뷰]
다크버트는 용도는 다크웹에 관련된 범죄수사를 위한 목적이라고 생각해주시면 될 것 같아요. 그래서 인공지능 이라는 게 자동으로 범죄자를 검거하거나 이런 수준까지는 와있지 않지만, 우리가 우발범죄가 자주 일어날 수 있는 우범지대에 CCTV가 있다거나 범죄를 모의하거나 진행하고 있는 채널을 모니터링 할 수 있다고 하면 실제 범죄를 검거하거나 예방하는 데 큰 도움이 되겠죠. 비슷하게 다크웹 상에서도 이런 범죄가 유발될 수 있는 여러 가지 데이터들을 정교하게 모니터링을 할 수 있습니다. 예컨대 어떤 신종마약에 관한 콘텐츠가 급증한다거나 또는 새로운 해킹도 구가 발견된다거나 중요한 기관이나 기업의 데이터가 사이트에 유출됐을 때 다크버트가 정확하게 인지하고 모니터링을 해줌으로써 수사기관이나 정보기관을 도와서 산업기술 유출이라던가 개인정보 유출을 막는 일에 도움을 줄 수 있습니다.

[앵커]
말 그대로 다크웹의 경찰관이 생겼다. 이렇게 이해하면 좋을 것 같은데요. 그런데 사이버 범죄 관련된 최신 정보나 은어, 신조어 같은 것들이 하루가 다르게 달라지고 있는데 이런 것들을 다크버트가 알아차리고 대처를 하는 건가요?

[인터뷰]
네, 맞습니다. AI라는 것은 처음에 학습을 시킬 때 과거 데이터를 바탕으로 학습을 하게 됩니다. 어느 정도 이해력이나 추론력이 생기고 나면 새로운 데이터를 들어왔을 때도 이것을 정확하게 인지하고 분류할 수 있는 능력을 갖추게 되는 것이고요. 그런 목적으로 학습을 시키고 설계가 됐다고 보시면 될 것 같습니다. 예컨대 저희가 알파고도 새로운 대국도 잘하고, 개나 고양이 같은 이미지를 정확하게 분류하는 AI가 있다고 했을 때 새로운 사진을 줬을 때 구분을 잘하듯이 다크버트도 마찬가지로 저희가 학습시키는 여러 가지 방법을 통해서 어떤 자리에 어떤 콘텐츠에 분류하는 이 단어는 신조어다. 이런 것들을 정확하게 판단하게 되어있습니다.

[앵커]
다크버트도 학습을 하면 할수록 더 똑똑해지는 그런 경찰관이 아닐까 싶은데요. 생성형 AI 모델은 정확성과 신뢰성이 중요합니다. 정밀 수사기관에서 사용해야 하는 소프트웨어니까요. 믿을 수 있는 데이터일까요?

[인터뷰]
네 목적 자체가 중요한 일을 하는 데 사용이 됩니다. 그래서 생성형 AI라고 하면 앞으로 어떠한 일이 일어나고 어떤 문장이 이 자리에 적합한지 맥락을 인간이 봤을 때 '어, 괜찮아. 말이 된다.'라고 하는 걸 잘 생성하는 모델이라고 할 수 있고요. 다크버트는 목적이 좀 다릅니다. 그래서 정확한 정보를 전달하고 분류하고 판단하는 목적으로 제작되어있기 때문에 저희가 학습해서 전달해드리는 정보는 신뢰성과 정확성 면에서 믿을 수 있겠다고 말씀드릴 수 있습니다.

[앵커]
그렇다면 많은 분이 알고 있는 생성형 AI라고 하면 쳇-GPT, 구글의 바드 같은 것들일 텐데 이런 소프트웨어들과 비교해서 다른 점은 무엇인가요?

[인터뷰]
용도와 알고 있는 게 다르다고 보시면 됩니다. 그래서 쳇 GPT나 바드 같은 경우에는 트레이닝이 굉장히 잘 되어있고 인터넷 상에 돌아다니는 여러 가지 내용을 빠르고 정확하게 찾아보고, 요약하고, 번역하고 수정하고 언어적인 감각이 매우 뛰어난 AI라고 할 수 있습니다. 그에 반해서 다크버트 같은 경우에는 다크웹에 안에 있는 정보를 물었을 때, 굉장히 정확하게 대답해줄 수 있고 생성형 AI는 다크웹 관련된 정보는 내부에 없으므로 관련 질문을 했을 때 내용을 정확하게 답할 수 없을 뿐 아니라 수사용도로는 적합하지 않다고 볼 수 있겠습니다.

[앵커]
그렇네요. 생성형 AI가 숨겨져 있는 다크웹까지 배우고 학습하기는 굉장히 어려울 것 같은데요. 다크버트가 꼭 필요할 것 같습니다. 그런데 다크 웹을 학습시킨 AI 모델이 전 세계적으로 첫 사례요?

[인터뷰]
네, 맞습니다. 저희가 카이스트 연구진과 공동으로 만들어서 ACL이라고 하는 세계 3대 인공지능 학회에 속하는 곳에서 논문 통과가 됐는데요. 본적으로 논문은 최초가 아니면 채택이 되지 않습니다. 특허 출원과 비슷한 검증 절차가 있다고 보시면 됩니다. 그래서 현재까지 여러 가지 언어 모델들이 지금까지 많이 나왔지만, 이 사이버 시큐리티 쪽 특히 다크 웹을 학습시킨 AI 모델은 저희가 처음이고, 이런 부분이 굉장히 자랑스럽고 또 여러 가지로 기여를 많이 할 것으로 기대됩니다.

[앵커]
그렇다면 이렇게 설명해주신 다크버트가 실제 현장에서 범죄를 적발하기 위해 사용돼야 할 텐데, 실제로 어떻게 활용되고 있다고요?

[인터뷰]
네 저희가 정보를 제공하는 일들을 이미 하고 있습니다. 사이버 범죄에 관련된 경찰청이나 인터폴 같은 수사기관에서 실제로 다크버트 서비스를 제공하고 있고 현재도 활용되고 있다고 말씀드릴 수 있겠습니다. 다만 다크버트도 계속 진화하고 여러 가지 고도화라든가 업그레이드 계획이 있습니다. 예를 들면 기관에는 내부정보나 분석가들이 가지고 있는 데이터가 매우 많으므로 이런 부분을 학습한 AI와 결합이 되면 내부 수사관과 외부정보를 잘 알고 있는 AI 간에 공조수사가 가능할 수 있으므로 이 부분이 저희가 생각하는 비전이라고 할 수 있겠습니다.

[앵커]
요즘 AI 기술이 발전했다고 하는데, 그 뛰어난 기술로 디지털 범죄를 잡았으면 좋겠다는 생각, 많은 분이 해보셨을 텐데요. 오늘 대표님의 설명을 들어보니 정말로 AI 경찰이 탄생한 것 같습니다. 앞으로 많은 역할 기대합니다. 서상덕 에스투더블유 대표와 함께했습니다. 고맙습니다.

YTN 사이언스 김기봉 (kgb@ytn.co.kr)