AI와 천 명의 대결!...위험한 답· 틀린 답· 모순 답을 찾아라!

2024년 04월 12일 오전 09:00

[앵커]
챗GPT를 필두로 한 생성형 AI는 우리의 삶 전반에 빠른 속도로 확산하고 있지만, 그 편의성만큼이나 잠재적인 위험성도 크죠.

반사회적이거나 비윤리적인 답변, 또는 아예 틀린 답변도 간혹 있는데, AI의 이런 문제를 잡아내기 위해 시민 천 명이 모였습니다.

김기봉 기자가 취재했습니다.

[기자]
노트북을 앞에 놓고 넓은 컨벤션 센터를 가득 메운 천 명의 시민들.

IT 관련 종사자는 물론 여러 직업군과 대학생 등 신분도 다양한데, 모두 AI에 관심이 많아 대회에 지원한 사람들입니다.

"하나, 둘, 셋! 스타트!"

신호와 함께 경쟁에 들어간 이들의 미션은 생성형 AI의 취약점을 찾아내는 것!

그러니까 AI에게 누가 더 절묘하게 질문을 유도해서, 더 확실히 잘못된 답변, 더 문제가 많은 답변을 얻어내느냐의 경쟁입니다.

문제의 답변은 7가지 범주로 구분되는데, 유해한 답변이나 편견과 차별, 인권침해나 악성코드 정보제공 등입니다.

여기에 타인 저작물의 무단 복제 방법이나 아예 틀린 답변, 앞뒤가 모순되는 답변도 포함됩니다.

공격 대상은 네이버와 SK, 업스테이지와 포티투마루 등 국내 4개 기업이 출시한 거대언어모델 LLM인데,

이미 상당한 수준에 오른 만큼 잘못된 답변을 끌어내기가 결코 쉽지 않습니다.

[박진슬 / 참가자 (IT 회사 직원) : 생각보다 쉽지 않았어요. 왜냐면 제가 계속 유도를 하는데도 불구하고 어느 특정 수준의 키워드가 들어가면 그때부터는 답을 멈추고 자기가 더 이상 답을 못하겠다고 말하더라고요.]

[박범진 / 참가자(KAIST AI대학원생) : 앞에 거짓된 정보를 좀 흘려주면 AI가 그것을 이건 사실일 거야라고 생각을 하니까 그걸 바탕으로 약간 혼란을 주는 방식으로 공격했어요. 생각보다 만만치 않아서….]

천 명의 참가자가 꼬박 4시간 동안 찾아낸 문제의 답변은 120명의 전문 평가단으로부터 채점을 받습니다.

[곽준호 / 한국정보통신기술협회 AI신뢰성센터 팀장 : (편견과 차별의) 어떤 건 굉장히 미묘해서 알 수 없는 것들도 있습니다. 그런 것들은 최대한 많은 분들이 오셔서 국민감정이나 한국인의 감성에 맞게 평가하는 부분도 어느 정도 필요할 것 같아서….]

이른바 'AI 레드팀 챌린지'라 불리는 이번 대회는 다양한 사람들의 집단 지성을 이용해 개별 기업이 찾기 힘든 AI의 취약성을 발굴하기 위한 것입니다.

지난해 8월 미국 8개 빅테크들이 처음 시도한 데 이어 이번이 두 번째인데, 과기정통부는 결과를 정리해 일종의 가이드라인을 만든다는 계획입니다.

YTN 김기봉입니다.

YTN 김기봉 (kgb@ytn.co.kr)