가상도서관, 구텐베르크 프로젝트

2015년 05월 24일 오후 2:32

화제가 되고 있는 뜨거운 이슈를 과학적 시각으로 날카롭게 해부한다! '사이언스톡'

전 세계 누구나 무료로 책을 읽을 수 있는 가상 도서관 만들기, 구텐베르크 프로젝트에 대해 알아봤다.

가상도서관, 구텐베르크 프로젝트
1971년, 미국 일리노이대학의 '마이클 하트'가 미국의 독립선언서를 처음 디지털화면서 '구텐베르크 프로젝트'가 탄생했다. 누구나 무료로 책을 받아 읽을 수 있는 '가상도서관'을 목표로 저작권을 허락받은 작품만 서비스되고 있어 누구나 쉽게 자료를 활용할 수 있다. 2015년 3월을 기준으로 460여만 권의 책이 전자화되었고, 매주 50여 권 정도가 새롭게 등록되고 있다.

'광학 문자 인식' 시스템과 고문서
오프라인의 책을 디지털로 변환하기 위해 '광학 문자 시스템'을 이용한다. 책을 스캔해 컴퓨터가 읽을 수 있는 문자로 변화시키는 것이다. 하지만 손으로 쓰인 책이나 낡은 고문서처럼 색이 바래거나 잉크가 날아간 경우, 컴퓨터가 읽어내지 못하는 단어들이 생긴다. 출간된 지 50년이 넘는 책을 스캔할 경우 대략 30%가 해독이 불가하다. 이 때문에 이런 고서들은 사람이 하나하나 확인해야 하는 애로사항이 발생한다.

세계인이 만든 10초의 기적, 리캡차
웹사이트 인증 시 꼭 걸치는 절차 '캡차'는 컴퓨터가 읽지 못하는 왜곡된 글자를 제시해 사람과 컴퓨터를 판별하는 기술이다. 이 캡차를 입력하는 데 평균 10초의 시간이 사용되는데 이를 유용하게 사용하고 싶었던 연구팀은 한 가지 묘안을 생각해낸다. 고문서 단어를 캡차에 적용해 '리캡차'라는 새로운 인증프로그램을 만든 것이다. 기존의 캡차에 고문서 단어를 함께 제시해 사람의 눈으로 단어를 해석시켜 복원 작업에 동참시킨다. 캡차의 특성을 이용해 정답만을 찾아가는 집단지성시스템을 고문서 복원에 적용한 것이다. 이런 리캡차를 통해 매일 약 1억 개의 단어가 디지털화되고 연간 250만 권의 책이 복원된다.