쇼너짱의 Me2day Blog: 모든 것은 구글과 연결되어 있다.

모든 길은 로마로 통한다는 말이 있다.
하지만 로마제국은 망한지 오래고
웹2.0 시대에서는 다음과 같은 말이 통할 것이다.

모든 것은 구글과 연결되어 있다.
또는
모든 것은 구글로 검색한다.

뭐든 다 찾아 볼 수 있어서 무서운 :구글 해킹
2005년에 구글 해킹이라는 이름의 책이 국내에서도 발간이 되었었다. 구글의 검색 기능이 너무나도 뛰어나서, 구글만 있다면, 해킹을 웹브라우저 만으로 가능하다는 말이 한 때 이 책을 통해 널리 회자되었었다.

구글이 수집하는 정보는 너무나도 방대하기 때문에 그 안에 이것저것 보안이나 개인정보와 관련된 것들까지 예기치 않게 걸려나오기도 하는데, 정말 구글의 DB를 수집하는 구글 웹로봇의 성실함(?)과 무한 자가증식은 놀라울 따름이다.

내가 자주 쓰는 아이디로 검색해보았다. 역시나 내 이메일과 블로그와 몇몇 커뮤니티 사이트가 적나라하게 검색되고, 더 무서운 것은 실명으로 사용하는 학교게시판의 글들을 통해 많은 나의 개인정보들을 볼 수 있었다는 것 !!
물론, 게시판에 나에데한 자세한 내용을 올린 것이 내 잘못이다;;; 끄응;
부랴부랴 해당 게시글들을 지웠지만, 구글 DB에는 이미 페이지 저장이 되어있다-_-;

그런데 이 구글과 같은 검색사이트이라는 것이 무엇이고 어떤 방식으로 움직이는지 걸까? 어떤 내용을 중요하게 여기고, 어떤 것을 수집 안하는걸까?

일단 검색사이트의 핵심은 검색엔진에 있다. 구글의 검색엔진은 매우 효율적이고 빠르고 정확하고, 광범위한 내용을 다를 수 있기에 가장 유명하다. 야후나 알타비스타, 라이코스 보다 훨씬 늦게 시작하였지만, 불과 몇 년사이에 이들을 따라잡았고, 지금은 세계 최고의 방대한 DataBase(DB)를 가진 검색사이트가 되었다.

검색엔진은 웹로봇이라는 것을 만들어서, 인터넷에서 여러 링크를 타며 돌아다니게 하여 웹페이지 정보를 수집하여, 자신의 DB에 저장해 놓는다. 우리가 검색 사이트에서 특정 키워드를 입력하여 검색을 하게 되면, 검색엔진은 자신의 DB에서 찾아서, 우리에게 그 결과를 보여준다. 검색엔진의 성능은 웹로봇이 얼마나 한 번에 많이 돌아다니면서 효율적으로 데이터를 수집하는지, 그리고 DB에서 나중에 찾을 때 얼마나 빨리 찾을 수 있을지, 그리고 저장된 내용들과 실제 웹에서의 내용의 차이가 (실제 내용이 수정되거나 삭제되었을 수 있으므로,) 적게 자주 갱신할 수 있을지, 그리고 마지막으로 검색 결과를 어떤 방식으로 정확도를 매겨서 그 순서대로 보여줄지 등등 생각해볼 것이 의외로 많다.

그럴 때 필요한 여러가지 기법과 이론중에 가장 유명한 것은 역시 구글에서 시작된 이 기법이다.

구글의 유명한 분석 기법 : 페이지랭크
구글은 '페이지랭크(pagerank)'라는 기법(알고리즘)이 유명한데, 구글의 창업자 래래 페이지가 이 페이지랭크 기법을 발명하여 구글에 처음 사용되기 시작하여, 이제는 거의 대부분의 검색엔진에서 이 기법을 응용한다고 한다.
이 기법은 해당 페이지가 인기 페이지로부터의 유입 링크가 많을수록 사람들이 그 페이지에 도달할 가능성이 더 높다고 보고 이것을 수치적으로 표현하여, 그 수치를 비교하여 어떤 페이지가 더 중요한지를 따져보는 기법이다. 수치는 그 페이지에 대한
링크를 가진 다른 페이지들의 페이지랭크 수치와 링크 수로 계산이 된다.

페이지 A의 페이지랭크 =
최소값 + 댐핑팩터 * { [ 페이지 A를 링크한 페이지 n의 페이지랭크 / n이 가지고 있는 링크 수 ]들의 합 }

즉, A 페이지에 대한 중요도는
-> 중요도가 높으면서 링크는 적게 가진 페이지들이 그 A 페이지에 많이 링크가 되어 있어야 좋다는 뜻.

실제 계산에서는, 댐핑 팩터(damping factor:웹을 사용하는 사람이 각 페이지의 링크를 계속 클릭할 가능성을 85%로 놓는 것) 라는 수치를 이용하고, 페이지랭크를 구하려는 해당 페이지를 링크한 다른 페이지들에게는 초기에 임의의 페이지랭크 값을 주고,
계산식을 수십번을 반복하면 (이때 위의 수식에서 최소값을 0.15로, 댐핑팩터를 0.85로 놓는다.) 페이지랭크 수치가 계산이 된다.

페이지랭크 외에도, 단어 빈도나 문서 내 위치(제목이나 앞 쪽에 있는 단어가 중요하다는 생각으로)등도 따져보기도 하고, 검색어가 여러 개의 단어로 된 경우에는 이 단어들의 실제 페이지에서 가장 근접해 있을수록 검색결과로 적합하다든지, 아니면 링크 주소 자체 내용에 쓰인 단어등을 중요하게 여기고 활용한 방법도 있다.

무수한 링크를 타며 웹을 탐험하는 :웹로봇
하루에도 수백만 페이지가 새로 올라오고, 고쳐지고 혹은 지워지고 있는 곳이 바로 이 웹이라는 곳인데, 이런 방대한 자료들의 움직임을 사람의 힘으로 포착하고 수집하고 정리하는 것은 물론 불가능하다.
그래서 검색엔진은 웹로봇을 최대한 똑똑하고 민첩하게 만들어서, 이 방대한 웹 세계를 탐험하게 한다.
또한 웹로봇은 화성을 탐험하는 로봇처럼 하나가 움직이는 것은 물론 아니다.
생각해봐라, 가장많은 DB를 보유한 구글조차도, 실제의 전체 웹의 몇 퍼센트 혹인 몇십 퍼센트의 자료을 가지고 있을뿐이다.
그리고, 이 웹로봇은 가능하면 모든 웹을 다 탐험면서 자신의 모체인 검색엔진과 연결된 DB에 자료를 저장하는 것이 목표이다.
또한 얘내들은 링크를 타고 배회하므로, 링크가 많이 걸린 페이지 일 수록 빨리 이들에게 노출(?)될 가능성이 크다.
티스토리 블로그의 경우 티스토리 유저간의 교류와 트랙백이 활발하고 포탈사이트인 다음과도 쉽게 연결이 되기에, 구글코리아의 검색 결과로 금방 올려지게 된다.

하지만 이 웹로봇들과 웹페이지의 사용자 혹은 서버 관리자와의 접근에 대한 규약 같은 것이 있다. 즉 웹페이지의 주인 또는 관리자는 자신의 페이지나 사이트 대문에 "이 곳은 웹로봇 출입을 금지합니다."라고 써 붙일 수 있다.

정확한 방법은 사이트의 최상위 폴더에 robots.txt 라는 로봇 제외 표준에 맞춘 텍스트 파일을 만들어 두는 것인데,
robots.txt 안에 아래와 같은 내용을 써 놓는다.

User-Agent: *
Disallow:

모든(*) 웹로봇(User-Agent)의 접근을 차단(Disallow)한다는 뜻이다.

이렇게 해두면, 통상적으로 웹로봇은 이 사이트의 DB를 수집하려 들지 않을 것이다. 말그대로 이건 서로 간의 일종의 자발적 약속!!

물론 티스토리나 네이버 블로그나 카페 같은 곳에서는 거의 사용이 필요없다. 그저 해당 서비스 관리 설정에서 외부 노출 차단/허용 정도나 사용할 뿐;

그래도 재미있는 것은, 강제적 방법이 아닌 자발적으로 서로 지키는 약속에 의해 웹로봇을 자신의 사이트로 차단 할 수 있다는 것
물론 악의적인 웹로봇은 이런걸 무시할 수도 있다. 하지만 대부분의 검색엔진이나 주요 서비스들의 사용되는 웹로봇은 매너가 있다는것 !! ㅋ

다시 구글로 돌아가보자.
구글검색은 이제 BMW에 기본장착되는 네이게이션에도 들어가며, 아이폰에도 들어가 있고, PSP에도 탑재가 되어 있다고 한다.

이제는 동영상 속의 음성도 검색한다 :구글 GAudi
그리고 얼마전에는 구글 랩스에 동영상 안의 음성을 텍스트로 바꿔 검색할 수 있는 ‘구글 오디오 인덱싱(Google Audio Indexing·GAudi, 이하 가우디)’의 베타 버전을 발표하였다. 어디서든, 무엇이든 이제 그곳에 구글이 존재하기 위해, 구글은 변화하고 도전하고 있다. 이제는 동영상에 있는 음성또한 분석하여 DB화 하는 것이다.
물론 이런 가우디 서비스는 아직 베타이기에 지금은 유튜브 정치가 연설 영상등에서만 서비스를 사용할 수 있다. 정식 서비스가 되어 많고 다양한 동영상을 대상으로 검색 서비스를 하기 위해서는 , 음성을 텍스트로 변환해야 하고 거기에는 엄청난 노력과 시간 (물론 사람이 아닌 컴퓨터가 하는 일이지만)이 들 것이다. 또한 한 동안은 영어만 가능할 듯하다.
하지만 동영상의 어느 부분에서 어떤 단어가 언급되어있는지 그 부분만 찾아서 볼 수 있다는 것은 연설과 같은 동영상에서 아주 괜찮은, 유용한 서비스가 될 것이다. 또한 연설 하는 동안 몇 번이나 해당 단어를 언급했는지도 쉽게 알아 볼 수 있다.

그리고 이런 서비스는 영화나 음악 동영상 같은 경우에는 기존에 이미 만들어져 있고 영상과 씽크과 되어있는 영화 자막이나 가사를 이용하면 비슷한 효과를 흉내내 볼 수도 있을 것이다. 물론 이건 그냥 내 개인의 생각이다^^;

그래도 가우디 기능이나 내가 생각해낸 이런 효과를 곰플레이어나 윈도우 미디어 플레이어, 아니면 UCC사이트의 플래쉬로된 플레이 자체 기능으도 내장 할 수 있다면 정말 획기적이다 못해 무서운 서비스가 될 수도 있을 듯 !!!

그리고 가우디와 같이 음성을 텍스트화 하여 검색할 수 있게 하는 기능은 이미 Blinkx(http://www.blinkx.com/)라는 비디오 검색 엔진과도 유사한 서비스이긴 하다. 내부 작동 원리는 얼마나 다르고 누가 더 뛰어난 지는 모르겠다. 구글은 이 회사 인수를 통해 자연스럽게 비디오 검색 기술을 소유하고 발전시킬 수 있는 계기로 만들 수 있었을 텐데(이미 Blinkx는 총 2천6백만 플레이 타임의 비디오를 DB화 하였다.) 그렇게 하지 않은 것을 보면, 구글 내의 검색 기술 능력에 대한 자부심은 대단한 모양인듯.

아무튼 !!
이미 구글은 PDF나 PPT같은 문서파일은 물론, 유저의 컴퓨터 안에 있는 문서파일에서도 검색 결과를 찾아서 사용자에게 제공을 해준다.
(물론 유저 컴퓨터 안에서 찾은 결과는 해당 유저만 볼 수 있다. 또한 구글툴바 같은 구글 어플리케이션을 깔아 두었을 경우 가능)

어디서나, 무엇이든
온 세상의 정보를 정리해 누구나 접근해 사용할 수 있도록 하는 구글의 목표는
무섭기도 하지만 한 편으로는 정말 멋지고 유용한 목표라고 생각한다. 정보화 시대에 정보의 홍수 속에서 각자가 필요한 정보를 자유롭고 정확하게 찾을 수 있다는 것은 정말 꼭 필요하고 중대한 일이다.
구글 뿐만아니라, 검색 사이트 뿐만 아니라 다른 회사나 단체나 다른 정보 분야에서도 앞으로는 더욱 더 효율적이고 편리한 정보관리가 필요할 것이다. 요즘 하루가 멀다 하고 빵빵 터지는 정보유출 사례들도 기존 시스템, 기존의 정보에 대한 생각만으로는 정보화시대, 웹2.0시대에서는 정말 위험한 일임을 증명하고 있다.

앞으로는 우리나라 웹관련 기업이나 사용자, 관리자, 정책입안자들이 그 중요성과 심각성을 꼭 인지 해야할 듯!!
그리고 유비쿼터스에서 누구에게나 열려있고, 쉽게 쓸 수 있는 정보 서비스들이 많이많이 생겨났으면 한다.!!

쇼너짱의 Me2day Blog

2008년 9월 24일 수요일

모든 것은 구글과 연결되어 있다.

댓글 없음:

댓글 쓰기