공공기관 검색엔진은 '뒤죽박죽

2011. 12. 15. 17:37
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

고급 자료 쌓아두고 정작 활용 못해데이터 분석기술`빅데이터`급부상

직장인 박상진 씨(35)는 정부 국책연구기관의 홈페이지에서 내년 스마트폰과 소셜미디어 트렌드 자료를 찾으려다 짜증이 났다. 보고서 작성을 위해 필요한 자료를 검색할 수 없었기 때문이다. 4년 전 자료가 먼저 검색되는가 하면 '통합검색' 수준도 뒤죽박죽이었다.

박씨는 "국책연구기관이나 각종 정부 사이트에 자료가 제법 많이 쌓여 있을 텐데 검색도 잘 안 되고 분류도 형편없다"며 "검색만 제대로 된다면 유료라고 해도 보겠다"고 말했다.

인터넷 보급이 확산되고 전자정부가 구축된 지 10년이 지나면서 행정안전부, 방송통신위원회, 지식경제부 등 각 정부부처와 서울시 등 지방자치단체, 국책연구기관, 병원 등에 각종 자료가 쌓여 있지만 검색을 효과적으로 할 수 없어 국가의 정보 경쟁력을 크게 떨어뜨린다는 지적이 제기되고 있다.

최근 대용량 데이터를 활용하고 분석해 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 '빅 데이터(Big data)' 기술이 중요 흐름으로 부상하면서 이 같은 우려는 커지고 있다.

이는 하루에 생산되는 데이터가 모바일 혁명에 따라 폭증하고 있기 때문이다.

실제로 미국 이베이는 하루 40테라바이트의 데이터가 추가 생산되고 50페타바이트의 정보가 처리되고 있다고 분석했다.

트위터는 매일 1억개 이상의 트윗이 발신되고 있는 등 소셜네트워크서비스(SNS) 이용자 증가로 인당 평균 보유 데이터량은 2020년에 130테라바이트로 증가할 것으로 예상된다. 이 때문에 시장조사 분석기관 IDC는 2020년 전 세계 디지털 정보의 양이 2009년에 비해 44배 성장할 것으로 예측하기도 했다.

그러나 약 25억건이 넘을 것으로 추정되는 웹 문서를 알고리즘에 따라 분류하고 검색이 가능하게 하는 '검색엔진'은 네이버, 다음, 네이트(SK커뮤니케이션즈) 등 대형 포털 외에는 수요에 비해 부족한 실정이다.

대형 포털은 자체 검색엔진 기술을 갖췄지만 이를 바탕으로 검색 광고 사업을 하고 있기 때문에 공공기관이나 병원, 언론사 등에서 사용하기는 적절치 않다.

독자 검색엔진 업체 큐로보(시맨틱스)가 '로봇검색'을 내세워 최근 디시인사이드 등과 제휴하는 등 독자 기술을 쌓고 있고 코난테크놀로지, 와이즈넛, 솔트룩스 등도 연구개발을 강화하며 시장을 조금씩 넓혀가는 정도다. 정부 기관이나 국책 연구기관, 병원 등이 자체 인터넷 사이트 개선을 위해 투자를 하지 않는 것도 정보의 질이 떨어지는 요인이다. 또 공공기관은 대부분 한글 워드프로세서를 통해 문서를 만들었는데 한글97 이전 버전은 인터넷 언어(XML)로 저장이 안 된다. 공공기관에서 축적한 정보가 점차 사장되고 있는 셈이다.

오정석 서울대 경영학과 교수는 "데이터 마이닝(수집)과 해석 능력을 끌어올리는 데 기업은 물론 국가적 차원에서 관심이 필요하다"고 지적했다.

[손재권 기자]

[화보] 공식석상에 나타난 나경원, 원더걸스 보더니…

결혼 허락받으려 신발 밑창에 솜 깔았다가 연매출 `70억`

전세계 車 시장서 `현대·기아`하면 이젠…

24년간 포스코 회장 남긴 재산 얼만가 보니…

알리 `나영이 논란` 공식사과후에 더욱 거세진 비난 `불명하차하라`

최시원-동해 주연 드라마 `화려한 도전` 프로모션 `기대 UP`

서현 반전 몸매, 의외의 풍만 가슴라인…`언니들 올킬 위엄`

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?