4 Hadoop Helpers Promise Speedy Big-Data Analysis

This page is translated from http://www.informationweek.com/news/software/info_management/229500154?pgno=2

2011년 5월 12일자 기사

하둡 핼퍼 회사들은 빠른 빅 데이터 분석을 약속한다.

아파치 하둡은 가장 빠르게 성장하고 있는 오픈소스 프로젝트 중 하나이다. 따라서 상용 벤더들이 한 몫챙길 것을 찾는 것도 놀랄일이 아니다. 유명한 Data-integration 벤더들 (Informatica, Pervasive Software, SnapLogic, Syncsort)의 잇다른 최근의 발표들을 보고 있자면,  모두들 매우 어린 빅 데이터 처리 플랫폼과의 작업을 더 빠르고 더 쉽게 만드는 것을 목표로 한다.

하둡은 큰 볼륨의 비정형 데이터를 분석하기 위한 분산 데이터 처리 컴포넌트의 집합이다. 
페이스북의 댓글이나 트위터의 트윗이나, 이메일, 인스턴트 메시지들, 보안 로그, 애플리케이션 로그가 그 대상이다
IBM DB2, Oracle, Microsoft SQL Server, MySQL 같은 관계형 데이터베이스는 이런 데이터를 다룰수가 없다.  컬럼과 로우에 깔끔하게 맞지 않기 때문이다
이런 상용 데이터베이스들이 큰 볼륨의 비정형 데이터를 처리 할 수 있다고 해도,  라이센스 비용은 데이터의 스케일로 인한 문제 때문에 엄두도 못낼 정도로 비싸다 . 우리는 보통 수백 테라바이트에 대해 말하던 것이 페타바이트로 가고 있다.

오픈소스 프로젝트인 하둡 소프트웨어 버전은 공짜로 다운받을 수 있다. 하둡은  저비용 커머디티 서버 위에서 스케일 아웃 할 수 있도록 설계되었다.  AOL, eHarmony, eBay, Facebook, JP Morgan Chase, LikedIN, Netflix, The New York Times, Twitter  같은 회사들은 하둡에 매력을 느껴왔다.

하둡은 상용 벤더들을 끌어 당기는 자석이 되고 있다.
Cloudera는 가장 인기있는 하둡 배포 버전을 제공한다. 그리고 엔터프라이즈 서포트와 서비스를 제공하는 선도 주자다. Datameer는 Data-integration, Storage, Analytics와 visualization software 지원을 제공한다. Karmasphere는 하둡 잡들의 모니터링과 디버깅, 개발을 위한 그래픽한 환경울 추가했다.

EMC는 자신만의 하둡 소프트웨어 버전 제공할 것이라고 발표했다.  또한 EMC는 싱글 하드웨어 플래폼 위에서  EMC  Greenplum 관계 데이터베이스와 하둡을 실행시킬 수 있는 어플라이언스를 발표했다.

Informatica과 SnapLogic

Data-integration 벤더인 informatica와 SnapLogic 모두 EMC와의 파트너쉽을 발표했다. Informatica는 EMC 하둡 배포판과  Data-Integration-platform이 통합될 것이라고 말했다. 이것은 3분기 릴리즈가 정해졌다. 이전에도 Informatica는 비슷한 방식의 통합으로 Cloudera와 파트너 관계 였다.

Informatica는 4,200 이상의 고객 회사를 가지는 가장 큰 독립적인 data-integration 벤더이다.
그래서 EMC와 Cloudera는 Informatica가 빅데이터를 씹어먹는 하둡 사용자들을 원하는 만큼  Informatica가 필요하다.

SnapLogic은 데이터를 MapReduce로 연결할 SnapLogic 플랫폼의 모듈인 SnapReduce를 발표했다. 이것은 Core Hadoop data-filtering 알고리즘이다. 또한 SnapLogic은 그들의 HDFS 버전을 소개했다. 이것은 하둡 사용자들이 SnapLogic 플래폼이 다루는  많은 소스들로 부터 데이터를 당겨오게 할 것이다.

오픈소스 Data-integration 벤더인 Talend와 Quest Software의 의 Hadoop-supporing tool도 있다. 대부분의 Integration 파트너쉽들은 하둡으로의 데이터 입출력을 더 쉽게 하는것을 목표로한다. Syncsort 와 Pervasive의 경우에는 상용 add-on 제품들이 하둡안에서의 빠른 처리를 목표로한다.

Syncsort 와 Pervasive

Syncsort는 DMExpress data integration 소프트웨어의 하둡 에디션을 위한 계획을 발표했다. 이 에디션은 앞서 언급한 HDFS와의 연결을 포함한다. 또한 DMExpress을 이용하는 고객들이 하둡이  오름차순, 내림차순, 역순, 특정 키 범위 정렬을  할 수 있도록 하는  고급 기능 위한 플러그인도 포함한다. Syncsort에 따르면 더 나아진 정렬은 하둡에서 2배 성능을 향상 시킬 수 있다록 한다. Informatica, SnapLogic, Talend Integrations와 마찬가지로, Syncsort는 DMExpress Hadoop Edition이 사용하기 쉽운 그래픽 유저 인터페이스 지향 데이터 통합 환경을 제공할 것이라고 말한다.  이 하둡 버전은 올해가 지나서 릴리즈 될 것이다.

Pervasive의 하둡 제품은 Data Rush다. 이 도구는 하둡안에서 concurrent, parallel  처리를 최적화한다.  Pervasive의 전통적인 data-integration 소프트웨어에서 오래전에  마스터한 data-flow parallel 프로그래밍을 소개한다. Pervasive는 MapReduce 잡의 성능을 4배에서 9배까지 높일 수 있다고 말한다. 이것은 Hive와 Pig data-flow 프로그래밍 언어를 위해서 개발중인 애플리케이션이다.

 

Forecaster의 분석가 James Kobielus는 하둡 시장이 몇년동안  수조원으로 성장할 것이라고 확신한다고 말했다. 
eBay, Facebook, NetFlix, Twitter가 화려한 예시들이다. 그러나 JPMorgan Chase 같은 거대 금융회사가 하둡 도입을 시도했다는 것이 더 흥분되는 일이다.

—-

의역도 하고 생략한 부분도 있다. 오역도 물론 있다;;
전통적인 Data-Integration 벤더들은 모두 하둡 시장을 새로운 기회로 보고 있다.
기존 EDW 벤더도 변신을 꾀하지 않으면 앞으로의 성장을 보장할 수 없는 시기가 왔음은 분명한것 같다. (물론 망하지는 않겠지만..  )