Hadoop Big Data Startup Spins Out of Yahoo

야후에서 분사한 하둡 빅데이터 스타트 업

This document is translated from http://www.informationweek.com/news/development/database/231000658

informationWeek의 2011년 6월 28일자 기사

빅데이터 분석을 위한 오픈소스 코드 개발의 속도를 높이기 위해서 Hortonworks 스타트업은 야후에서 개발자와 투자 자본을 가져왔다. 야후의 핵심 개발자 그룹은 하둡의 더 빠른 엔터프라이즈 스타일의 개발을 위해서 벤처캐피탈로 부터 지원을 받고 야후에서 분사했다. 몇 일 안에 하둡 코드에 “20개 이상 커밋한” 핵심 커미터들과 아키텍트는 캘리포니아 Sunnyvale에 있는 야후 캠퍼스에서 독립회사인 Hortonworks 사무실로 옮길 것이라고 하둡 소프트웨어 엔지니어의 야후 VP인 Eric Baldeschwieler가 인터뷰에서 밝혔다.그는 새로운 회사의 CEO가 될 것이다.

리딩 조직들은 그들의 가장 큰 이익을 낼 수 있는 고객들과 잠재적 라이벌들을 식별하기 위해서 비지니스 애널리틱스를 받아들이고 있다.

Hortonworks의 이름은 Dr.Sesuss의 동화책에 나오는 Horton이라는 코끼리에서 따왔다. 하둡은 원래 Dave Cutting의 아이들의 코끼리 장난감의 이름이다.

하둡 상용화를 주력으로 하는 자급자족(self-sufficient) 회사를 만들기 위한 이동은 지난주 LexNexis의 High Performance Computing Cluser(HPCC) 빅데이터 시스템이 공개적으로 오픈소스로서 사용가능하게 될 것임이 공표한 후에 뒤따랐다. HPCC는 빅데이터를 다루는 무대에서 하둡의 미래 경쟁자라고 대변인은 말했다.

야후의 클라우드 플랫폼의 Senior VP인 Jay Rossiter는 Hortonworks는 야후의 축복을 받을 뿐아니라 벤치마크 캐피탈과 마찬가지로 야후가 투자자가 될 것이다.

야후를 떠나는 개발자의 수는 전체 하둡 개발자 수의 일부이다. 두 개의 그룹은 다음 하둡 릴리즈를 함께 협력 개발(co-develop)할 것이라고 인터뷰에서 Rossiter가 말했다

벤치마크에서 파트너인, Rob Bearden은 Hortonworks의  COO가 될 것이다. 그는 자바 개발자를 위한 스프링 프래임웍을 지원하는 회사인 SpringSource의 전 회장이다 SpringSource는 2009년에 VMWare에 $420 밀리언(약 495억)에 인수되었다. 그는 또한 RedHat에 팔린 오픈소스 자바 애플리케이션 서버, JBoos의 전 COO이다. 그는 현재 오픈소스 Business Intelligence 시스템 공급자인 Pentaho의 의장(chairman)이다.

“Hortonworks는 하둡의 핵심 개발을 계속할 것이다. 또 쉬운 설치와 쉬운 사용 기능을 설계할 것이다.”라고 인터뷰에서 Bearden은 말했다. 모든 개발자는 아파치 소프트웨어 파운데이션의 하둡 오픈소스 프로젝트에 기여하게 된다.
하둡은  Cutting이 야후에 엔지니어였을 때, 그의 파트너, Mike Cafarella에 의해 2005년에 만들어졌다. 야후는 세계에서 가장 큰 사용자중 한명이다. 야후 개발자들은 하둡 코드의 약 70%를 기여해왔다고 믿고 있다.

Cutting은 2009년에 초기 하둡 스타트업 Cloudera를 위해서 야후를 떠났다. Cloudera는 하둡 패키저와 ease-of-implementation 벤더로서 설립되었다. Hortonworks와 Cloudera는 잠재적인 경쟁자이다. 5월에는  $9.25 밀리언(약 109억) 벤처 펀딩을 받은 또 다른  하둡 스타트업 Datameer가 나타났다. 이 숫자는 Hortonworks 뒤에서 펀딩하기 위한 것임이 드러났다.

앞선 2월에는, 야후는 자신들의 하둡 프로덕션 버전을 테스트를 했다. 테스팅과 패칭의 지식은 대부분 알려졌다. 그들의 프로덕션 버전은 야후에서 사용 가능하도록 했기 때문에 빈번히 다른 회사들에 도입되었다. 이제 아파치로 부터 발산되는 빌드와 업데이트의 가장 믿을 만한 버전들이 사용된다.

Baldeschwieler는 야후가 하둡의 향상과 변경에 대한 중요한 시험장으로 남을 것이라고 말했다. 야후는 18개의 하둡 시스템을 운영 중이다. 총 42,000대의 서버들 위에서 다음 기능등을 수행한다.

  • 웹 컨텐트 인덱싱
  • 야후 싸이트 방문자들에 대한 개인화된 컨텐트 딜리버리
  • 야후의 이메일 서비스 스팸 스크리닝
  • 하둡 검색  사용자에게 광고 제공

Rossiter는 하둡 애플리케이션을 통해 개인의 흥미와 일치되는 내용을 띄우므로서 270%까지 홈페이지 클릭율(Click-through rate)를 높일 수 있었다고 말했다.

Baldeschwieler는 벤치마크 캐피탈이 하둡에 대해서 투자 하고 싶어했고 야후가 리딩 개발자들 팀을 분리하도록 유도했다고 말했다. 야후는 하둡을 떠받치는 활발한 커뮤니티를 보기 원했고, 엔터프라이즈에 넓게 도입되는 것을 원했기 때문에 분사에 동의했다. 엔터프라이즈 소프트웨어를 만드는 노력을 할 회사는 이 목표를 진행시킬 것이다.

야후가 42,000대의 서버들 위에서 하둡을 실행할 지라도, 하나의 시스템을 실행하는 가장 많은 서버는 4,000대이다.하둡은 병렬 파일 분산 시스템이다. 파일이 어느 클러스터에 위치해 있는지 맵핑하고, 정렬과 분석작업을 데이터와 가까운 노드로 보낸다.

Baldeschwieler는 말했다. 수백만개의 작은 이미지 타일을 사용해서 미국의 지도를 만드는 복잡한 문제는 기존 야후 그래픽 처리 시스템으로는 6달이 걸렸다. 하둡을 처리에 추가했을 때 5일이 걸렸다. Hortonworks는 하둡 성능을 향상시키는데 초점을 맞출것이다. 설치하기 쉽게 만들고, 서드 파티들이 모니터링과 관리 시스템을 붙이기 위해서 사용하는 API를 제공할 것이다.
야후는 또한 하둡 개발 그림안에 남을 것이다. 많은 수의 개발자들이 프로젝트에 커밋하는 것을 유지할 것이다.

“야후는 하둡의 선구자적인 리더쉽을 제공하는 것을 지속할 것이다. 우리는 비길 데 없는 도메인 전문가들이 있다” 라고 Rossiter는 발혔다. 야후는 하둡 변경 사항이 최대로 반영되는 테스팅과 대규모 프로덕션 환경을 제공할 것이다. 하둡은 회사 안에서 1,000명 이상의 사용자를 가지고 있다고 그는 말했다.

“우리는 5년 안에 세상의 데이터의 절반 이상은 아파치 하둡에 저장 될 것임을 고대한다”라고 Baldeshwieler는 Hortonworks 발표에서 말했다.