구글에 Rhipe install 하면 수많은 reference site가 존재한다.
하지만, 우리나라에서는 학생들이 공부한다거나, 아니 모르는 사람이 많기 때문에 한글로 된 사이트는 거의 없다..
그래서 이번에 Rhipe에 대해 공부하면서 하나하나 지식을 공유해보려 한다.
많은 나와같은 공학도에게 도움이 되기를..
일단 Rhipe를 설치하기전에 설치한 나의 환경을 알려드리겠습니다 :)
OS : Ubuntu 11.10
R -> 2.15.10
Hadoop -> hadoop 1.1.1
Rhipe -> 0.69
컴퓨터환경을 공개하는 이유는,, 다 최신버전으로 했다가 서로 연동이 제대로 안되고 에러가 나는경우가 비일비재하여
여태까지 사람들이 많이 설치했고, 쓰고 있는 환경을 맞췄습니다.
Rhipe는 R and Hadoop Integrated Programming Environment 의 약자입니다.
형태는 Library 형태로 R에서 불러오지만 , 통합 프로그램이라고 보는게 맞지 않나 생각이 됩니다.
패키지라고 봐도 괜찮을거 같네요.
일단 위에 약자를 보시면 알겠지만, Rhipe는 R 과 Hadoop 통합 환경을 제공해줍니다.
R and Hadoop Integrated Processing Environment의 약자로 퍼듀 대학 통계학 박사과정에 있었던 Saptarhis Guha에 의해 처음 개발이 시작된 R 패키지입니다. R 패키지는 R 콘솔이나 코드에서 바로 하둡의 map/reduce 코드를 작성할 수 있는 인터페이스를 제공하며 하둡이 기본적으로 제공하는 HDFS에 빅 데이터를 저장하고 분석할 수 있는 저장공간도 제공해 줍니다. R에서 제공하는 자료구조 타입을 HDFS에 저장할 수 있으며 Rhipe로 저장한 데이터들은 구글 프로토콜 버퍼를 사용하는 다른 개발언어에서 읽어 들일 수 있습니다. 물론 다른 언어로 저장된 데이터를 Rhipe에서 읽어 들이는 것도 가능합니다. 일반적으로 하둡 map/reduce 수행시 status의 경우는 자세한 내용을 보기 위해 별도의 웹 브라우저를 사용하지만 Rhipe의 경우 status는 보고싶을 때 바로 콘솔에서 확인할 수 있어 디버깅에 더 효과적입니다.
다음 편에서는 Rhipe 설치와 공공연히 떠도는 간단 예제를 적겠습니다 ^^