mrjob 당신이 작성하고 하둡 스트리밍 작업을 실행하는 데 도움이 파이썬 모듈이다.
mrjob 완전히 당신이 시간 단위로 하둡 클러스터에서 시간을 벌 수 있습니다 아마존의 엘라스틱 맵리 듀스 (EMR) 서비스를 지원합니다. 또한 자신의 하둡 클러스터와 함께 작동합니다.
설치 :
파이썬 setup.py 설치
아마존 EMR 설정
http://aws.amazon.com/ :; & NBSP * 아마존 웹 서비스 계정을 만들
& NBSP; * 탄력 맵리 듀스에 가입 : http://aws.amazon.com/elasticmapreduce/
& NBSP; * 액세스 및 비밀 키를 가져 오기 (http://aws.amazon.com/account/로 가서 "보안 자격 증명"을 클릭) 및 환경 변수 $ AWS_ACCESS_KEY_ID를 설정하고 그에 따라 $ AWS_SECRET_ACCESS_KEY
그것을보십시오!
# 로컬
파이썬 mrjob / 예 / mr_word_freq_count.py README.md> 카운트
EMR에 #
파이썬 mrjob / 예 / mr_word_freq_count.py README.md -r EMR> 카운트
당신의 하둡 클러스터 #
파이썬 mrjob / 예 / mr_word_freq_count.py README.md -r 하둡> 카운트
고급 구성
다른 AWS 지역에서 실행 소스 트리, 실행 메이크업을 업로드 및 기타 고급 mrjob 기능을 사용하려면, 당신은 mrjob.conf을 설정해야합니다. mrjob는 그것의 conf 파일을 찾습니다 :
& NBSP; * ~ / .mrjob
& NBSP;을 $ PYTHONPATH 어디서나 * mrjob.conf
& NBSP; * /etc/mrjob.conf
자세한 내용은 mrjob.conf.example를 참조하십시오
이 특징 : 있습니다.
EMR에 실행 작업, 자신의 하둡 클러스터, 또는 로컬 (테스트 용).
여러 단계의 작업을 (하나의 단계는 다음에 공급지도 - 감소) 쓰기
하둡 내부 프로덕션 환경을 중복
소스 트리를 업로드하고 작업의 $ PYTHONPATH에 넣어
실행 메이크업 및 기타 설정 스크립트
설정, 환경 변수 (예를 들어, $ TZ)
쉽게 타르 파이썬 패키지를 설치 (EMR 전용)
설치 mrjob.conf 설정 파일에 의해 투명하게 처리
자동 EMR에서 오류 로그를 해석
EMR에 하둡 작업 추적기에 SSH 터널
최소 설치
EMR에서 실행하려면, $ AWS_ACCESS_KEY_ID 및 달러 AWS_SECRET_ACCESS_KEY 설정
당신의 하둡 클러스터에서 실행하려면, $ HADOOP_HOME을 설정
이 요구 사항 :
이 파이썬
댓글을 찾을 수 없습니다