mrjob to moduł Pythona, który pomaga pisać i uruchamiać zadania Hadoop Streaming.
mrjob pełni popiera Elastic MapReduce (EMR) usługę Amazon, który pozwala, aby kupić czas na klastrze Hadoop na podstawie stawek godzinowych. Współpracuje także z własnego klastra Hadoop.
Instalacja:
python setup.py install
Konfiguracja EMR na Amazon
& Nbsp; * utworzyć konto Web Services Amazon: http://aws.amazon.com/
& Nbsp; * zapisać się na Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Pobierz dostępu i tajnych kluczy (przejdź do http://aws.amazon.com/account/ i kliknij "poświadczenia bezpieczeństwa") i ustawić zmienne środowiskowe $ AWS_ACCESS_KEY_ID i AWS_SECRET_ACCESS_KEY $ odpowiednio
Wypróbuj go!
# Lokalnie
python mrjob / przykłady / mr_word_freq_count.py README.md> liczy
# Na EMR
python mrjob / przykłady / mr_word_freq_count.py README.md -r EMR> liczy
# W klastrze Hadoop
python mrjob / przykłady / mr_word_freq_count.py README.md -r Hadoop> liczy
Zaawansowana konfiguracja
Aby uruchomić w innych regionach AWS, przesłać drzewa źródłowego, uruchom make, i korzystać z innych zaawansowanych funkcji mrjob, musisz skonfigurować mrjob.conf. mrjob szuka pliku conf w:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf wszędzie w $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Zobacz mrjob.conf.example więcej informacji
Opis .
- Uruchom pracy na EMR, własny klaster Hadoop, lub lokalnie (do testowania).
- Napisz wieloetapowych zadań (jedna mapa, zmniejszyć krok żywi do następnego)
- Duplikat środowiska produkcyjnego wewnątrz Hadoop,
- Dodaj swoje drzewo źródeł i umieścić go w pracy za $ PYTHONPATH
- Uruchom make i innych ustawień skrypty
- Zmienne ustawienie parametrów (np $ TZ)
- Łatwa instalacja pakietów Pythona z tarballi (EMR tylko)
- Konfiguracja obsługiwane transparentnie przez pliku mrjob.conf config
- Automatyczne interpretować logi błędów z EMR,
- SSH tunel tracker pracy hadoop na EMR,
- Minimalna konfiguracja
- Aby uruchomić na EMR, ustawić $ i $ AWS_SECRET_ACCESS_KEY AWS_ACCESS_KEY_ID
- Aby uruchomić w klastrze Hadoop, ustawić $ HADOOP_HOME
Wymagania :
- Python
Komentarze nie znaleziono