mrjob

Screenshot Software:
mrjob
Szczegóły programowe:
Wersja: 0.4
Filmu: 20 Feb 15
Wywoływacz: David Marin
Licencja: Wolny
Popularność: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob to moduł Pythona, który pomaga pisać i uruchamiać zadania Hadoop Streaming.
mrjob pełni popiera Elastic MapReduce (EMR) usługę Amazon, który pozwala, aby kupić czas na klastrze Hadoop na podstawie stawek godzinowych. Współpracuje także z własnego klastra Hadoop.
Instalacja:
python setup.py install
Konfiguracja EMR na Amazon
& Nbsp; * utworzyć konto Web Services Amazon: http://aws.amazon.com/
& Nbsp; * zapisać się na Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Pobierz dostępu i tajnych kluczy (przejdź do http://aws.amazon.com/account/ i kliknij "poświadczenia bezpieczeństwa") i ustawić zmienne środowiskowe $ AWS_ACCESS_KEY_ID i AWS_SECRET_ACCESS_KEY $ odpowiednio

Wypróbuj go!

# Lokalnie
python mrjob / przykłady / mr_word_freq_count.py README.md> liczy
# Na EMR
python mrjob / przykłady / mr_word_freq_count.py README.md -r EMR> liczy
# W klastrze Hadoop
python mrjob / przykłady / mr_word_freq_count.py README.md -r Hadoop> liczy
Zaawansowana konfiguracja
Aby uruchomić w innych regionach AWS, przesłać drzewa źródłowego, uruchom make, i korzystać z innych zaawansowanych funkcji mrjob, musisz skonfigurować mrjob.conf. mrjob szuka pliku conf w:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf wszędzie w $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Zobacz mrjob.conf.example więcej informacji

Opis .

  • Uruchom pracy na EMR, własny klaster Hadoop, lub lokalnie (do testowania).
  • Napisz wieloetapowych zadań (jedna mapa, zmniejszyć krok żywi do następnego)
  • Duplikat środowiska produkcyjnego wewnątrz Hadoop,
  • Dodaj swoje drzewo źródeł i umieścić go w pracy za $ PYTHONPATH
  • Uruchom make i innych ustawień skrypty
  • Zmienne ustawienie parametrów (np $ TZ)
  • Łatwa instalacja pakietów Pythona z tarballi (EMR tylko)
  • Konfiguracja obsługiwane transparentnie przez pliku mrjob.conf config
  • Automatyczne interpretować logi błędów z EMR,
  • SSH tunel tracker pracy hadoop na EMR,
  • Minimalna konfiguracja
  • Aby uruchomić na EMR, ustawić $ i $ AWS_SECRET_ACCESS_KEY AWS_ACCESS_KEY_ID
  • Aby uruchomić w klastrze Hadoop, ustawić $ HADOOP_HOME

Wymagania :

  • Python

Podobne oprogramowanie

globus-provision
globus-provision

14 Apr 15

Makeflow
Makeflow

19 Feb 15

Inne programy z deweloperem David Marin

doloop
doloop

11 May 15

Komentarze do mrjob

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!