Apache Spark

Screenshot Software:
Apache Spark
Szczegóły programowe:
Wersja: 1.6.0 Aktualizowane
Filmu: 6 Mar 16
Licencja: Wolny
Popularność: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark został zaprojektowany, aby poprawić szybkość przetwarzania dla programów do analizy danych i manipulacji.

Został on napisany w języku Java i Scala i zapewnia funkcje, które nie występują w innych systemach, głównie dlatego, że nie są one głównym nurtem, ani użyteczne dla zastosowań przetwarzania bez danych.

Spark został stworzony na UC Berkeley AMP Lab, a później przekazany do Apache Software Foundation

Co nowego w tej wersji.

  • Unified Memory Management. - wspólna pamięć do wykonania i buforowanie zamiast wyłącznego podziału regionów
  • Wydajność parkiet - Poprawa parkiet wydajność skanowania przy użyciu schematów płaskich
  • .
  • Ulepszona Planowanie kwerendy dla kwerend posiadających odrębne skupiska. - Plany zapytań z różnych skupisk są bardziej wytrzymałe, gdy odrębne kolumny mają wysoką liczność
  • Adaptacyjne wykonania zapytania. - Początkowe wsparcie dla automatycznego wybierania liczby reduktorów do sprzężeń i agregacji
  • unikaniu podwójnego filtrów w źródła danych API. - Przy wdrażaniu źródło danych z filtrem przesuwającą w dół, deweloperzy mogą teraz powiedzieć Spark SQL w celu uniknięcia podwójnego oceniania popychany w dół filtr
  • Szybkie null bezpieczne przyłącza - Łączy używając null bezpieczne równości (& # x3c = & # X3E;) będzie teraz wykonać za pomocą SortMergeJoin zamiast obliczanie cartisian produkt
  • .
  • w pamięci charakterystyki kolumny Cache - Znacząca (do 14x), kiedy przyspieszyć buforowanie danych zawierających złożone typy w DataFrames lub SQL
  • .
  • SQL Wykonanie Korzystanie Off-pamięci sterty - wsparcie dla konfiguracji wykonanie kwerendy występuje przy użyciu pamięci poza sterty GC uniknąć narzutu

Co nowego w wersji 1.5.2:

  • Rdzeń API obsługuje wielopoziomowe agregacji drzewa aby przyspieszyć drogie ograniczyć operacje.
  • Ulepszone raportowanie błędów zostało dodane dla niektórych czynności haczyka.

  • Zależność Jetty
  • Spark jest teraz w cieniu, aby uniknąć konfliktów z programów użytkownika.
  • Spark obsługuje szyfrowanie SSL dla niektórych punktów końcowych komunikacji.
  • metryki Realtime GC i liczy rekord zostały dodane do interfejsu użytkownika.

Co nowego w wersji 1.4.0:

  • Rdzeń API obsługuje wielopoziomowe agregacji drzewa aby przyspieszyć drogie ograniczyć operacje.
  • Ulepszone raportowanie błędów zostało dodane dla niektórych czynności haczyka.

  • Zależność Jetty
  • Spark jest teraz w cieniu, aby uniknąć konfliktów z programów użytkownika.
  • Spark obsługuje szyfrowanie SSL dla niektórych punktów końcowych komunikacji.
  • metryki Realtime GC i liczy rekord zostały dodane do interfejsu użytkownika.

Co nowego w wersji 1.2.0:

  • Operator sortowania PySpark teraz obsługuje rozlewania zewnętrznego dla dużych zbiorów danych .
  • PySpark obsługuje zmienne broadcast większy niż 2 GB i wykonuje zewnętrzne rozlewaniu podczas wszelkiego rodzaju.
  • Spark dodaje stronę zadaniem poziomu postępu w interfejsie Spark, stabilne API do raportowania postępów, i dynamiczną aktualizację danych wyjściowych jako zadania zakończone.
  • Spark ma teraz wsparcie dla odczytu plików binarnych dla obrazów i innych formatów binarnych.

Co to jest nowa w wersji 1.0.0:

  • Ta wersja rozszerza standardowych bibliotek Spark, wprowadzając nowy pakiet SQL (SQL Spark), która pozwala użytkownikom na integrację zapytań SQL z istniejącą infrastrukturą zapłonową.
  • MLlib, biblioteki uczenie maszynowe Spark, zostaje poszerzony o rzadkiej wektorów nośnych oraz kilka nowych algorytmów.

Co nowego w wersji 0.9.1:

  • Poprawiono błąd w kolizji mieszania zewnętrznego wycieki
  • Naprawiono konflikt z log4j Sparka dla użytkowników opierając się na innych backendów rejestrowania
  • Poprawiono Graphx brakuje słoika montażowej Spark w Maven buduje
  • Poprawiono silent awarie spowodowane map stanu wyjściowego przekroczenia wielkości Akka ramki
  • Usunięto Sparka niepotrzebne bezpośrednia zależność od ASM
  • Usunięto metryki-zwoje z domyślnej kompilacji z powodu konfliktu LGPL licencji
  • Poprawiono błąd w archiwum dystrybucji niezawierające jar montaż iskra

Co nowego w wersji 0.8.0:

  • Rozwój została przeniesiona do Fundacji Apache Sowftware jako projekt inkubator.

Co to jest nowa w wersji 0.7.3:

  • Python Wydajność: Mechanizm Sparka na tarło Python VM ma zostały ulepszone, aby to zrobić szybciej, gdy JVM ma duży rozmiar sterty, przyspieszając API Pythona.
  • Mesos rozwiązuje: JAR dodane do swojej pracy będzie teraz na ścieżce klasy podczas deserializacji wyniki zadań w Mesos
  • .
  • Raportowanie błędów. Lepsze raportowanie błędów dla non-serializować wyjątków i zbyt dużych wyników zadania
  • Przykłady:. Dodano przykład stanowej przetwarzania strumienia z updateStateByKey
  • Budowa:. Spark na żywo już nie zależy od repo Twitter4J, co powinno pozwolić na zbudowanie w Chinach
  • Poprawki w foldByKey, streaming liczyć, metody statystyczne, dokumentacji i internetowej UI.

Co nowego w wersji 0.7.2.

  • Wersja Scala zaktualizowany do 2.9.3
  • Kilka usprawnień Bajgiel, w tym poprawki wydajności i konfigurowalnego poziomie pamięci.
  • Nowe metody API. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition i inni
  • nowej metryki raportowania interfejsu, SparkListener, aby zebrać informacje o każdym etapie obliczeń. Długości zadanie, bajtów tasuje, etc
  • Kilka nowych przykłady wykorzystujące API Javy, w tym k-średnich i informatyki pi.

Co nowego w wersji 0.7.0:

  • Spark 0.7 dodaje API Pythona o nazwie PySpark <. / li>
  • Praca zapłonowe teraz uruchomić pulpit internetowej do monitorowania wykorzystania pamięci każdego rozproszonego zbioru danych (RDD) w programie.
  • Spark może teraz być zbudowany przy użyciu Maven oprócz SBT.

Co nowego w wersji 0.6.1:

  • Poprawiono komunikat o zbyt agresywne limity czasu, który mógłby spowodować pracownikom odłączyć się od gromady.
  • Poprawiono błąd w trybie autonomicznym deploy, że nie narazić hostów do planisty, wpływając HDFS lokalizację.
  • Ulepszone ponowne połączenie w shuffle, który może znacznie przyspieszyć małych przetasowań.
  • Poprawiono kilka potencjalnych zakleszczenia w managerze bloków.
  • Naprawiono błąd z dostaniem identyfikatory nieudanych gospodarzy z Mesos.
  • Kilka usprawnień skryptów EC2, jak lepszą obsługą przypadkach na miejscu.
  • Wykonane lokalny adres IP, który wiąże się Spark konfigurowalny.
  • Wsparcie dla Hadoop 2 dystrybucji.
  • Wsparcie dla lokalizowania Scala na dystrybucje Debiana.

Co nowego w wersji 0.6.0.

  • Prostsze wdrażanie
  • Dokumentacja Spark został poszerzony o nową Skrócona instrukcja obsługi, dodatkowe instrukcje rozmieszczenia instrukcji konfiguracji, Instrukcja strojenia i lepszej dokumentacji Scaladoc API.
  • Nowy menedżer komunikacji przy użyciu Java NIO asynchroniczne operacje odtwarzania losowego pozwala działać szybciej, zwłaszcza podczas wysyłania dużych ilości danych lub gdy zadania mają wiele zadań.
  • Nowa Storage Manager obsługuje per-zbiorze ustawień poziomie składowania (np czy zachować zestawu danych w pamięci, rozszeregować na dysku, itp, a nawet replikowane w węzłach).
  • Ulepszone debugowanie.

Inne programy z deweloperem Apache Software Foundation

Apache jclouds
Apache jclouds

10 Feb 16

Apache Archiva
Apache Archiva

12 Apr 15

Apache OODT
Apache OODT

20 Jul 15

Komentarze do Apache Spark

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!