Apache Spark

Screenshot Software:
Apache Spark
Szczegóły programowe:
Wersja: 1.6.0 Aktualizowane
Filmu: 6 Mar 16
Licencja: Wolny
Popularność: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark został zaprojektowany, aby poprawić szybkość przetwarzania dla programów do analizy danych i manipulacji.

Został on napisany w języku Java i Scala i zapewnia funkcje, które nie występują w innych systemach, głównie dlatego, że nie są one głównym nurtem, ani użyteczne dla zastosowań przetwarzania bez danych.

Spark został stworzony na UC Berkeley AMP Lab, a później przekazany do Apache Software Foundation

Co nowego w tej wersji.

  • Unified Memory Management. - wspólna pamięć do wykonania i buforowanie zamiast wyłącznego podziału regionów
  • Wydajność parkiet - Poprawa parkiet wydajność skanowania przy użyciu schematów płaskich
  • .
  • Ulepszona Planowanie kwerendy dla kwerend posiadających odrębne skupiska. - Plany zapytań z różnych skupisk są bardziej wytrzymałe, gdy odrębne kolumny mają wysoką liczność
  • Adaptacyjne wykonania zapytania. - Początkowe wsparcie dla automatycznego wybierania liczby reduktorów do sprzężeń i agregacji
  • unikaniu podwójnego filtrów w źródła danych API. - Przy wdrażaniu źródło danych z filtrem przesuwającą w dół, deweloperzy mogą teraz powiedzieć Spark SQL w celu uniknięcia podwójnego oceniania popychany w dół filtr
  • Szybkie null bezpieczne przyłącza - Łączy używając null bezpieczne równości (& # x3c = & # X3E;) będzie teraz wykonać za pomocą SortMergeJoin zamiast obliczanie cartisian produkt
  • .
  • w pamięci charakterystyki kolumny Cache - Znacząca (do 14x), kiedy przyspieszyć buforowanie danych zawierających złożone typy w DataFrames lub SQL
  • .
  • SQL Wykonanie Korzystanie Off-pamięci sterty - wsparcie dla konfiguracji wykonanie kwerendy występuje przy użyciu pamięci poza sterty GC uniknąć narzutu

Co nowego w wersji 1.5.2:

  • Rdzeń API obsługuje wielopoziomowe agregacji drzewa aby przyspieszyć drogie ograniczyć operacje.
  • Ulepszone raportowanie błędów zostało dodane dla niektórych czynności haczyka.

  • Zależność Jetty
  • Spark jest teraz w cieniu, aby uniknąć konfliktów z programów użytkownika.
  • Spark obsługuje szyfrowanie SSL dla niektórych punktów końcowych komunikacji.
  • metryki Realtime GC i liczy rekord zostały dodane do interfejsu użytkownika.

Co nowego w wersji 1.4.0:

  • Rdzeń API obsługuje wielopoziomowe agregacji drzewa aby przyspieszyć drogie ograniczyć operacje.
  • Ulepszone raportowanie błędów zostało dodane dla niektórych czynności haczyka.

  • Zależność Jetty
  • Spark jest teraz w cieniu, aby uniknąć konfliktów z programów użytkownika.
  • Spark obsługuje szyfrowanie SSL dla niektórych punktów końcowych komunikacji.
  • metryki Realtime GC i liczy rekord zostały dodane do interfejsu użytkownika.

Co nowego w wersji 1.2.0:

  • Operator sortowania PySpark teraz obsługuje rozlewania zewnętrznego dla dużych zbiorów danych .
  • PySpark obsługuje zmienne broadcast większy niż 2 GB i wykonuje zewnętrzne rozlewaniu podczas wszelkiego rodzaju.
  • Spark dodaje stronę zadaniem poziomu postępu w interfejsie Spark, stabilne API do raportowania postępów, i dynamiczną aktualizację danych wyjściowych jako zadania zakończone.
  • Spark ma teraz wsparcie dla odczytu plików binarnych dla obrazów i innych formatów binarnych.

Co to jest nowa w wersji 1.0.0:

  • Ta wersja rozszerza standardowych bibliotek Spark, wprowadzając nowy pakiet SQL (SQL Spark), która pozwala użytkownikom na integrację zapytań SQL z istniejącą infrastrukturą zapłonową.
  • MLlib, biblioteki uczenie maszynowe Spark, zostaje poszerzony o rzadkiej wektorów nośnych oraz kilka nowych algorytmów.

Co nowego w wersji 0.9.1:

  • Poprawiono błąd w kolizji mieszania zewnętrznego wycieki
  • Naprawiono konflikt z log4j Sparka dla użytkowników opierając się na innych backendów rejestrowania
  • Poprawiono Graphx brakuje słoika montażowej Spark w Maven buduje
  • Poprawiono silent awarie spowodowane map stanu wyjściowego przekroczenia wielkości Akka ramki
  • Usunięto Sparka niepotrzebne bezpośrednia zależność od ASM
  • Usunięto metryki-zwoje z domyślnej kompilacji z powodu konfliktu LGPL licencji
  • Poprawiono błąd w archiwum dystrybucji niezawierające jar montaż iskra

Co nowego w wersji 0.8.0:

  • Rozwój została przeniesiona do Fundacji Apache Sowftware jako projekt inkubator.

Co to jest nowa w wersji 0.7.3:

  • Python Wydajność: Mechanizm Sparka na tarło Python VM ma zostały ulepszone, aby to zrobić szybciej, gdy JVM ma duży rozmiar sterty, przyspieszając API Pythona.
  • Mesos rozwiązuje: JAR dodane do swojej pracy będzie teraz na ścieżce klasy podczas deserializacji wyniki zadań w Mesos
  • .
  • Raportowanie błędów. Lepsze raportowanie błędów dla non-serializować wyjątków i zbyt dużych wyników zadania
  • Przykłady:. Dodano przykład stanowej przetwarzania strumienia z updateStateByKey
  • Budowa:. Spark na żywo już nie zależy od repo Twitter4J, co powinno pozwolić na zbudowanie w Chinach
  • Poprawki w foldByKey, streaming liczyć, metody statystyczne, dokumentacji i internetowej UI.

Co nowego w wersji 0.7.2.

  • Wersja Scala zaktualizowany do 2.9.3
  • Kilka usprawnień Bajgiel, w tym poprawki wydajności i konfigurowalnego poziomie pamięci.
  • Nowe metody API. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition i inni
  • nowej metryki raportowania interfejsu, SparkListener, aby zebrać informacje o każdym etapie obliczeń. Długości zadanie, bajtów tasuje, etc
  • Kilka nowych przykłady wykorzystujące API Javy, w tym k-średnich i informatyki pi.

Co nowego w wersji 0.7.0:

  • Spark 0.7 dodaje API Pythona o nazwie PySpark <. / li>
  • Praca zapłonowe teraz uruchomić pulpit internetowej do monitorowania wykorzystania pamięci każdego rozproszonego zbioru danych (RDD) w programie.
  • Spark może teraz być zbudowany przy użyciu Maven oprócz SBT.

Co nowego w wersji 0.6.1:

  • Poprawiono komunikat o zbyt agresywne limity czasu, który mógłby spowodować pracownikom odłączyć się od gromady.
  • Poprawiono błąd w trybie autonomicznym deploy, że nie narazić hostów do planisty, wpływając HDFS lokalizację.
  • Ulepszone ponowne połączenie w shuffle, który może znacznie przyspieszyć małych przetasowań.
  • Poprawiono kilka potencjalnych zakleszczenia w managerze bloków.
  • Naprawiono błąd z dostaniem identyfikatory nieudanych gospodarzy z Mesos.
  • Kilka usprawnień skryptów EC2, jak lepszą obsługą przypadkach na miejscu.
  • Wykonane lokalny adres IP, który wiąże się Spark konfigurowalny.
  • Wsparcie dla Hadoop 2 dystrybucji.
  • Wsparcie dla lokalizowania Scala na dystrybucje Debiana.

Co nowego w wersji 0.6.0.

  • Prostsze wdrażanie
  • Dokumentacja Spark został poszerzony o nową Skrócona instrukcja obsługi, dodatkowe instrukcje rozmieszczenia instrukcji konfiguracji, Instrukcja strojenia i lepszej dokumentacji Scaladoc API.
  • Nowy menedżer komunikacji przy użyciu Java NIO asynchroniczne operacje odtwarzania losowego pozwala działać szybciej, zwłaszcza podczas wysyłania dużych ilości danych lub gdy zadania mają wiele zadań.
  • Nowa Storage Manager obsługuje per-zbiorze ustawień poziomie składowania (np czy zachować zestawu danych w pamięci, rozszeregować na dysku, itp, a nawet replikowane w węzłach).
  • Ulepszone debugowanie.

Inne programy z deweloperem Apache Software Foundation

Apache Empire-db
Apache Empire-db

10 Dec 15

Apache Turbine
Apache Turbine

9 Feb 16

Apache WSS4J
Apache WSS4J

10 Dec 15

Apache Xalan Java
Apache Xalan Java

13 Apr 15

Komentarze do Apache Spark

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!