Apache Spark został zaprojektowany, aby poprawić szybkość przetwarzania dla programów do analizy danych i manipulacji.
Został on napisany w języku Java i Scala i zapewnia funkcje, które nie występują w innych systemach, głównie dlatego, że nie są one głównym nurtem, ani użyteczne dla zastosowań przetwarzania bez danych.
Spark został stworzony na UC Berkeley AMP Lab, a później przekazany do Apache Software Foundation
Co nowego w tej wersji.
- Unified Memory Management. - wspólna pamięć do wykonania i buforowanie zamiast wyłącznego podziału regionów
- Wydajność parkiet - Poprawa parkiet wydajność skanowania przy użyciu schematów płaskich .
- Ulepszona Planowanie kwerendy dla kwerend posiadających odrębne skupiska. - Plany zapytań z różnych skupisk są bardziej wytrzymałe, gdy odrębne kolumny mają wysoką liczność
- Adaptacyjne wykonania zapytania. - Początkowe wsparcie dla automatycznego wybierania liczby reduktorów do sprzężeń i agregacji
- unikaniu podwójnego filtrów w źródła danych API. - Przy wdrażaniu źródło danych z filtrem przesuwającą w dół, deweloperzy mogą teraz powiedzieć Spark SQL w celu uniknięcia podwójnego oceniania popychany w dół filtr
- Szybkie null bezpieczne przyłącza - Łączy używając null bezpieczne równości (& # x3c = & # X3E;) będzie teraz wykonać za pomocą SortMergeJoin zamiast obliczanie cartisian produkt .
- w pamięci charakterystyki kolumny Cache - Znacząca (do 14x), kiedy przyspieszyć buforowanie danych zawierających złożone typy w DataFrames lub SQL .
- SQL Wykonanie Korzystanie Off-pamięci sterty - wsparcie dla konfiguracji wykonanie kwerendy występuje przy użyciu pamięci poza sterty GC uniknąć narzutu
Co nowego w wersji 1.5.2:
- Rdzeń API obsługuje wielopoziomowe agregacji drzewa aby przyspieszyć drogie ograniczyć operacje.
- Ulepszone raportowanie błędów zostało dodane dla niektórych czynności haczyka.
- Spark jest teraz w cieniu, aby uniknąć konfliktów z programów użytkownika.
- Spark obsługuje szyfrowanie SSL dla niektórych punktów końcowych komunikacji.
- metryki Realtime GC i liczy rekord zostały dodane do interfejsu użytkownika.
Zależność Jetty
Co nowego w wersji 1.4.0:
- Rdzeń API obsługuje wielopoziomowe agregacji drzewa aby przyspieszyć drogie ograniczyć operacje.
- Ulepszone raportowanie błędów zostało dodane dla niektórych czynności haczyka.
- Spark jest teraz w cieniu, aby uniknąć konfliktów z programów użytkownika.
- Spark obsługuje szyfrowanie SSL dla niektórych punktów końcowych komunikacji.
- metryki Realtime GC i liczy rekord zostały dodane do interfejsu użytkownika.
Zależność Jetty
Co nowego w wersji 1.2.0:
- Operator sortowania PySpark teraz obsługuje rozlewania zewnętrznego dla dużych zbiorów danych .
- PySpark obsługuje zmienne broadcast większy niż 2 GB i wykonuje zewnętrzne rozlewaniu podczas wszelkiego rodzaju.
- Spark dodaje stronę zadaniem poziomu postępu w interfejsie Spark, stabilne API do raportowania postępów, i dynamiczną aktualizację danych wyjściowych jako zadania zakończone.
- Spark ma teraz wsparcie dla odczytu plików binarnych dla obrazów i innych formatów binarnych.
Co to jest nowa w wersji 1.0.0:
- Ta wersja rozszerza standardowych bibliotek Spark, wprowadzając nowy pakiet SQL (SQL Spark), która pozwala użytkownikom na integrację zapytań SQL z istniejącą infrastrukturą zapłonową.
- MLlib, biblioteki uczenie maszynowe Spark, zostaje poszerzony o rzadkiej wektorów nośnych oraz kilka nowych algorytmów.
Co nowego w wersji 0.9.1:
- Poprawiono błąd w kolizji mieszania zewnętrznego wycieki
- Naprawiono konflikt z log4j Sparka dla użytkowników opierając się na innych backendów rejestrowania
- Poprawiono Graphx brakuje słoika montażowej Spark w Maven buduje
- Poprawiono silent awarie spowodowane map stanu wyjściowego przekroczenia wielkości Akka ramki
- Usunięto Sparka niepotrzebne bezpośrednia zależność od ASM
- Usunięto metryki-zwoje z domyślnej kompilacji z powodu konfliktu LGPL licencji
- Poprawiono błąd w archiwum dystrybucji niezawierające jar montaż iskra
Co nowego w wersji 0.8.0:
- Rozwój została przeniesiona do Fundacji Apache Sowftware jako projekt inkubator.
Co to jest nowa w wersji 0.7.3:
- Python Wydajność: Mechanizm Sparka na tarło Python VM ma zostały ulepszone, aby to zrobić szybciej, gdy JVM ma duży rozmiar sterty, przyspieszając API Pythona.
- Mesos rozwiązuje: JAR dodane do swojej pracy będzie teraz na ścieżce klasy podczas deserializacji wyniki zadań w Mesos .
- Raportowanie błędów. Lepsze raportowanie błędów dla non-serializować wyjątków i zbyt dużych wyników zadania
- Przykłady:. Dodano przykład stanowej przetwarzania strumienia z updateStateByKey
- Budowa:. Spark na żywo już nie zależy od repo Twitter4J, co powinno pozwolić na zbudowanie w Chinach
- Poprawki w foldByKey, streaming liczyć, metody statystyczne, dokumentacji i internetowej UI.
Co nowego w wersji 0.7.2.
- Wersja Scala zaktualizowany do 2.9.3
- Kilka usprawnień Bajgiel, w tym poprawki wydajności i konfigurowalnego poziomie pamięci.
- Nowe metody API. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition i inni
- nowej metryki raportowania interfejsu, SparkListener, aby zebrać informacje o każdym etapie obliczeń. Długości zadanie, bajtów tasuje, etc
- Kilka nowych przykłady wykorzystujące API Javy, w tym k-średnich i informatyki pi.
Co nowego w wersji 0.7.0:
- Spark 0.7 dodaje API Pythona o nazwie PySpark <. / li>
- Praca zapłonowe teraz uruchomić pulpit internetowej do monitorowania wykorzystania pamięci każdego rozproszonego zbioru danych (RDD) w programie.
- Spark może teraz być zbudowany przy użyciu Maven oprócz SBT.
Co nowego w wersji 0.6.1:
- Poprawiono komunikat o zbyt agresywne limity czasu, który mógłby spowodować pracownikom odłączyć się od gromady.
- Poprawiono błąd w trybie autonomicznym deploy, że nie narazić hostów do planisty, wpływając HDFS lokalizację.
- Ulepszone ponowne połączenie w shuffle, który może znacznie przyspieszyć małych przetasowań.
- Poprawiono kilka potencjalnych zakleszczenia w managerze bloków.
- Naprawiono błąd z dostaniem identyfikatory nieudanych gospodarzy z Mesos.
- Kilka usprawnień skryptów EC2, jak lepszą obsługą przypadkach na miejscu.
- Wykonane lokalny adres IP, który wiąże się Spark konfigurowalny.
- Wsparcie dla Hadoop 2 dystrybucji.
- Wsparcie dla lokalizowania Scala na dystrybucje Debiana.
Co nowego w wersji 0.6.0.
- Prostsze wdrażanie
- Dokumentacja Spark został poszerzony o nową Skrócona instrukcja obsługi, dodatkowe instrukcje rozmieszczenia instrukcji konfiguracji, Instrukcja strojenia i lepszej dokumentacji Scaladoc API.
- Nowy menedżer komunikacji przy użyciu Java NIO asynchroniczne operacje odtwarzania losowego pozwala działać szybciej, zwłaszcza podczas wysyłania dużych ilości danych lub gdy zadania mają wiele zadań.
- Nowa Storage Manager obsługuje per-zbiorze ustawień poziomie składowania (np czy zachować zestawu danych w pamięci, rozszeregować na dysku, itp, a nawet replikowane w węzłach).
- Ulepszone debugowanie.
Komentarze nie znaleziono