Do pobrania za darmo DataCleaner Dla Linux ::: Oprogramowanie do zarządzania bazami danych

DataCleaner

Screenshot Software:

Szczegóły programowe:

Wersja: 4.0.9

Filmu: 11 Apr 16

Wywoływacz: -

Licencja: Wolny

Popularność: 17

Do pobrania

Currently nan/5
1
2
3
4
5

Rating: nan/5 (Total Votes: 0)

DataCleaner jest open source i całkowicie darmowe rozwiązanie dla organizacji i firm, które chcą zwiększyć i zmierzyć jakość swoich danych.

Z DataCleaner, użytkownicy będą mogli do profilu, porównaj, walidacji danych przed reguł biznesowych, a także monitorowanie postępu tych pomiarów w miarę upływu czasu.

Wśród jego funkcji można wymienić monitorowanie danych, profilowanie i analizy danych DQ, czyszczenie danych i wzbogacania, wykrywanie i łączenie duplikatów, jakość danych klienta, jak i super-szybki ETLightweight (wyciąg-Transform-Load).

Więcej informacji na temat funkcji i możliwości DataCleaner'S, a także jak z nim pracować, zajrzyj do http://eobjects.dk/docs

What jest nowy w tym wydaniu:

Poprawki i nowe funkcje:
Mamy pozwoliły na tworzenie i usuwanie tabel za pośrednictwem interfejsu pulpitu DataCleaner. Należy pamiętać, że termin & quot; stół & quot; tu faktycznie obejmuje więcej niż tylko relacyjnych tabel bazy danych. Obejmuje ona także arkusze w magazynów danych MS Excel, kolekcjach MongoDB, typy dokument w CouchDB i ElasticSearch i tak dalej ... W zasadzie wszystkie rodzaje Datastore obsługujące odpisów operacji, z wyjątkiem magazynów danych pojedynczych tabel, takich jak magazynów danych CSV obsługuje tej funkcji! Funkcjonalność jest narażona poprzez:
& quot; Utwórz tabelę & quot; aktywacji za pomocą menu prawego przycisku myszy schematów w drzewie po lewej stronie okna aplikacji.
& quot; Utwórz tabelę & quot; umożliwił również poprzez wejścia w tabeli doboru komponentów, takich jak wstawić do tabeli, odnośnika stołowy i aktualizacji.
& quot; drop table & quot; aktywacji za pomocą menu prawego przycisku myszy tabel w drzewie po lewej stronie okna aplikacji.
Dodaliśmy (opcjonalnie) zdolność określania swoją usługę internetową Salesforce.com Endpoint URL. To pozwala na użycie DataCleaner połączyć się środowisku izolowanym Salesforce.com, jak również do własnych niestandardowych punktów końcowych.
Wsparcie ElasticSearch została poprawiona, umożliwiając niestandardowe odwzorowania jak również ponowne definicje datastore ElasticSearch teraz także dla wyszukiwania i indeksowania.
Pobieranie próbek zapisów i selekcji potencjalnych duplikatów w funkcję wykrywania zduplikowanych została ulepszona, co prowadzi do szybszej konfiguracji, ponieważ decyzje podjęte podczas sesji treningowej są bardziej reprezentatywne.
wykrywanie duplikatów format model został zaktualizowany która usunęła potrzebę oddzielnego pliku "referencyjnego" w celu zaoszczędzenia przeszłe decyzje szkoleniowe. Zgodność ze starego formatu została zachowana, ale przy użyciu nowego formatu dodaje wiele korzyści dla użytkowników.
Poprawki:
problem głodu wątku została ustalona na monitorze DataCleaner. Wpływ tej kwestii był wielki, ale to zdarzyło się tylko w rzadkich i bardzo zindywidualizowanych przypadkach. Jeśli słuchacz niestandardowych obiektów na monitorze DataCleaner rzucał błąd, prowadziłoby to do zasobu nigdy uwolnieniu się i podejmowania wątek z puli Quartz-szeregowania na serwerze. Gdyby tak się stało wiele razy serwer może w końcu zabraknie wątków w tej puli.
pionowe menu na ekranie wynikowym jest teraz robi właściwą pracę wyświetlając etykiety komponentów, które mają wyniki. To sprawia, że łatwiej rozpoznać która pozycja menu wskazuje na jakiej pozycji wyników.

Co nowego w wersji 3.5.5:

Transformacja "Synonim odnośnika" ma teraz opcję patrzeć każdy znak wejścia. Jest to przydatne, jeśli robisz wymianę synonimami w zakresie wartości pola długi tekst.
Blokowanie wykonywania pracy DataCleaner poprzez stronę internetową do monitora to może czasami nie z błędu spowodowanego wątku blokującym. Ten problem został rozwiązany.
Poprawa powstał w sposobie pracy i kolejność elementów są zamknięte / posprzątać po egzekucji.
JNLP / Java Web Start wersja DataCleaner był narażony w wyniku błędu w środowisku wykonawczym Java powodując pewne pliki JAR nie może być uznane przez wyrzutnię WebStart w pewnych okolicznościach. Ten problem został rozwiązany poprzez nieznaczne modyfikacje do tych plików JAR.
Kilka martwe linki w dokumentacji została ustalona.

Co nowego w wersji 3.5.4:

Nie jest obecnie możliwe, aby ukryć kolumny wyjściowe przemian , Ukrywanie nie wpłynie na przepływ przetwarzania w ogóle, ale po prostu je ukryć za pomocą interfejsu użytkownika, a tym samym potencjalnie czyni doświadczenie bardziej czyste, podczas interakcji z innymi składnikami.
Nowy serwis internetowy został dodany do monitorowania aplikacji internetowej, która stanowi drogę do wzywania status realizacji konkretnego zadania.
Błąd został naprawiony, powodując awarię raport HTML dla niektórych rodzajów analiz, gdy żadne zapisy zostały przetworzone.
i 6 innych drobny błąd został skierowany.

Co nowego w wersji 3.5.1:

Przechwytywanie zmienił zapisy:
Nowy filtr dodano umożliwić przyrostowe przetwarzaniu rekordów, który nie został przetworzony przed, na przykład do profilowania lub kopiowaniem modyfikowane tylko rekordy. Nazwa nowych filtrach jest przechwytywania zmienione zapisy, odnosząc się do pojęcia chwytania Zmiana danych.
W kolejce wykonanie zadań:
Monitor DataCleaner będzie teraz w kolejce na wykonanie tej samej pracy, jeśli jest on uruchamiany kilka razy. Gwarantuje to, że przypadkowo nie uruchomić tę samą pracę równocześnie co może prowadzić do różnego rodzaju problemów, w zależności od tego, co robi praca.
Drobne poprawki:
Kilka poprawek został wdrożony.

Co nowego w wersji 3.5:

Kilka czarodzieje są już dostępne do rejestracji magazynów danych; tym file-upload do serwera plików CSV, wpisu połączenia z bazą danych, kierując rejestracji mandatów Salesforce.com i więcej.
Czarodzieje budowlanych zadania zostały również rozszerzony o kilka zaawansowanych funkcji; Wybór dystrybucji wartości i wzór znalezienie pól w kreatorze szybkiej analizy, zupełnie nowy kreator do tworzenia miejsc pracy w oparciu EasyDQ oczyszczające klientów i nowe zadania dla kreatora wypalania pracy Pentaho Data Integration (czytaj więcej poniżej).
Możesz teraz zapytań ad-hoc żadnego magazynu danych bezpośrednio w interfejsie WWW. To sprawia, że łatwo dostać się szybko lub sporadyczne wgląd do danych bez tworzenia miejsc pracy lub innych zarządzanych podejścia przetwarzania danych.
Po pracy lub magazynów danych są tworzone, użytkownik jest kierowany do podjęcia działań w nowo wybudowanym obiekcie. Na przykład, można bardzo szybko uruchomić pracę zaraz po jest zbudowany lub kwerendy magazynu danych po jego rejestracji.
Administratorzy mogą teraz przesyłać bezpośrednio do repozytorium pracy, co jest szczególnie przydatne, jeśli chcesz ręcznie edytować zawartość XML plików pracy.
Dużo cruft technicznego jest teraz ukryty za pokazując proste dialogi. Na przykład, gdy jest uruchamiany zadanie duży wskaźnik ładowania jest wyświetlany, a po zakończeniu wynik zostanie pokazany. Zaawansowany ekran logowania, który wcześniej był tam nadal może być wyświetlany po kliknięciu łącza do dodatkowych informacji.

Co nowego w wersji 3.1.2:

Dodaliśmy usługę internetową w monitorowaniu wniosek o uzyskanie (lista) wartości metrycznych. To sprawia, że monitorowanie nawet bardziej użyteczny jako składnik infrastruktury klucza, jako sposób na monitorowanie danych (jakość) i narazić wyniki do aplikacji firm trzecich.
Komponent "tabeli odnośników" została poprawiona poprzez dodanie dołączyć semantykę jako własność konfigurowalnego. Korzystanie z przyłączyć semantykę można dostosować, jeśli chcesz odnośnika do pracy semantycznie jak LEFT JOIN lub INNER JOIN.
Składniki EasyDQ zostały zmodernizowane, dodając kolejne opcje konfiguracyjne i bogatszy interfejs wynik deduplikacji.
Poprawiono wydajność były specyficzne tematem tego wydania. Poprawki zostały wprowadzone w silniku DataCleaner do dalszego wykorzystania podejścia przetwarzanie strumieniowe w pewnych szczególnych przypadkach, które nie były objęte wcześniej.

Co nowego w wersji 3.1.1:

Data i opcje Czas analizy związane zostały rozszerzone , dodając analizatorów dystrybucji numerów tygodnia, miesięcy i lat. Wszystkie analizatory związane z datą i czasem są teraz pogrupowane w podmenu o nazwie & quot; Data i czas & quot; pod & quot; Analizowanie & quot;.
Opcjonalny & quot; statystyki opisowej & quot; opcja została dodana do analizatora Liczba i analizatora Date / Time. Ta opcja dodaje dodatkowe dane z wynikami tych analizatorów, takimi jak mediana, skośność, percentyla i kurtozy. Te dane są opcjonalne, ponieważ ich zużycie pamięci jest nieco większy niż w istniejących danych.
Linie w wykresach osi czasu monitorowania aplikacji internetowych mają teraz małe kropki w nich. Jest to szczególnie przydatne w przypadku wykresów z kilku (lub nawet tylko jeden) obserwacji w nich. - Wskazać, gdzie dokładnie znajdują się punkty widokowe są
parser zapytań podczas wywoływania zapytań ad hoc zostały również znacznie się poprawiła. Teraz pytania mogą zawierać odrębne klauzule * -wildcards, podzapytania i są odporne na uszkodzenia wobec spraw text-case.
Dwa nowe transformatory zostały dodane do generowania UUID i generowania znaczników czasu.

Co nowego w wersji 3.1:

metryczne wzory - opracowane dane dotyczące jakości KPI:
To jest teraz możliwe zbudowanie znacznie bardziej rozbudowane dane dotyczące jakości KPI w zakresie monitorowania aplikacji internetowych DataCleaner użytkownika. Interfejs użytkownika pozwala na budowanie skomplikowanych formuł w arkuszu kalkulacyjnym podobny wzór stylu; za pomocą zmiennych zebranych przez zadania DataCleaner.
wzory metryczne można łączyć dowolną liczbę metryki stałych i operacji, jak długo mogą być wyrażone w równaniu matematycznym.
Na przykład - mierzymy szybkość duplikatów rekordów w procentach całkowitej liczby rekordów. Albo zmierzyć ilość kodów produktów, które są zgodne z zestawem różnych wzorów smyczkowych.
zapytań ad-hoc - z dowolnego magazynu danych:
Z DataCleaner 3.1 można teraz wykonywać kwerend ad hoc do dowolnego magazynu danych! Zapytania mogą być wyrażone w postaci zwykłego SQL i będą stosowane do baz danych, jak również plików, baz danych NoSQL i inne, zapewniając prawdziwie pomocny mechanizm zapytań przedłużyć do swojego doświadczenia odkrycie i profilowania danych.
Opcja zapytania jest również dostępna za pośrednictwem usługi internetowej do monitorowania użytkowników w roli administratora. Kwerenda jest jako parametr HTTP POST lub ciała, a wynik jest podana jedynie tabeli XHTML.
Wartość matcher - nowa opcja Analiza:
Często masz firmę pomysł na których wartości powinny być dozwolone i oczekiwaną dla danej dziedzinie. W DataCleaner nie zawsze była opcja Analiza wartości Dystrybucja, która pomoże Ci dochodzić swoich założeń. W DataCleaner 3.1 jednak trzeba bardziej precyzyjną ofertę - do dopasowywania wartości. Opcja ta analiza pozwala określić zbiór wartości oczekiwanych, a następnie przeprowadzić analizę rozkładu wartości, takich jak, w szczególności, aby zweryfikować i określić nieoczekiwane wartości.
kopiowanie, usuwanie i zarządzanie zatrudnienia:
Zarządzanie pracy i wyników w aplikacji monitora DataCleaner została poprawiona znacznie. Możesz teraz kliknąć pracę na stronie Harmonogram monitora i znaleźć opcje zarządzania dostępne dla operacji, takich jak zmiana nazwy, kopiowanie, usuwanie i więcej. Każda operacja uwzględnia powiązania do innych artefaktów na ekranie, takie jak wyniki analiz, harmonogramy oraz wiele innych. Oznacza to, że zarządzanie repozytorium monitoringu stało się dużo łatwiejsze i dojrzały.
Zarządzanie historią jakości danych:
Czasami jesteś w obliczu sytuacji, w których rzeczywiście chcesz zrobić monitoring z danymi historycznymi! Może się okazać, że masz zabytkowych wysypisk lub kopii zapasowych baz danych, które chcą pokazać i opowiedzieć historię. Teraz można zrobić analizę tych danych historycznych, przesłać go do monitora DataCleaner i stosując nową usługę internetową, ustaw historyczne dane o danym wyniku analizy. Oznacza to, że terminy będą prawidłowo wykreślić wyniki wykorzystując swoją planowaną datę, ale z wynikami, które zostały zgromadzone może w późniejszym czasie.
Klastry Wsparcie scheduler (tylko EE):
Harmonogram monitora DataCleaner został externalized, tak aby mógł on być zastąpiony pomocą prostej konfiguracji. W Enterprise Edition (EE) z DataCleaner zapewniamy klastrowego harmonogram, umożliwiając załadowanie równowagę i rozpowszechniać egzekucje w klastrze maszyn.
Single-SIGNON (SSO) za pomocą CAS (EE only):
W Enterprise Edition (EE) od DataCleaner teraz zapewnić możliwość jednorazowego SIGNON dla aplikacji monitora. Teraz DataCleaner może być integralną częścią infrastruktury IT, także bezpieczeństwo mądry.
... I wiele więcej:
Powyższe to tylko podsumowanie. Ponad trzydzieści kwestie zostały rozwiązane w tej wersji. Rozwiązaliśmy kilka wniosków pochodzących z forów i społeczności i zachęcamy do korzystania z tego medium jako narzędzie zmiany. Jesteśmy bardzo szczęśliwi, aby rozwój DataCleaner być pod silnym wpływem strumieni w społeczności.

Co nowego w wersji 3.0.3:

Dodaje serwis do zmiany nazw miejsc pracy w repozytorium monitoringu .
Możesz uzyskać dostęp do tego jako relaksującego usługi sieci Web lub interaktywnie w interfejsie użytkownika.
Usługa Web dodano do zmiany historyczną datę w wyniku analizy w repozytorium monitorowania.
Aplikacja internetowa została wykonana kompatybilny z pojemników Legacy JSF.
Buforowanie konfiguracji w aplikacji sieci Web została znacznie ulepszona, co prowadzi do szybszego wczytywania strony i inicjalizacji praca czasów.

Co nowego w wersji 3.0.2:

Podczas uruchamiania zadania w aplikacji internetowej monitorującej centrala automatycznie odświeża co sekundę, aby uzyskać najnowszy stan realizacji.
magazynów danych opartych na plikach (takich jak arkusze kalkulacyjne Excel lub CSV) ze ścieżkami bezwzględnymi są teraz poprawnie rozwiązane w aplikacji do monitorowania sieci.
& quot; Wybierz z klucz / wartość map & quot; Transformator obsługuje zagnieżdżone wybierz wyrażeń takich jak & quot; Address.Street & quot; lub & quot; elementami zamówienia [0] .product.name & quot;.
Mechanizm tabeli odnośników zostały zoptymalizowane pod kątem wydajności, przy użyciu przygotowanych sprawozdań, gdy uruchomiony przed baz danych JDBC.
Administratorzy mogą teraz pobrać plik magazynów danych opartych bezpośrednio z magazynów danych & quot; & quot; strony.
Obsługa wyjątków w stosowaniu monitoringu internetowego zostały nieco poprawić, dzięki czemu komunikaty o błędach bardziej precyzyjne i intuicyjne.

Co nowego w wersji 3.0.1:

Podstawowym bugfix w tej wersji był o przywracaniu mapowanie kolumn i konkretnych kategoryzacji przeliczalna. Na przykład w nowym analizatorem kompletność, okazało się, że po przeładunku zapisaną pracę, odwzorowanie nie zawsze było poprawne.
Ponadto kilka ulepszeń wewnętrzne zostały wykonane, dzięki czemu łatwiej wdrożyć DataCleaner monitora aplikacji internetowych w środowisku z wykorzystaniem Spring Framework.
Last but not least, ustawienia wizualizacji w aplikacji pulpitu zostały ulepszone poprzez automatyczne przyjrzeniu się pracy są wizualizowane i przełączanie wyświetlane artefakty w zależności od wielkości ekranu i ilości detali potrzebnych, aby pokazać go ładnie.

Co nowego w wersji 3.0:

Wyświetlanie osi czasu i tendencje w zakresie jakości danych metryk
Centralne repozytorium do zarządzania i pracy, zawierający wyniki, terminy itp.
Planowanie i kontrolę pracy DataCleaner
Świadczenie usług internetowych dla wywoływania przekształceń DataCleaner
Zabezpieczenia i multi-najem
Alerty i powiadomienia, gdy jakość danych metryki są poza ich przewidywanego strefy komfortu.
Jest nowy analizator Kompletność co jest bardzo przydatne do identyfikacji tylko rekordy, które mają niekompletne pola.
Można teraz eksportować DataCleaner wyniki na ładną raporty HTML, który możesz dać swojemu przełożonemu lub wysłać do parsera XML!
Nowe środowisko monitoring jest również ściśle zintegrowany z aplikacją typu desktop. W związku z tym aplikacja ma teraz możliwość publikowania wyników pracy i do repozytorium monitora, a który ma być używany jako interaktywny edytor do treści już w repozytorium.
Nowe transformacje data zorientowanych obecnie dostępne są: Filtr Zakres dat, co pozwala na podzbiór zbiorów danych w oparciu o zakresy dat i format daty, który pozwala formatować datę przy użyciu maski daty
regex parser (co było wcześniej dostępne tylko przez ExtensionSwap) został uwzględniony w DataCleaner. To sprawia, że bardzo wygodne do analizowania i standaryzacji bogatych pól tekstowych za pomocą wyrażeń regularnych.
Jest nowy transformator sprawa dot. Z tej przemiany można łatwo konwertować między wielkimi / małymi literami i prawidłowego kapitalizacji zdań i słów.
Dwa nowe wyszukiwanie / wymienić Przekształcenia zostały dodane. Zwykły wyszukiwania / zastąpić i wyszukiwania Regex / wymienić
Doświadczenie użytkownika aplikacji pulpitu została poprawiona. Dodaliśmy kilka wiadomości pomocy Pomoc w złożeniu wniosku, kolory wyglądają jaśniejsze i bardziej przejrzyste i poprawić obsługę czcionek.

Co nowego w wersji 2.5.2:

Wsparcie Apache CouchDB:
Dodaliśmy wsparcie dla bazy danych NoSQL Apache CouchDB. DataCleaner obsługuje zarówno z czytania, analizowania i pisania do wystąpień couchdb.
Aktualizacja tabeli Scenariusz:
Po nasze dotychczasowe wysiłki zmierzające do wprowadzenia możliwości ETLightweight stylu do DataCleaner dodaliśmy pisarza, który aktualizuje rekordy w tabeli. Można to wykorzystać na przykład do wstawiania lub aktualizacji ewidencji na podstawie określonych warunków.
Jak wstawić do tabeli pisarza, nowy DataCleaner Aktualizacja pisarzem tabeli nie jest ograniczona do baz danych SQL na bazie, ale każdy rodzaj magazynu danych, który obsługuje piśmie (obecnie relacyjnych baz danych, plików CSV, arkusze kalkulacyjne Excel, bazy danych MongoDB i bazy danych MongoDB), ale semantyka są takie same jak w przypadku tradycyjnego rachunku UPDATE tabeli w SQL.
Wiertła do szczegółu informacje zapisane w plikach wynikowych:
W przypadku korzystania z funkcji Zapisz wynik z DataCleaner 2.5, niektórzy użytkownicy doświadczyli, że ich informacje wiertła o szczegóły zaginął. W DataCleaner 2.5.2 teraz również utrzymywać te informacje, dzięki czemu swoje archiwa DQ znacznie cenniejsze badając historyczne incydentów danych.
Ulepszona obsługa błędów EasyDQ:
Składniki EasyDQ zostały ulepszone pod kątem obsługi błędów. Jeśli wystąpi chwilowa sprawa sieciowy lub inny podobny problem powoduje kilka rekordów na niepowodzenie, składniki EasyDQ będzie teraz bezpiecznie odzyskać i co najważniejsze -. Praca partia zwycięży nawet mimo błędów
Mapowanie Stół do magazynów danych NoSQL:
Ponieważ CouchDB i MongoDB nie tabeli oparte, ale mają bardziej dynamiczną strukturę Dostępne są dwa podejścia do pracy z nimi: domyślny, który ma pozwolić DataCleaner wykryje strukturę tabeli, a zaawansowany, który pozwala ręcznie określić swoje pożądana struktura tabeli. Wcześniej zaawansowana opcja była dostępna tylko przez konfiguracji XML, ale teraz interfejs użytkownika zawiera odpowiednie dialogi w ten sposób bezpośrednio w aplikacji.

Co nowego w wersji 2.4.1:

udoskonalenia:
Cechy serii ładowanie jesteśmy znacznie się poprawiła, gdy zapisuje dane do tabel bazy danych. Spodziewać się wiele rzędów wielkości ulepszeń tutaj.
Zapis danych została wygodniej udostępniane przez dodanie opcji do menu okna.
Możesz teraz łatwo zmienić nazwę składniki pracy poprzez dwukrotne kliknięcie swoich kart.
Transformator JavaScript ma teraz kolorowanie składni, tak aby javascripts są łatwiejsze do wglądu i modyfikacji.
Poprawki:
Podczas odczytu i zapisu do tego samego magazynu danych (np. Obszar przemieszczania DataCleaner) zrobiliśmy pewien, że cache tabeli tego magazynu danych jest odświeżany. Wcześniej niektóre scenariusze pozwalał, aby zobaczyć widok na stołach out-of-date.
Potencjalny zakleszczenie podczas uruchamiania aplikacji został rozwiązany. Ten impas był konsekwencją wystawienia w JVM, ale pracowałem wokół niego przez synchronizację wszystkich połączeń do danego API w języku Java.

Co nowego w wersji 2.4: (. Aka deduplikacji lub Fuzzy dopasowanie zapisów)

wykrywanie duplikatów , które jest do wykorzystania przez okres do 500.000 wartości.
walidacji Dane adresowe i oczyszczające. W ten sposób można sprawdzić, czy istnieją adresy, jeśli są prawidłowo sformatowany, a nawet zaproponować poprawki w przypadku gdy masz błędy.
walidacji danych Imię i oczyszczające. Dzięki usłudze Nazwa EasyDQ ma format nie tylko swoje imiona konsekwentnie, ale także sprawdza pisowni i interpretuje części nazw.
E-mail i walidacja komórkowy i oczyszczająca. Usługi te zapewniają sprawdzanie poczty elektronicznej i telefonów, danych, upewniając się, że domeny e-mail istnieje, że kody krajów są poprawne i wiele więcej.

Co nowego w wersji 2.3:

Międzynarodowe wsparcie danych:
Jeśli pracujesz z danymi międzynarodowymi, to może mieć różne zestawy znaków w danych, na przykład chińskiego i hebrajskiego. Dodaliśmy analizator dystrybucji zestaw znaków, który jest rozwiązaniem, które pozwala na profilowanie dowiedzieć się, które zestawy znaków są wykorzystywane w danych.
Praca z danymi zawierającymi różne zestawy znaków może być problematyczne. Korzystając z nowego transformatora Transliterate można teraz transliteracji sznurki z różnych systemów pisma na alfabecie łacińskim.
Jest też nowa webcast demonstracji, koncentrując się na międzynarodowych Transmisja danych z DataCleaner 2.3 w sekcji dokumentów.
Grupowanie wyników analizy przez kolumnę wtórnym:
Analizator Wzór jest teraz w stanie wzorców grupowych opartych na kolumnie wtórnym. Funkcja ta jest przydatna do analiz takich jak:
Pobierz wzory numerów telefonów, zgrupowane według kraju.
Pierwsze wzory e-mail w oparciu o nazwę użytkownika domeny email.
Coś podobnego zostało wykonane za pomocą analizatora Wartość dystrybucji; pozwala to na analiz, takich jak:
Czy wszystkie nazwy miast wyraźny, gdy pogrupowane według kodu pocztowego?
Jaki jest rozkład płci w ramach poszczególnych typów klientów?
Ulepszone wykresy:
Wyniki Finder Wzór można teraz pokazano na wykresie. To sprawia, że dystrybucja widoczna i pokazuje, jak wiele z & quot; & quot długi ogon; wzorów istnieje.
Wyjście analizatora dystrybucji wartość została poprawiona w kilku obszarach:
czytelność wykresu została poprawiona.
To pokazuje całkowitą liczbę wierszy i odrębny licznik nad tymi wierszami: liczbę różnych wartości, które występują w rzędach. To pomaga w zastanawianie się, jak często występują zduplikowane wartości.
Jeśli nie ma pustych strun, używamy słowa kluczowego dla niej, dzięki czemu łatwiej jest je rozpoznać.
Wyjście:
Obok już istniejących formatów wyjściowych (pliki CSV i magazynów danych H2) dodaliśmy pisanie wyjście do arkuszy kalkulacyjnych Excel.
Po napisaniu do magazynu danych, możliwe jest teraz wyjście podglądu, dzięki czemu można sprawdzić, czy wyjście jest zgodnie z Twoimi oczekiwaniami.
jest także możliwe dodanie do mocy nowego magazynu danych, tak, że może być wykorzystywane jako sygnał wejściowy dla nowego zlecenia.
Inne ulepszenia:
Dokumentacja została ogólnie poprawiła. W szczególności, rejestrowanie i interfejs wiersza poleceń opisy zostały dodane.
Mechanizm rozszerzenie zostało ulepszone przez modularyzacji kilka kawałków aplikacji i wprowadzenie Google Guice jako ogólnie dostępnej ramach wtrysku zależność dla twórców rozszerzeń.
I oczywiście zrobiliśmy ponad dwadzieścia drobnych usprawnień i poprawek.

Co nowego w wersji 2.2:

Głównym czynnikiem w tym wydaniu jest to opowieść o rozciągliwości , Podczas zwalniania aplikacji jesteśmy simultaniously uwalniając internetowej nowy DataCleaner który oferuje nową, ważną powierzchnia: ExtensionSwap. Ideą ExtensionSwap jest umożliwienie dzielenia rozszerzeń DataCleaner i instalacji poprzez kliknięcie przycisku w przeglądarce!
DataCleaner Rozszerzenie API została ulepszona dużo w tej wersji, dzięki czemu możliwe jest tworzenie własnych transformatorów, analizatorów i filtrów. Jeśli uważasz, że rozszerzenie może być interesujące dla innych użytkowników, należy podzielić ją na ExtensionSwap i zapewniamy kanał pozwala łatwo rozprowadzać je do tysięcy użytkowników. API Extension i ExtensionSwap jest wyjaśnione w naszej nowej demonstracji webcast dla programistów i innych techników posiadających interes.
Jesteśmy również uwalniając zestaw pierwszych rozszerzeń na ExtensionSwap: the HIquality Kontakt w celu uzyskania przedłużenia DataCleaner które zapewnia zaawansowaną nazwisko, numer telefonu i adres e-oczyszczające, w oparciu o ludzkie wnioskowań języka naturalnego przetwarzania DQ internetowych usług. Jesteśmy również dostarczane rozszerzenie próbki, które będą służyć jako przykład dla programistów, którzy chcą wypróbować rozwoju rozszerzeń siebie. W najbliższych miesiącach będziemy mieć pewność, aby umieścić jeszcze więcej rozszerzeń pochodzących z naszego wewnętrznego portfela narzędzi, które używamy na gromadzenie wiedzy zespołami Human wnioskowania za.
Oprócz rozciągliwości jesteśmy również koncentruje się na embeddability. Chcemy, aby móc zamieścić DataCleaner łatwo do innych aplikacji do profilowania i analiza danych możliwe w dowolnym miejscu! Stworzyliśmy nową ładowania API, który umożliwia aplikacjom bundle DataCleaner i załadowania go z dynamicznej konfiguracji lub uruchomić go w & quot; pojedynczym trybie & quot magazynu danych ;, w którym składany jest dostrojony do zaledwie inspekcji jednego magazynu danych (zazwyczaj definiowany przez aplikację które osadza DataCleaner). Mamy już kilka naprawdę ciekawe przypadki osadzania DataCleaner w pracach. - Zarówno w innych aplikacjach open source jak i komercyjnych zastosowań
Dodaliśmy wsparcie dla analizy zbiorów danych SAS. To jest coś, jesteśmy bardzo dumni, jak my, według naszej wiedzy, pierwszy głównym aplikacji open source, aby zapewnić taką funkcjonalność, ostatecznie uwalniając wielu użytkowników SAS. Część interoperacyjność SAS został stworzony jako osobny projekt, SassyReader, więc możemy spodziewać się bezpłatne przyjęcie w społeczności open source DataCleaner wkrótce też!
Dodaliśmy również wsparcie dla innego rodzaju magazynu danych: Stała plików szerokości. Stałe pliki szerokość to pliki tekstowe, gdzie każda kolumna ma stałą szerokość. Nie ma separator lub cytat charakter, jak pliki CSV, a nie każda linia są równej długości, a każda linia będzie tokenized zgodnie z zestawem długościach wartości.
Opcja na & quot; nie na niespójności & quot; został dodany do pliku CSV i stałej szerokości magazynów danych plików. Te flagi dodać sprawdzanie integralności Format podczas korzystania z tych magazynów danych na podstawie pliku tekstowego.
Błąd został naprawiony, co spowodowało ustawień CSV separatora nie może być zatrzymane w interfejsie użytkownika, podczas edycji magazynu danych CSV.
znaków japońskich i inne nie są obsługiwane w interfejsie użytkownika. Ten & quot; błąd & quot; chodziło o zbadanie dostępnych czcionek w systemie i wybór czcionki, które mogą spowodować, że poszczególne znaki. W większości nowoczesnych systemów nie będzie zdolne fonty dostępne, ale w niektórych gałęziach tam Unix / Linux wciąż może być ograniczenia.
W sekcji Dokumentacja została zaktualizowana! Już od pierwszej wersji 2.0 dokumentacja zostały daleko w tyle, ale już w końcu udało się go do tej pory. Istnieje jeszcze kawałki brakuje w docs, ale powinna zdecydowanie być przydatne do podstawowego użytkowania, jak również jako punkt odniesienia dla większości tematów.
czas uruchamiania aplikacji została poprawiona przez parallelizing ładowanie konfiguracji i poprzez opóźnianie inicjacji tych części konfiguracji, które nie są potrzebne do początkowego wyświetlania okna.
Podobieństwo fonetyczne Analizator finder zostały usunięte z głównej dystrybucji, tak jak to było dość eksperymentalny i służy głównie jako dowód koncepcji i przystawkę do społeczności w celu stworzenia bardziej zaawansowanych modelach analizatorów. Teraz można znaleźć i zainstalować podobieństwa fonetycznego Finder na ExtensionSwap.
Zlikwidowano lub niekompletne postępowanie praca została poprawiona, a interfejs użytkownika reaguje bardziej poprawnie, wyłączając przyciski i wskaźniki postępu, jeśli zadanie zostało zatrzymane.
Poprawiono kilka drobnych problemów UI odnoszące się do tabeli doboru i stosowania pasków przewijania.

Co nowego w wersji 2.1.1:

Ulepszenia:
Dodane pole tekstowe wyszukiwania / filtrowania na liście magazynów danych. Dzięki temu można szybko znaleźć datastore jeśli zarejestrowałeś więcej magazynów danych, niż dostępne na ekranie.
Dane odniesienia do kodów krajów została dodana do standardowej dystrybucji, dzięki idzie Graham Rhind za dostarczanie tych.
Dodano poziomego paska przewijania danych podglądu okien istnieje ponad 10 kolumn.
Możliwość dodawania pakietu rozszerzenia o nowe funkcjonalności w oknie dialogowym Opcje w czasie wykonywania. Większy nacisk na rozszerzeniach nastąpi w najbliższych wydaniach.
Mamy narażone wczesny podgląd naszego interfejs wiersza poleceń (CLI), pozwalając, aby wywołać aplikację z & quot; -usage & quot; Parametrem, który pokaże opcje CLI.
Dodano opcje formatowania numer & quot; Konwersja do Numer & quot; Transformator.
Poprawki:
Poprawiono out-of-memory problem podczas odpytywania tabel z wieloma kolumnami (150 +).
Naprawiono błąd, który spowoduje & quot; analiza Limit & quot; pole wyboru nie jest zaznaczone prawidłowo, gdy został ponownie otwarty po zapisaniu zadania.
Nie bardzo poprawkowym, ponieważ nigdy nie była oficjalna funkcja, ale teraz mamy wsparcie przywrócenia preferencji użytkownika (plik userpreferences.dat) z poprzednimi wersjami DataCleaner.

Co nowego w wersji 2.1:

Nie było dużo pracy wykonywanej na interfejsie użytkownika ( patrz strona mediów):
Zdecydowaliśmy się usunąć okno po lewej stronie zawierającej opcje konfiguracji środowiska.
Zamiast tego wszystkie te opcje zostały przeniesione do okna budynku pracy, dzięki czemu użytkownik ma tylko skupić się na jednym oknie dla wszystkich interakcji potrzebnych do budowy pracy.
W oknie Welcome / login został również usunięty na rzecz bardziej dyskretnego panelu, który może zostać pociągnięty lub ukryty w oknie głównym.

11 Apr 16 W Oprogramowanie do zarządzania bazami danych, Narzędzia dla programistów