Apache Tika jest otwarty zestaw narzędzi przeznaczony do wykrywania źródła i wyodrębnić metadanych, a także zorganizowany treści tekstu z kilku dokumentów, za pomocą nic, ale istniejące biblioteki parsera.
Apache Tika obsługuje następujące formaty dokumentów: Hypertext Markup Language (HTTP), XML i formaty pochodne, formatów dokumentów Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), elektroniczny format publikacji (EPF), Rich Text Format (RTF ), formaty kompresji i pakowania, formaty tekstowe / dźwięku / obrazu / wideo, format mbox i pliki i archiwa klasy Java.
Wcześniej Apache Tika była sub-projekt Apache Lucene biblioteki oprogramowania. Teraz jest rozprowadzany jako samodzielny pakiet przez Apache Software Foundation
Co nowego w tym wydaniu:.
- Usunięto plik testowy HTML z wybranego tekstu GPL słabo w nim (TIKA-1129).
- Poprawki do serwera Tika aby mogła ona produkować text / html i tekst / treść xml (TIKA-1126, TIKA-1127).
- Poprawki zostały wprowadzone do kompresora Parser do obsługi plików g'zipped wymagających opcję decompressConcatenated ustawiony na true (Tika-1096).
- Skierowany błąd drukarski, który został tak, aby zapobiec wykryciu plików awk (TIKA-1081).
- Dodano nowy punkt końcowy do serwera REST JAX-RS, że Tika tylko wykrywa-typ nośnika opartego na niewielkiej części dokumentu złożonego (TIKA-1047).
- RTF. Zamówione i nieuporządkowane listy są teraz ekstrakcji (TIKA-1062)
- MP3: czas trwania dźwięku jest teraz ekstrakcji (TIKA-991),
- Pliki Java .class. Uaktualniony z ASM 3.1 do 4.1 w celu analizowania ASM bytecodes Java (z-1053) TIKA
- Typy Mime: Definicje rozszerzony opcjonalnie zawierać link (URL) oraz infekcji dróg moczowych, wraz ze szczegółami dotyczącymi kilku popularnych formatach (TIKA-1012 / TIKA-1083)
- Wyjątki podczas analizowania OLE10 osadzone dokumenty, podczas analizowania podsumowanie informacji z dokumentów Office, a kiedy zapisywanie wbudowane documennts w TikaCLI obecnie zalogowany zamiast przerywać wydobycia (TIKA-1074)
- MS Word: znak line tabelarycznych jest teraz zastąpiony nowej linii (TIKA-1128)
- XML: ElementMetadataHandlers może opcjonalnie przyjąć duplikaty i wartości puste (TIKA-1133) .
Wymagania :
- Java 2 Standard Edition Runtime Environment,
Komentarze nie znaleziono