Apache Tika

Screenshot Software:
Apache Tika
Szczegóły programowe:
Wersja: 1.4
Filmu: 20 Feb 15
Licencja: Wolny
Popularność: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika jest otwarty zestaw narzędzi przeznaczony do wykrywania źródła i wyodrębnić metadanych, a także zorganizowany treści tekstu z kilku dokumentów, za pomocą nic, ale istniejące biblioteki parsera.
Apache Tika obsługuje następujące formaty dokumentów: Hypertext Markup Language (HTTP), XML i formaty pochodne, formatów dokumentów Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), elektroniczny format publikacji (EPF), Rich Text Format (RTF ), formaty kompresji i pakowania, formaty tekstowe / dźwięku / obrazu / wideo, format mbox i pliki i archiwa klasy Java.
Wcześniej Apache Tika była sub-projekt Apache Lucene biblioteki oprogramowania. Teraz jest rozprowadzany jako samodzielny pakiet przez Apache Software Foundation

Co nowego w tym wydaniu:.

  • Usunięto plik testowy HTML z wybranego tekstu GPL słabo w nim (TIKA-1129).
  • Poprawki do serwera Tika aby mogła ona produkować text / html i tekst / treść xml (TIKA-1126, TIKA-1127).
  • Poprawki zostały wprowadzone do kompresora Parser do obsługi plików g'zipped wymagających opcję decompressConcatenated ustawiony na true (Tika-1096).
  • Skierowany błąd drukarski, który został tak, aby zapobiec wykryciu plików awk (TIKA-1081).
  • Dodano nowy punkt końcowy do serwera REST JAX-RS, że Tika tylko wykrywa-typ nośnika opartego na niewielkiej części dokumentu złożonego (TIKA-1047).
  • RTF. Zamówione i nieuporządkowane listy są teraz ekstrakcji (TIKA-1062)
  • MP3: czas trwania dźwięku jest teraz ekstrakcji (TIKA-991),
  • Pliki Java .class. Uaktualniony z ASM 3.1 do 4.1 w celu analizowania ASM bytecodes Java (z-1053) TIKA
  • Typy Mime: Definicje rozszerzony opcjonalnie zawierać link (URL) oraz infekcji dróg moczowych, wraz ze szczegółami dotyczącymi kilku popularnych formatach (TIKA-1012 / TIKA-1083)
  • Wyjątki podczas analizowania OLE10 osadzone dokumenty, podczas analizowania podsumowanie informacji z dokumentów Office, a kiedy zapisywanie wbudowane documennts w TikaCLI obecnie zalogowany zamiast przerywać wydobycia (TIKA-1074)
  • MS Word: znak line tabelarycznych jest teraz zastąpiony nowej linii (TIKA-1128)
  • XML: ElementMetadataHandlers może opcjonalnie przyjąć duplikaty i wartości puste (TIKA-1133)
  • .

Wymagania :

  • Java 2 Standard Edition Runtime Environment,

Inne programy z deweloperem The Apache Software Foundation

Apache Cassandra
Apache Cassandra

19 Feb 15

jakarta-tomcat
jakarta-tomcat

2 Jun 15

Apache Ant
Apache Ant

2 Sep 17

Batik
Batik

3 Jun 15

Komentarze do Apache Tika

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!