Apache Tika

Screenshot Software:
Apache Tika
Szczegóły programowe:
Wersja: 1.9 Aktualizowane
Filmu: 20 Jul 15
Licencja: Wolny
Popularność: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Tika został opracowany jako zestaw narzędzi niskiego poziomu poszukiwania zawartość wewnątrz innych plików.
Tika nie wiele zrobić na własną rękę jest prosta biblioteka, ale może być zintegrowana w bardziej zaawansowanych narzędzi, takich jak wyszukiwarki, cyfrowych systemów zarządzania aktywami lub systemów redakcyjnych, aby zapewnić w pełni funkcjonalny system wyszukiwania-file.
Biblioteka może uzyskać dostęp tylko plik nagłówka dla szybkiego ogólnej informacji o pliku, czy może pójść naprawdę głęboko i szukać nawet w ciele pliku, dla różnych typów danych, w formacie tekstowym lub binarnym.
Szeroka gama typów plików są obsługiwane i Tika mogą być również wykorzystywane w innych językach programowania, dzięki serii opraw zewnętrznych i opakowania.

Co nowego w tym wydaniu :

  • To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.

Co nowego w wersji 1.8:

  • To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.

Co nowego w wersji 1.7:

  • To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.

Co nowego w wersji 1.6:

  • To wydanie zawiera poprawki błędów i nowe funkcje, w tym nowe tłumaczenie API, więcej obsługiwanych formatów oraz ogólna poprawa stabilności Tika.

Co nowego w wersji 1.5.

  • Naprawiono błąd w obsłudze wbudowanego przetwarzania plików w formacie PDF
  • Dodane SourceCodeParser wspierać java, pliki, Groovy, C ++.
  • Aktualizacja Tika Server do obsługi ładunków wieloczęściowy / form-data.
  • Aktualizacja Tika Server CXF 2.7.8.
  • Aktualizacja Tika serwera do przyjmowania żądań ponad adresów wieloznacznych.
  • możliwość dodania do wykorzystania alternatywnego NonSequentialPDFParser.
  • Treść od AcroForms PDF jest teraz ekstrakcji.
  • Poprawiono nieprawidłowe gwiazdki od wzorca slajdów w PPT.
  • przypadki testowe w celu potwierdzenia Dodano obsługę automatycznego daty PPT i PPTX w.

Co nowego w wersji 1.4:

  • Usunięty plik testowy HTML ze źle wybranego tekstu GPL w nie.
  • Poprawki do Tika-serwer, aby umożliwić jej produkcji text / html i zawartości tekstu / XML.
  • Poprawki zostały wprowadzone do kompresorów Parser do obsługi plików g'zipped wymagających opcję decompressConcatenated ustawiony na true.
  • Rozwiązano błąd drukarski, który zapobiega przed wykryciem plików awk.

Co nowego w wersji 1.2:

  • Apache Tika 1.2 zawiera szereg ulepszeń i poprawek błędów.

Co nowego w wersji 1.0:

  • Apache Tika 1.0 zawiera szereg ulepszeń i poprawek błędów.

Co nowego w wersji 0.9.

  • To wydanie zawiera kilka ważnych poprawek i nowych funkcji

Co nowego w wersji 0.8:

  • Identyfikacja Język jest obecnie dynamicznie konfigurować, zarządzać poprzez plik konfiguracyjny załadowane ze ścieżki klasy.
  • Tika obsługuje parsowania Kanały owijając stanowiącego podstawę Rzym bibliotekę.
  • przewodnik szybkiego startu dla Tika parsowania został wniesiony.
  • Podejście do kanalizacji poprzez atrybuty XHTML został dodany.
  • Typ nośnika hierarchia informacji jest obecnie brane pod uwagę przy wyborze najlepszej parser dla danego dokumentu wejściowego.
  • Wsparcie dla parsowania popularne formaty naukowych danych, w tym netcdf i HDF4 / 5 został dodany.
  • Testy jednostkowe dla systemu Windows zostały ustalone, pozwalając TestParsers wypełnić.

Co nowego w wersji 0.7:

  • plik MP3 parsowanie poprawiła, w tym kanałów i SampleRate wydobycia i Wsparcie ID3v2. Ponadto, audio detekcja parsowanie mim był również poprawić w formacie MIDI.
  • Tika nie opiera się już na X11 jego funkcjonalność RTF analizowania.
  • wątku bezpieczny błąd w AutoDetectParser została odkryta i skierowana.
  • Aktualizacja do PDFBox 1.0.0. Nowa wersja PDFBox poprawia wydajność parsowania PDF i rozwiązuje szereg problemów ekstrakcji tekstu.

Wymagania :

  • Java 6 lub nowszy,

Podobne oprogramowanie

Graphics32
Graphics32

21 Jul 15

java-oembed
java-oembed

10 Dec 15

filesize.js
filesize.js

12 Apr 15

Inne programy z deweloperem Apache Software Foundation

Apache Abdera
Apache Abdera

13 Apr 15

Apache Axis2
Apache Axis2

10 Apr 16

Apache Tapestry
Apache Tapestry

9 Feb 16

Apache Felix
Apache Felix

12 May 15

Komentarze do Apache Tika

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!