Apache Tika

Screenshot Software:
Apache Tika
Szczegóły programowe:
Wersja: 1.9 Aktualizowane
Filmu: 20 Jul 15
Licencja: Wolny
Popularność: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika został opracowany jako zestaw narzędzi niskiego poziomu poszukiwania zawartość wewnątrz innych plików.
Tika nie wiele zrobić na własną rękę jest prosta biblioteka, ale może być zintegrowana w bardziej zaawansowanych narzędzi, takich jak wyszukiwarki, cyfrowych systemów zarządzania aktywami lub systemów redakcyjnych, aby zapewnić w pełni funkcjonalny system wyszukiwania-file.
Biblioteka może uzyskać dostęp tylko plik nagłówka dla szybkiego ogólnej informacji o pliku, czy może pójść naprawdę głęboko i szukać nawet w ciele pliku, dla różnych typów danych, w formacie tekstowym lub binarnym.
Szeroka gama typów plików są obsługiwane i Tika mogą być również wykorzystywane w innych językach programowania, dzięki serii opraw zewnętrznych i opakowania.

Co nowego w tym wydaniu :

  • To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.

Co nowego w wersji 1.8:

  • To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.

Co nowego w wersji 1.7:

  • To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.

Co nowego w wersji 1.6:

  • To wydanie zawiera poprawki błędów i nowe funkcje, w tym nowe tłumaczenie API, więcej obsługiwanych formatów oraz ogólna poprawa stabilności Tika.

Co nowego w wersji 1.5.

  • Naprawiono błąd w obsłudze wbudowanego przetwarzania plików w formacie PDF
  • Dodane SourceCodeParser wspierać java, pliki, Groovy, C ++.
  • Aktualizacja Tika Server do obsługi ładunków wieloczęściowy / form-data.
  • Aktualizacja Tika Server CXF 2.7.8.
  • Aktualizacja Tika serwera do przyjmowania żądań ponad adresów wieloznacznych.
  • możliwość dodania do wykorzystania alternatywnego NonSequentialPDFParser.
  • Treść od AcroForms PDF jest teraz ekstrakcji.
  • Poprawiono nieprawidłowe gwiazdki od wzorca slajdów w PPT.
  • przypadki testowe w celu potwierdzenia Dodano obsługę automatycznego daty PPT i PPTX w.

Co nowego w wersji 1.4:

  • Usunięty plik testowy HTML ze źle wybranego tekstu GPL w nie.
  • Poprawki do Tika-serwer, aby umożliwić jej produkcji text / html i zawartości tekstu / XML.
  • Poprawki zostały wprowadzone do kompresorów Parser do obsługi plików g'zipped wymagających opcję decompressConcatenated ustawiony na true.
  • Rozwiązano błąd drukarski, który zapobiega przed wykryciem plików awk.

Co nowego w wersji 1.2:

  • Apache Tika 1.2 zawiera szereg ulepszeń i poprawek błędów.

Co nowego w wersji 1.0:

  • Apache Tika 1.0 zawiera szereg ulepszeń i poprawek błędów.

Co nowego w wersji 0.9.

  • To wydanie zawiera kilka ważnych poprawek i nowych funkcji

Co nowego w wersji 0.8:

  • Identyfikacja Język jest obecnie dynamicznie konfigurować, zarządzać poprzez plik konfiguracyjny załadowane ze ścieżki klasy.
  • Tika obsługuje parsowania Kanały owijając stanowiącego podstawę Rzym bibliotekę.
  • przewodnik szybkiego startu dla Tika parsowania został wniesiony.
  • Podejście do kanalizacji poprzez atrybuty XHTML został dodany.
  • Typ nośnika hierarchia informacji jest obecnie brane pod uwagę przy wyborze najlepszej parser dla danego dokumentu wejściowego.
  • Wsparcie dla parsowania popularne formaty naukowych danych, w tym netcdf i HDF4 / 5 został dodany.
  • Testy jednostkowe dla systemu Windows zostały ustalone, pozwalając TestParsers wypełnić.

Co nowego w wersji 0.7:

  • plik MP3 parsowanie poprawiła, w tym kanałów i SampleRate wydobycia i Wsparcie ID3v2. Ponadto, audio detekcja parsowanie mim był również poprawić w formacie MIDI.
  • Tika nie opiera się już na X11 jego funkcjonalność RTF analizowania.
  • wątku bezpieczny błąd w AutoDetectParser została odkryta i skierowana.
  • Aktualizacja do PDFBox 1.0.0. Nowa wersja PDFBox poprawia wydajność parsowania PDF i rozwiązuje szereg problemów ekstrakcji tekstu.

Wymagania :

  • Java 6 lub nowszy,

Podobne oprogramowanie

MissMatch
MissMatch

13 May 15

filesize.js
filesize.js

12 Apr 15

jsPDF
jsPDF

6 Jun 15

StringFormatter
StringFormatter

6 Mar 16

Inne programy z deweloperem Apache Software Foundation

Apache Abdera
Apache Abdera

13 Apr 15

Apache OODT
Apache OODT

20 Jul 15

Apache jUDDI
Apache jUDDI

10 Apr 16

Apache Commons CLI
Apache Commons CLI

20 Jul 15

Komentarze do Apache Tika

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!
Szukaj wg kategorii