Apache Tika został opracowany jako zestaw narzędzi niskiego poziomu poszukiwania zawartość wewnątrz innych plików.
Tika nie wiele zrobić na własną rękę jest prosta biblioteka, ale może być zintegrowana w bardziej zaawansowanych narzędzi, takich jak wyszukiwarki, cyfrowych systemów zarządzania aktywami lub systemów redakcyjnych, aby zapewnić w pełni funkcjonalny system wyszukiwania-file.
Biblioteka może uzyskać dostęp tylko plik nagłówka dla szybkiego ogólnej informacji o pliku, czy może pójść naprawdę głęboko i szukać nawet w ciele pliku, dla różnych typów danych, w formacie tekstowym lub binarnym.
Szeroka gama typów plików są obsługiwane i Tika mogą być również wykorzystywane w innych językach programowania, dzięki serii opraw zewnętrznych i opakowania.
Co nowego w tym wydaniu :
- To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.
Co nowego w wersji 1.8:
- To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.
Co nowego w wersji 1.7:
- To wydanie zawiera poprawki błędów i nowych funkcji, w tym nowy Tesseract OCR Parser; nowy parser GDAL; więcej obsługiwanych formatów oraz ogólną poprawę stabilności Tika.
Co nowego w wersji 1.6:
- To wydanie zawiera poprawki błędów i nowe funkcje, w tym nowe tłumaczenie API, więcej obsługiwanych formatów oraz ogólna poprawa stabilności Tika.
Co nowego w wersji 1.5.
- Naprawiono błąd w obsłudze wbudowanego przetwarzania plików w formacie PDF
- Dodane SourceCodeParser wspierać java, pliki, Groovy, C ++.
- Aktualizacja Tika Server do obsługi ładunków wieloczęściowy / form-data.
- Aktualizacja Tika Server CXF 2.7.8.
- Aktualizacja Tika serwera do przyjmowania żądań ponad adresów wieloznacznych.
- możliwość dodania do wykorzystania alternatywnego NonSequentialPDFParser.
- Treść od AcroForms PDF jest teraz ekstrakcji.
- Poprawiono nieprawidłowe gwiazdki od wzorca slajdów w PPT.
- przypadki testowe w celu potwierdzenia Dodano obsługę automatycznego daty PPT i PPTX w.
Co nowego w wersji 1.4:
- Usunięty plik testowy HTML ze źle wybranego tekstu GPL w nie.
- Poprawki do Tika-serwer, aby umożliwić jej produkcji text / html i zawartości tekstu / XML.
- Poprawki zostały wprowadzone do kompresorów Parser do obsługi plików g'zipped wymagających opcję decompressConcatenated ustawiony na true.
- Rozwiązano błąd drukarski, który zapobiega przed wykryciem plików awk.
Co nowego w wersji 1.2:
- Apache Tika 1.2 zawiera szereg ulepszeń i poprawek błędów.
Co nowego w wersji 1.0:
- Apache Tika 1.0 zawiera szereg ulepszeń i poprawek błędów.
Co nowego w wersji 0.9.
- To wydanie zawiera kilka ważnych poprawek i nowych funkcji
Co nowego w wersji 0.8:
- Identyfikacja Język jest obecnie dynamicznie konfigurować, zarządzać poprzez plik konfiguracyjny załadowane ze ścieżki klasy.
- Tika obsługuje parsowania Kanały owijając stanowiącego podstawę Rzym bibliotekę.
- przewodnik szybkiego startu dla Tika parsowania został wniesiony.
- Podejście do kanalizacji poprzez atrybuty XHTML został dodany.
- Typ nośnika hierarchia informacji jest obecnie brane pod uwagę przy wyborze najlepszej parser dla danego dokumentu wejściowego.
- Wsparcie dla parsowania popularne formaty naukowych danych, w tym netcdf i HDF4 / 5 został dodany.
- Testy jednostkowe dla systemu Windows zostały ustalone, pozwalając TestParsers wypełnić.
Co nowego w wersji 0.7:
- plik MP3 parsowanie poprawiła, w tym kanałów i SampleRate wydobycia i Wsparcie ID3v2. Ponadto, audio detekcja parsowanie mim był również poprawić w formacie MIDI.
- Tika nie opiera się już na X11 jego funkcjonalność RTF analizowania.
- wątku bezpieczny błąd w AutoDetectParser została odkryta i skierowana.
- Aktualizacja do PDFBox 1.0.0. Nowa wersja PDFBox poprawia wydajność parsowania PDF i rozwiązuje szereg problemów ekstrakcji tekstu.
Wymagania :
- Java 6 lub nowszy,
Komentarze nie znaleziono