PDFMiner działa najpierw biorąc zawartości pliku PDF i konwersja do formatu bardziej plastyczny, takich jak HTML.
Stamtąd, tekst i dane są wyodrębnione i analizowane, a na podstawie predefiniowanych reguł sortowania i prezentowane użytkownikowi lub wysyłanych do innych, bardziej zaawansowanych narzędzi do analizy danych.
Jeśli analiza tekstu nie jest to, co zamierzasz zrobić, można łatwo skonfigurować PDFMiner po prostu wyodrębnić lub po prostu przekształcić dane w formacie PDF, jak również.
Jego funkcje mogą pracować niezależnie od siebie i umożliwiają szersze wykorzystanie widma dzięki nim
Opis .
- 100% Python Kod nie C lub C ++
- analizować PDF
- Analizuj PDF
- Konwersja plików PDF do innych formatów,
- ToC wyciąg
- Pobierz tylko oznaczone zawartości
- Wsparcie dla wielu funkcji text PDF
- Wsparcie dla wielu typów czcionek wewnątrz plików PDF
- Szyfrowanie Basic (RC4) wsparcie
Co nowego w tym wydaniu:
- Metoda PDFDocument.initialize () jest usuwany i nie są już potrzebne , Hasło jest podane jako argument konstruktora PDFDocument.
Co nowego w wersji 20110515:.
- Zmiany API
- Klasa LTPolygon została zmieniona na LTCurve.
Co nowego w wersji 20110227:.
- Poprawki i udoskonalenia analizy układu
Co nowego w wersji 20101226:.
- Kilka poprawek i drobnych usprawnień,
Co nowego w wersji 20101017:.
- Kilka poprawek i niewielka poprawa
Co nowego w wersji 20100424:.
- Poprawki i drobne ulepszenia w ekstrakcji TOC
Wymagania :
- Python 2.4 do 3
Ograniczenia .
- PDFMiner może być 20 razy wolniej niż C ++ C / - oprogramowanie oparte
Komentarze nie znaleziono