Jericho HTML Parser

Screenshot Software:
Jericho HTML Parser
Szczegóły programowe:
Wersja: 3.4
Filmu: 10 Dec 15
Wywoływacz: Martin Jericho
Licencja: Wolny
Popularność: 12

Rating: nan/5 (Total Votes: 0)

To może edytować po stronie serwera i po stronie klienta tagów, podczas odtwarzania dosłownie żadnej nierozpoznane lub nieprawidłowy kod HTML.

Zapewnia również na wysokim poziomie funkcje formularza HTML manipulacji

Cechy .

  • Obecność źle sformatowany HTML nie zakłócać parsowania reszty dokumentu, co sprawia, że ​​jest idealny do użytku z biblioteki & quot; w świecie rzeczywistym & quot; HTML dławiki innych analizatorów składni.
  • ASP, JSP, PSP, PHP i Mason tagi serwera są wyraźnie uznane przez parser. Oznacza to, że normalne HTML jest wciąż analizowany poprawnie, nawet jeśli nie są znaczniki serwera wewnątrz nich, co jest powszechne na przykład podczas dynamicznego ustawiania atrybutów.
  • Nowy strumień oparty opcja parsowania przy użyciu klasy StreamedSource, który umożliwia wydajne pamięci przetwarzanie dużych plików przy użyciu iterator zdarzeń. To jest w zasadzie alternatywą StAX z możliwością przetwarzania HTML i XML niewalidujący, a także kilka innych funkcji, niedostępnych w innych parserami streamingu.
  • W standardowej formie nie jest ani zdarzenia, ani drzewo parser oparty, ale raczej wykorzystuje połączenie prostego wyszukiwania tekstu, efektywnego rozpoznawania znaczników i pamięci podręcznej pozycji znacznika. Tekst całego dokumentu źródłowego jest najpierw ładowany do pamięci, a następnie tylko odpowiednie segmenty szukał odpowiednich znaków z każdej operacji wyszukiwania.
  • W porównaniu do parsera drzewa oparte takich jak DOM, wymagania pamięci i zasobów może być znacznie lepiej, gdyby tylko małe części dokumentu powinny być przetwarzane lub modyfikowane. Nieprawidłowe lub źle sformatowany HTML można łatwo ignorowane, w przeciwieństwie do drzew parserami podstawie którego muszą zidentyfikować każdy węzeł w dokumencie od góry do dołu.
  • W porównaniu z parsera oparciu o zdarzeniach, takie jak SAX, interfejs jest w znacznie większym stopniu i bardziej intuicyjnego i przedstawienie drzewa hierarchii element dokumentu łatwo utworzone jeśli jest to wymagane.
  • zaczynać i pozycji końcowych w dokumencie źródłowym wszystkich analizowanych segmentów są dostępne, co umożliwia modyfikację tylko w wybranych segmentach dokumentu bez konieczności rekonstrukcji całego dokumentu z drzewa.
  • Numer wiersza i kolumny z każdej pozycji w dokumencie źródłowym są łatwo dostępne.
  • Zapewnia prosty ale kompleksowy interfejs do analizy i manipulacji kontroli formularz HTML, w tym ekstrakcji i ludności wartości początkowych, a konwersji tylko do odczytu i wyświetlania danych trybów. Analiza pól formularza umożliwia również dane otrzymane od postaci, która jest przechowywana i przedstawiane w odpowiedni sposób.
  • Wbudowana funkcjonalność wyodrębnić cały tekst ze znaczników HTML, nadaje się do karmienia w tekstowym wyszukiwarki takie jak Apache Lucene.
  • Wbudowana funkcjonalność do renderowania znaczników HTML z prostego formatowania tekstu.
  • Wbudowana funkcjonalność do formatowania kodu źródłowego HTML tiret elementy w zależności od ich głębokości w hierarchii elementów dokumentu. (Kliknij tutaj demonstracji online)
  • Wbudowana funkcjonalność kompaktowej kodzie źródłowym HTML poprzez usunięcie wszystkich niepotrzebnych białych znaków.
  • Niestandardowe typy tagów można łatwo zdefiniować i zarejestrowany do uznania przez parser.

Co nowego w tym wydaniu:.

  • Dodane Źródło (Plik) Konstruktor
  • Metoda Dodany OutputDocument.getSegment ().
  • Dodane OutputDocument.remove (int zacząć, int end) metody.
  • Metoda Dodany Renderer.setHRLineLength ().
  • Dodane RenderToText.jsp próbka webapp.
  • Metoda Dodany Segment.getRowColumnVector ().
  • wykrywanie kodowania teraz ignoruje wspólne kodowanie określone w meta tagi, które mają rozmiar jednostki kod niezgodny ze wstępnym kodowaniem.

Co nowego w wersji 3.1:

  • Poprawione błędy:
  • Pętla nieskończona na Segment.getAllStartTags ()
  • Pętla nieskończona na Segment.getAllElements ()
  • Segment.getFirst * Metody powrócił segmenty poza segmentem ograniczenia.

  • metody
  • Segment.getAllElements nie zwróci wszystkie elementy zamknięte w pewnych okolicznościach.
  • Poprawiono błędy dokumentacji w metodach Segment.getAllElements.
  • Klasa Dodany StreamedSource.
  • Zmiany, które mogą mieć wpływ na zachowanie istniejących programów:
  • Zmienione ParseText z klasy do współpracy.
  • Segment.getNodeIterator () zwraca teraz odrębne cechy charakteru węzłów.
  • Dodano tag metody wyszukiwania oparte na wyrażeniach regularnych wartości atrybutu.
  • Dodano tag metody wyszukiwania w oparciu o atrybut klasy HTML.
  • Dodane statyczną własnością Source.LegacyNodeIteratorCompatabilityMode tymczasowo przywrócić Segment.getNodeIterator () funkcjonalność jak w poprzednich wersjach.
  • Usunięto char [] na bazie metody wyszukiwania w ParseText.
  • Dodane CharacterReference.appendCharTo (Appendable) metody.
  • Dodane OutputDocument (segment) Konstruktor.
  • Przykładowy program Dodany StreamedSourceCopy.

Podobne oprogramowanie

Brunch
Brunch

6 Mar 16

domReady
domReady

12 May 15

Inne programy z deweloperem Martin Jericho

Komentarze do Jericho HTML Parser

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!
Szukaj wg kategorii