Szczegóły programowe:
parser HTML jest Jerich open source, prosty, ale potężny biblioteki napisany całkowicie w Javie.
To pozwala programistom do manipulowania i analizy części dokumentu HTML.
Jerich zawiera również parser HTML wysokiej klasy funkcje formularza HTML manipulacji
Co nowego w tym wydaniu:.
- Poprawione błędy:
- [3581664] CharacterReference.decode () nie dekodowania elementów zawierających cyfry - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
- [3311286] SourceCompactor nie respektuje TEXTAREA
- [3519131] wyjście Renderer nieprawidłowe, gdy zbudowane z obiektu Element.
- [3538829] wyjście Renderer dekoracji czcionki na granicach bloków nieprawidłowe.
- Segment.getAllStartTags (nazwa) i Segment.getFirstElement (nazwa) nie działa, jeśli argument zawiera dużych liter.
- Koniec ogranicznik wspólnego tag serwera wewnątrz zbiegłego tag serwera jest błędnie rozpoznawane jako ogranicznika końcowego uciekł tagu.
- Zmiany, które mogłyby mieć wpływ na zachowanie się istniejące programy:
- [3427073] Segment.getStyleURISegments () zawiera teraz pierwiastka stylu, jak również wartości atrybutów stylu.
- [3427927] Segment.getURIAttributes () zawiera teraz atrybuty archiwalnych elementów obiektu oraz apletów.
- Komentarze nie są już uznawane wewnątrz elementów skryptowych podczas pełni sekwencyjnym parsowania. Wcześniej były one uznawane za zgodność z większością przeglądarek, ale nowoczesny zachowanie przeglądarka nie zmieniło.
- Zmieniono poziom rejestrowania wszystkich błędów parsowania z INFO do błędu, a poziom log Source.fullSequentialParse () wiadomości doradczą WARN INFO. Poprzednie poziomy dał wiadomość Doradczego większą surowość niż błędy składni, zapobieganie systemy logowania z ukrycia wiadomość doradczą pokazując błędy analizowania. Ostrzeżenia kodowania znaków pozostają na niezmienionym poziomie WARN poziom.
- Zmienione zachowanie metody Renderer.renderHyperlinkURL (StartTag), tak aby względne adresy URL nie są renderowane.
- Zmieniono zachowanie Rendererze tak, że zawartość pierwiastków hiperlink nie stanie się, gdy jest on taki sam, jak adres URL hiperłącza ignorowania http. // Prefix / lub przyrostek
- EndTag.tidy () usuwa teraz spacje przed uchwytem zamykania.
- Dodane Źródło (Plik) Konstruktor.
- Metoda Dodane OutputDocument.getSegment ().
- Dodane OutputDocument.remove (int zacząć, int koniec) metody.
- Metoda Dodane Renderer.setHRLineLength ().
- Dodane RenderToText.jsp próbka webapp.
- Metoda Dodane Segment.getRowColumnVector ().
- wykrywanie kodowania teraz ignoruje wspólne kodowanie określone w meta tagi, które mają rozmiar jednostki kod niezgodny ze wstępnym kodowaniem.
- Aktualizacja do następujących interfejsów API rejestratora: SLF4J-api-1.7.2, log4j-1.2.17
Co nowego w wersji 3.1:
- Poprawione błędy:
- [2793556] Nieskończona pętla na Segment.getAllStartTags ()
- Pętla nieskończona na Segment.getAllElements ()
- Segment.getFirst * Metody powrócił segmenty poza segmentem ograniczenia.
- Segment.getAllElements nie zwróci wszystkie elementy zamknięte w pewnych okolicznościach.
- Poprawiono błędy dokumentacji w metodach Segment.getAllElements.
- Klasa Dodane StreamedSource.
- Zmiany, które mogłyby mieć wpływ na zachowanie się istniejące programy:
- Zmienione ParseText z klasy do współpracy.
- Segment.getNodeIterator () zwraca teraz cechy charakteru jako oddzielne węzły.
- Dodane tag metody wyszukiwania oparte na wyrażeniach regularnych wartości atrybutu.
- Dodane tag metody wyszukiwania w oparciu o atrybut klasy HTML.
- Dodane statyczną własnością Source.LegacyNodeIteratorCompatabilityMode czasowo przywrócić Segment.getNodeIterator () funkcji do poprzednich wersji.
- Usunięto char [] na podstawie metody wyszukiwania w ParseText.
- Dodane CharacterReference.appendCharTo (Appendable) metody.
- Dodane OutputDocument (segment) Konstruktor.
- Przykładowy program Dodane StreamedSourceCopy.
Metody
Co nowego w wersji 3.0:
- Poprawione błędy:
- referencje znakowe Unicode znaków uzupełniających stanowiących nie zostały prawidłowo odkodowany na parach jednostkowych UTF-16 kod.
- [2188446] Element.getDepth () i Element.getParentElement () wrócił niepoprawne wyniki, jeśli nazywa się parsowania na trybie na żądanie.
- Komentarze są obecnie uznawane wewnątrz & lt; Skrypt & gt; elementy.
- API zmiany, które nie są wstecznie kompatybilne:
- Zmieniono nazwę pakietu do net.htmlparser.jericho
- Wartości atrybutów muszą być teraz String zamiast CharSequence.
- Usunięto wszystkie przestarzałe metody / klasy od poprzednich wersji.
- Wszystko znaleźć * metody zastąpiona uzyskać * metod w celu zastosowania spójnej konwencji nazewnictwa we wszystkich metod wyszukiwania znacznik.
- Tag, Element i HTMLElements klasy nie implementować interfejs HTMLElementName. (Zamiast używać import statyczny)
- Wszystkie kolekcje teraz stongly wpisane przy użyciu leków generycznych.
- Zmienione FormControlOutputStyle klasy do wyliczenia.
- Zmienione klasy FormControlType do wyliczenia.
- Dodane CharStreamSource.appendTo (Appendable) metody.
- Metoda Dodane Source.iterator ().
- Źródło teraz realizuje iterable.
- Wewnętrznie używa StringBuilder dla lepszej wydajności.
- Dodane Source.getNextStartTag (StartTagType) metody.
- Dodane Source.getNextEndTag (EndTagType) metody.
- Dodane Source.getPreviousStartTag (StartTagType) metody.
- Dodane Source.getPreviousEndTag (EndTagType) metody.
- Dodane Segment.getAllStartTags (StartTagType) metody.
- Dodane wszystkie Segment.getFirst * metody.
- Dodane Renderer.renderHyperlinkURL (StartTag) metody.
- Przykładowy program Dodane HTMLSanitiser.
- Aktualizacja do SLF4J-api-1.5.6
Wymagania :
- Java 2 Standard Edition Runtime Environment,
Komentarze nie znaleziono