Piękny projekt Zupa jest parser Python HTML / XML przeznaczony do szybkich projektów realizacji procesów, takich jak ekran-skrobanie. Trzy funkcje sprawiają, że potężne:
Piękny Zupa nie dusić, jeśli dasz mu złe znaczników. To daje drzewo parsującej sprawia, że mniej więcej tyle samo sensu co oryginalnego dokumentu. Zazwyczaj jest to wystarczająco dobre, aby zebrać potrzebne dane i uciekać.
Piękny Zupa zapewnia kilka prostych metod i idiomów pythonic do nawigacji, wyszukiwania i modyfikowania drzewa parsującej: zestaw narzędzi do prosektorium dokument i wydobywania tego, co trzeba. Nie musisz utworzyć własny parser dla każdej aplikacji.
Piękny Zupa automatycznie konwertuje przychodzące dokumenty do Unicode i dokumentów wychodzących na UTF-8. Nie musisz myśleć o kodowaniu, chyba że dokument nie określa kodowania i piękne Zupa nie wykryje jedną. Następnie wystarczy podać oryginalny kodowanie.
Piękny Zupa analizuje wszystko, co dać, i robi rzeczy Przechodzenie drzewa dla Ciebie. Można powiedzieć, że "Znajdź wszystkie linki" lub "Znajdź wszystkie ogniwa klasy externalLink" lub "Znajdź wszystkie linki, których adresy URL pasuje" foo.com "lub" Znajdź tabeli pozycji, że ma pogrubiony tekst, a potem dać mi, że tekst ".
Cenne dane, które kiedyś było zamknięte w źle zaprojektowanych stron internetowych jest teraz w zasięgu Twojej ręki. . Projekty, które miały godzin podjąć tylko kilka minut z pięknym Zupa
Wymagania :
- Python
Komentarze nie znaleziono