Szczegóły programowe:
Może być stosowany w formie pisemnej roboty wyszukiwania (pająki), które kopalni stron internetowych dla różnych informacji.
PHPCrawl uzyskuje informację, że został skonfigurowany do pobierania i przekazuje go do bardziej wydajne aplikacje dla dalszego przetwarzania
Właściwości .
- Filtry URL i Content-Type danych
- Określ sposoby obsługi ciasteczek
- Określ sposoby obsługi plików robots.txt,
- Należy ograniczyć swoją działalność na różne sposoby,
- Wielu przetwarzania
Tryby
Co nowego w tym wydaniu:
- Poprawiono błędy:
- Linki, które są częściowo urlencoded i nie daj się odbudować częściowo kodowane poprawnie teraz /.
- Usunięto var_dump niepotrzebne debug () z PHPCrawlerRobotsTxtParser.class.php
- Serwer Wskazanie-nazwy-TLS / SSL w działa teraz poprawnie.
- & quot; bazowy href & quot;. -tags W strony internetowe się interpretować poprawnie teraz znowu
Co nowego w wersji 0.80 beta:
- Kod został całkowicie refactored, przeniesiony do PHP5-oo- Kod i dużo kodu został przepisany.
- Dodano możliwość korzystania z zastosowania wielu procesów pająk na stronie internetowej. Metoda & quot; goMultiProcessed () & quot; dodany.
- Nowa metoda przeciążać & quot; initChildProcess () & quot; dodane do inicjowania procesów dla dzieci podczas korzystania z wielu robota w trybie procesowym.
- implementet alternatywę, wewnętrzna SQLite buforowanie-mechanizm URL umożliwiający pająk bardzo duże witryny.
- Metoda & quot; setUrlCacheType () & quot; dodany.
- Nowa metoda setWorkingDirectory () dodał do definiowania lokalizację roboty tymczasowe robocza-katalog ręcznie. Nich metoda & quot; setTmpFile () & quot; jest oznaczony jako przestarzałe (nie ma funkcji już).
- Nowa metoda & quot; addContentTypeReceiveRule () & quot; zastępuje starą metodę & quot; addReceiveContentType () & rdquo;.
- Funkcja & quot; addReceiveContentType () & quot; wciąż jest obecny, ale został oznaczony jako przestarzałe.
Wymagania :
- PHP 5 lub wyższej,
- PHP z obsługą OpenSSL
Komentarze nie znaleziono