Oprogramowanie Methabot jest zoptymalizowane prędkości, skryptów i wysoce konfigurowalny www, ftp i lokalne gąsienicowy system plików. Obsługuje parsowanie skryptów typu pliku, szeroką gamę opcji dostosowywania i łatwo skonfigurować tak, aby pasowały czyjegoś potrzeb.
Przy korzystaniu z systemu modułu i języka skryptowego, użytkownicy są w stanie podjąć pełną lub częściową kontrolę procesu indeksowania i zdecydować, jednak Methabot powinien przechowywać dane internetowe, statystyki i wiele więcej.
Wystarczy, uruchamiając Methabot z wiersza poleceń możesz skonfigurować niestandardowe typy MIME, filtrowanie wyrażeń, zachowanie, i wiele więcej, więc nie musisz się Scripter
Opis :
- Jest szybki, zaprojektowany od podstaw i speed-up z myślą o optymalizacji.
- Scriptable przez Javascript w E4X
- Filtrowanie zdefiniowany przez użytkownika typ pliku (w zależności od typu MIME, rozszerzenia pliku lub wyrażenia UMEX)
- Wielowątkowym
- Wysoce konfigurowalny z linii poleceń
- Extensible system modułowy, wspieranie parser danych i niestandardowych filtrów.
- Prosty, ale potężny filtrowanie adresów URL przez UMEX.
- Automatyczne pobieranie
- Obsługa automatyczną obsługę plików cookie, gdy uruchomiony przez HTTP
- Solidny, odporny na uszkodzenia sieci
- Przenośny, testowany z powodzeniem na 32-bitowy / 64-bitowy Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP i Mac OS X. W przypadku pracy na prawie każdej uniksowego systemu operacyjnego.
Co nowego w tym wydaniu:
- Bugfix, gdy zewnętrzna-peek był używany był limit głębokości zawiedli.
- Pamięć
- dynamiczny url nie jest już ustawiony do wyszukiwania domyślnie, ponieważ spowalnia przeszukiwania znacznie
- Budowanie systemu tworzy teraz i instaluje pliki nagłówkowe, że niektóre moduły mogą korzystać podczas łączenia
- Narzędzie meta-config dodane
- lmm_mysql przeniesiony poza tym pakiecie
Poprawki oczyszczania wykorzystanie
Opcja
Co nowego w wersji 1.5.0:
- Zmiany i nowe funkcje:
- Wsparcie dla czytania z stdin bufor intial
- - opcje linii poleceń typu i --base-url dodał, wraz z opcją initial_filetype w plikach konfiguracyjnych
- Ciasteczka i informacji DNS jest teraz właściwie podzielone pomiędzy pracowników podczas pracy wielowątkowej
- dodano kilka przykładów wykorzystania poleceń --examples
- Duże ulepszenia komunikacji między nici, teraz szybsze i bardziej zorganizowane,
- Dodano wsparcie dla funkcji 'init' do skryptów. Przeczytaj więcej o funkcji startowych na http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha nie zamarza podczas wykonywania wielu jednoczesnych żądań HTTP HEAD więcej. Powodem był zamarza w libcurl błąd, który jest już ustalona. Niektóre obejścia zostały dodane do libmetha aby zapobiec występowaniu zawiesza podczas korzystania z wersji wada libCurl również.
- Wsparcie dla starszych wersji libCurl 7.17.x i 7.16.x
- Nowe informacje są dostępne w & quot; to & quot; Przedmiotem javascript parserami, Content-Type i stanu przekazanie kodu. Czytaj więcej na http://bithack.se/projects/methabot/docs/e4x/this.html
- - opcja gadatliwy zastąpiony --silent, ponieważ tryb gadatliwy jest teraz domyślnie
- początkowe wsparcie dla FTP i indeksowania Opcja ftp_dir_url robot
- Głębokość ograniczającym jest teraz gąsienicowy specyficzne
- Dodano opcje wiersza polecenia --crawler i --filetype
- Wsparcie dla rozszerzenia i nadrzędne już zdefiniowanych typów plików i roboty
- Wsparcie dla słowa kluczowego kopii w plikach konfiguracyjnych
- Wsparcie dla dynamicznego przełączania aktywnego robota, to pozwala przeszukiwania różnych stron internetowych w zupełnie różny sposób w jednej sesji przeszukiwania. Czytaj więcej na temat przełączania gąsienicowe na http://bithack.se/projects/methabot/docs/crawler_switching.html
- aktualizacji do wersji 3.51 libev
- to dyrektywa w plikach konfiguracyjnych teraz pilnuje zawarte plik konfiguracyjny nie został już wcześniej załadowane, aby zapobiec to pętle i wiele definicji filetype / gąsienicowe.
- Poprawki różne Spidermonkey wywóz śmieci, libmetha nie psuje już podczas czyszczenia po sesji wielowątkowego
- Dodano dodatkowe informacje do opcji --info
- Opcja "zewnętrzny" jest już ustalona i ponownie włączone,
- Nowa opcja --spread pracownicy
- Nowa funkcja lmetha_global_setopt API libmetha () pozwala na zmianę globalnego błędu / Komunikat / ostrzeżenie reporter
- Dodano początkowe wdrożenie zestawu testów dla programistów
- Lepsze raportowanie błędów podczas ładowania plików konfiguracyjnych
- Bugfix, gdy serwer HTTP nie wrócił nagłówek Content-Type po żądaniu HEAD
- Bugfix podczas sortowania URL po wielu żądań HTTP HEAD
- Poprawka w html konwerter xml, gdy strona HTML nie miała & lt; html & gt; znacznik
- Bugfix opcja extless-url nie działa
- Bugfix, html konwerter xml nie krztusi znaków kolejności bajtów lub inny tekst przed faktycznym HTML
- Bugfix, zapobiegać libmetha z próbujesz uzyskać dostęp do adresów URL, protokołów, które nie są obsługiwane
- Bugfix podczas zamykania po błędzie.
- Bugfix, nierozwiązywalne adresy URL nie wybuchła pętli restartu po trzech prób
- Bardzo eksperymentalna i niestabilne wsparcie dla Win32, przeznaczony głównie dla programistów
- Nowe pliki konfiguracyjne:
- google.conf, aby wykonać google wyszukiwania
- youtube.conf, szukając youtube
- meta.conf, drukuje informacje takie jak meta słowa kluczowe i opis strony HTML
- title.conf, drukuje tytuł strony HTML
- ftp.conf, przeszukiwania serwerów FTP
Co nowego w wersji 1.4.1:
- Konfiguracja nie może znaleźć jsapi.h w niektórych systemach , powinno to być naprawione.
- Pliki konfiguracyjne są teraz w stanie zmienić gąsienicowe i filetype flagi, dodał "zewnętrzne" i "external_peek" opcje
- Bugfix, Methabot będzie czasami się zawiesza podczas czyszczenia pustych URL po wielokrotnym HEAD HTTP
- Naprawiono błąd, który wystąpił podczas pracy synchronicznie.
- System Budowanie to naprawić, gdy jsconfig.h nie można znaleźć.
Wymagania :
- nagłówki Spidermonkey
- cURL
Komentarze nie znaleziono