Apache Nutch

Screenshot Software:
Apache Nutch
Szczegóły programowe:
Wersja: 2.3 Aktualizowane
Filmu: 17 Jul 15
Wywoływacz: Sami Siren
Licencja: Wolny
Popularność: 12

Rating: 1.0/5 (Total Votes: 2)

Projekt Apache Nutch jest open source, skalowalne, bardzo rozszerzalny i wolne oprogramowanie oparte na sieci Web gąsienicowy, który opiera się na Apache Lucene (wersja Java) biblioteki.
Dodaje specyfiki internetowych, takich jak robota, bazy danych Link-milimetrowym, analizatorów składni dla HTML i innych formatów dokumentów, itp został on opracowany i dystrybuowane przez Apache Foundation, to dwa oddzielne oddziały.
Będąc modułowe i podłączany, Apache Nutch ma swoje korzyści, zapewniając rozszerzalne interfejsy, takie jak analizy, indeksowania i ScoringFilter dla implementacji niestandardowych, takich jak Apache Tika do parsowania.
Ponadto Apache Nutch jest zaprojektowany do pracy na jednym komputerze, ale to jest silniejsze, gdy działa w klastrze Hadoop. Pluggable indeksowania istnieje dla Elastic Search, Apache Solr, etc

Co nowego w tym wydaniu:.

  • nutch-1779 Zastosuj formatowanie kodu (lewismc)
  • nutch-1907 Nieprawidłowe wyjście outlinks do hostów w ciągu HostDbUpdateReducer (lewismc)
  • nutch-+1.856 webpage.avsc dokumentów i host.avsc (lewismc)
  • nutch-jedna tysięcy osiemset trzydzieści cztery GeneratorMapper zachowanie zależy od poziomu dziennika (Gerhard Gossen poprzez snagel)
  • nutch 1899. Aktualizacja restlet lib, aby zapobiec awarii budowlanej (Talat)
  • nutch-jedno tysiące siedemset dziewięćdziesiąt siedem usunąć nieużywane Pakiet oanhtml (Saurabh Chhajed poprzez snagel)
  • nutch-1888 Określ HTMLMapper do wykorzystania w TikaParser (Halil Simsek poprzez jnioche)
  • nutch-jeden tysiące osiemset dziewięćdziesiąt siedem Łatwiejsze debugowanie błędów XML wtyczki (Markus)
  • nutch-jedna tysiąc osiemset dwadzieścia trzy Upgrade do elasticsearch 1.4.1 (Phu Kieu, Markus, lewismc)
  • nutch-1.829 Generator: w stanie odróżnić prawdziwe błędy (Mathieu Bouchard, jnioche, snagel)
  • nutch-jeden tysiące siedemset siedemdziesiąt osiem Generator nie zalogowaniu liczbę adresów URL w partii poprawnie (jnioche poprzez snagel)
  • nutch-1877 Filtr URL przyrostek łańcucha zapytania ignorować domyślnie (Markus poprzez snagel)
  • nutch-jedna tysiąc osiemset dwadzieścia pięć protokół HTTP może zawiesić dla pewnych stron internetowych (Phu Kieu poprzez snagel)
  • nutch-jeden tysięcy czterysta osiemdziesięciutrzech Nie można indeksować system plików z wtyczki protokołu-pliku (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • nutch-jeden tysiąc osiemset osiemdziesiąt pięciu plik protokołu należy traktować dowiązania symboliczne jak przekierowań (Mengying Wang, snagel)
  • nutch-1880 URLUtil nie należy dodać dodatkowe ukośniki w adresach URL plików (snagel)
  • nutch-jeden tysiące osiemset siedemdziesiąt dziewięć Regex URL normalizer należy usunąć wiele ukośniki po pliku: protokół (snagel)
  • nutch-tysiące osiemset dwadzieścia usunąć pola & quot; oryg & quot; które powiela & quot; id & quot; (lewismc, snagel)
  • nutch-jeden tysiąc osiemset czterdzieści trzy Upgrade do Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
  • nutch-jeden tysiące osiemset osiemdziesiąt trzy bin / indeksowania: funkcja zastosowanie do uruchomienia bin / siatkowe i sprawdzić wartość wyjścia (snagel)
  • nutch-jeden tysiąc osiemset osiemdziesiątdwa docelowej Mrówka Zaćmienie dodać ścieżkę wyjścia do src / testu (snagel)
  • nutch-1827 Port nutch-1467 i nutch-jeden tysięcy pięćset sześćdziesiąt jedna z 2.x (snagel)
  • nutch-jeden tysięcy osiemset siedemdziesięciusześć Upgrade do Gmin gąsienicowe 0,5 (jnioche)
  • nutch-1.866 celem mrówka zaćmienie nie powinien usuwać czas pracy (nimafl poprzez lewismc)
  • nutch-jeden tysiąc osiemset pięćdziesiąt dziewięciu Bądź Nutch portu webapp konfigurowalne (Nima Falaki poprzez lewismc)
  • nutch-1848 Bug w DashboardPage.html instancji licznika (Nima Falaki poprzez lewismc)
  • nutch-841 Tworzenie Wicket oparte Web Application nUtCh (Fjodor Vershinin poprzez lewismc)
  • nutch-jeden tysięcy osiemset trzydzieści dwa Bądź pracy nutch bez indekser (mattmann poprzez lewismc)
  • nutch-+1840 funkcja opisać SolrIndexWriter nie jest poprawne (Kaveh minooie poprzez jnioche)
  • nutch-jeden tysiąc osiemset trzydzieści siedem Upgrade do Tika 1.6 (lewismc)
  • nutch-1.829 Generator: w stanie odróżnić prawdziwe błędy (Mathieu Bouchard poprzez jnioche)
  • nutch-jedna tysiące osiemset dwadzieścia osiem bin / indeksowania: niewłaściwa obsługa błędów siatkowe (Mathieu Bouchard poprzez jnioche)
  • nutch-1693 TextMD5Signature obliczane na zawartości tekstowej (Tien Nguyen Manh Markus poprzez snagel)
  • nutch-1.409 usuń przestarzałe właściwości db. {domyślne, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle poprzez snagel)
  • nutch-1.819 batchId w GeneratorJob (Fjodor Vershinin poprzez lewismc)
  • nutch-+1.708 wykorzystanie sam identyfikator, gdy indeksowanie i usuwanie przekierowań (snagel)
  • nutch-1817 Usuń pom.xml od źródła (jnioche)
  • nutch-1811 bin / nutch JUnit używać JUnit 4 testową androidów (snagel)
  • nutch-1776 Zaloguj błędna ścieżka pliku plugin.folder (Diaa poprzez snagel)
  • nutch-jeden tysiące pięćset sześćdziesiąt sześć bin / nutch aby umożliwić białe znaki w ścieżkach (tejasp, snagel)
  • nutch-1605 detektor typ MIME rozpoznaje xlsx jak plik zip (snagel)
  • nutch-385 Poprawić opis konfiguracji wątków związanych z modułem pobierania (jnioche, Lufeng)
  • nutch-jeden tysiące siedemset dziewięćdziesiąt osiem skrypt Crawl niestawienie polecenie Strona poprawnie (Aaron Bedward poprzez jnioche)
  • nutch-jedno tysiąc siedemset sześćdziesiąt dziewięć REST API refaktoryzacji (Fjodor Vershinin poprzez lewismc)
  • nutch-jeden tysiąc sześćset trzydzieści trzech slf4j jest przez Hadoop i nie powinny być zawarte w pliku pracy (Kaveh minooie poprzez jnioche)
  • nutch-1.787 aktualizacja i kompletne Strona przegląd API doc (snagel)
  • nutch-jeden tysiąc siedemset sześćdziesięciusiedem usunięcia specjalnego traktowania & quot; params & quot; w stosunku linków (snagel)
  • nutch-1718 przedefiniować http.robots.agent jako & quot; dodatkowych nazw agenta & quot; (snagel, Tejas Patil, Daniel Kugel)
  • nutch-jeden tysięcy siedemset dziewięćdziesięciusześciu Zadbać Góra obiektów budowniczych są używane jako przeciwstawić pustych konstruktorów (snagel poprzez lewismc)
  • nutch-+1,59 tysięcy [SECURITY] Usterka wtrysku Rama w opublikowanym Javadoc (jnioche)
  • nutch-1736 Nie można pobrać strony, jeśli zawiera nagłówka odpowiedzi HTTP Transfer-Encoding: pakietowego (ysc poprzez jnioche)
  • nutch-1782 NodeWalker wrócić bieżący węzeł (markus)
  • nutch-1781 Aktualizacja gora - * - mapping.xml i gora.proeprties odzwierciedlać Gora 0,4 (lewismc)
  • nutch-+1768 Upgrade do ElasticSearch 1.1.0 (jnioche)
  • nutch-1634 -stats readdb pokazuje wynik dwukrotnie (Kaveh minooie poprzez jnioche)
  • nutch-1780 TTL i gc_grace_seconds atrybuty pliku brakuje gora-Cassandra-mapping.xml (Kaveh minooie poprzez lewismc)
  • nutch-jeden tysięcy sześćset siedemdziesiąt sześć Dodaj szczątkową obsługę SSL do protokołu HTTP (jnioche Markus)
  • nutch-1674 Filtr Wykorzystanie batchId włączyć skanowanie (GÓRA-119) dla Fetch, składni, aktualizacja, indeks (Tien Nguyen Manh i Alparslan Avci poprzez jnioche)
  • nutch-1714 Upgrade do Gora 0,4 (Alparslan Avci poprzez jnioche)
  • nutch-1.752 zasady robots.txt Cache w protokole: host: port (snagel)
  • nutch-1613 Limity czasu w protokole-httpclient podczas przemierzania sam gospodarz z & gt; 2 Odpowiedź (brian44 poprzez jnioche)
  • nutch-jeden tysiące sto osiemdziesiąt dwie fetcher zalogować hung wątki (snagel)
  • nutch-1.618 Włącz wykonywanie spekulacyjny się do pobierania (Talat)
  • nutch-1.657 ORIGINAL_CHAR_ENCODING i CHAR_ENCODING_FOR_CONVERSION nigdy się w HTMLParser (Talat)
  • reduktor nutch-1725 CleaningJob za nie popełnić skasowanych dokumentów. (ilhamikalkan poprzez Talat)
  • nutch-jeden tysiąc siedemset dwadzieścia osiem wtyczki indeksowania-solr nie usuwać dokumenty z Solr (ilhamikalkan poprzez Talat)
  • nutch-jeden tysięcy siedemset pięćdziesięciutrzy Eclipse Problem dependecy dla 2.x (Talat)
  • nutch-1720 linie dwóch egzemplarzach w HttpBase.java (Walter Tietze poprzez jnioche)
  • nutch-797 URL, gdy nie są odpowiednio skonstruowane docelowy związek zaczyna się od & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab poprzez snagel)
  • nutch-1759 Upgrade do Gmin gąsienicowe 0,4 (jnioche)
  • nutch-1700 Zdjąć Kod przestarzałe w src / plugin / creativecommons / build.xml (lewismc)
  • nutch-jeden tysięcy siedemset sześćdziesięciujeden skrypt Crawl nie znajdzie pliku zadania, jeśli nie rozpoczęła się od wewnątrz bin dir (David Hosking, jnioche)
  • nutch-+1603 parser pocztowy narzeka obcięty plik PDF (snagel poprzez lewismc)
  • nutch-jeden tysiąc siedemset czterdziestu trzy parsechecker pokazać outlinks (snagel)
  • nutch-+1.732 Lepsze linii cmd parsowania dla NutchServer (Fjodor Vershinin poprzez lewismc)
  • nutch-1751 Puste kotwice nie powinny indeksu (Sertac Turkel poprzez lewismc)
  • nutch-1733 parse-html wspierać HTML5 definicje charset (snagel)
  • nutch-jeden tysiąc siedemset dwadzieścia siedem Konfigurowalny długość TLD (Sertac Turkel poprzez lewismc)
  • nutch-1738 Expose liczbę adresów generowanych na partię w GeneratorJob (Talat UYARER poprzez ewismc)
  • nutch-+1.671 indexchecker dodać strawienia pole (snagel, Lufeng)
  • nutch-1.645 Junit Przypadek Testowy Adaptive Fetch zajęć (Yasin Kilinc, Lufeng, Sertac Urkel poprzez snagel)
  • nutch-1478 analizowania-metatagi i wtyczki metadanych indeksu serii 2.x dla nutch (Kiran, Nguyen Anh Tien, Talat UYARER Vangelis Karvounis poprzez lewismc)
  • nutch-jeden tysięcy siedemset dwadzieścia dziewięć Upgrade do Tika 1.5 (jnioche)
  • nutch-jeden tysiąc siedemset dwadzieściajeden nowszą wersję robota wspólna 0,3 (tejasp)
  • nutch-1719 DomainStatistics nie w 2.x, ponieważ URL nie jest unreversed (Gerhard Gossen poprzez lewismc)

  • wersje
  • nutch-1253 Incompatable neko i Xerces (snagel, lewismc, Talat UYARER)
  • nutch-1715 RobotRulesParser dodaje dodatkowe "*" do nazwy robotów (tejasp)
  • nutch-356 Plugin repozytorium pamięci podręcznej może doprowadzić do wycieku pamięci (Enrico Triolo, Dogacan Guney poprzez Markus)
  • nutch-jeden tysięcy sto sześćdziesięciucztery Napisz testy JUnit dla protokołu HTTP (Sertac Turkel poprzez tejasp)
  • nutch-1710 Dodaj do rejestrowania gora Pakiet log4j.properties (lewismc)
  • nutch-1655 Plugin Indexer Elastic Search (Talat UYARER poprzez lewismc)
  • nutch-jeden tysięcy sześćset dziewięćdziesiąt dziewięciu Tika Parser - Przetwarza zdjęcia Bug (Mehmet Zahid Yuzuguldu, snagel poprzez lewismc)
  • nutch-jedna tysięcy pięćset sześćdziesiąt osiem portów plug indeksowania architektury na 2.x (Talat UYARER poprzez lewismc)
  • inlinks nutch-1672 są dodawane dwukrotnie w DbUpdateReducer (Tien Nguyen Manh poprzez lewismc)
  • nutch-jedno tysiące sześćset sześćdziesiąt siedem updatedb zawsze ignorować batchId (Tien Nguyen Manh poprzez lewismc)
  • nutch-+1695 NutchDocument.toString () (Markus poprzez lewismc)
  • nutch-jedna tysiąc sześćset dziewięćdziesiąt sześć Włącz użycia (Góra) Zależności zdjęcie (lewismc)
  • nutch-1681 in URLUtil.java, metoda toUNICODE nie działa prawidłowo (A

Komentarze do Apache Nutch

Komentarze nie znaleziono
Dodaj komentarz
Włącz zdjęć!