Apache Nutch został zbudowany na Apache Lucene , potężny silnik wyszukiwania Java.
Deweloperzy nutch zmodyfikowany kodzie Lucene, przekształcenie danych-agnostykiem Lucene codebase do projektu dedykowanego do wyszukiwania danych w Internecie specjalnie.
Technologia ta może być używana do wyszukiwania na własnych stronach internetowych, jak wbudowany serwer wyszukiwania lub czołgać po sieci w poszukiwaniu danych do analizowania i drapać w bazie danych.
Nutch można uruchomić na jednym komputerze, ale działa lepiej w Hadoop klastrów.
Różne dodatki są dostępne dla rozszerza spektrum wykorzystania
Co nowego w tym wydaniu:.
- Upewnij się, duplikaty nie istnieją tagi w mikroformatem-reltag tag set.
- lepiej wycofać wartość dla pola daty.
- Pozbądź się bał.
- Aktualizacja do Hadoop 1.2.0.
- Aktualizacja do Tika 1.3.
Co nowego w wersji 2.0.
- Zmiana nazwy HTMLParseFilter do ParseFilter
- Usuń pozostałe roboty IP kod / blokowanie w lib-HTTP.
- Port do rejestrowania SLF4J.
- parser zewnętrzny obsługuje atrybut kodowania.
- ustawienia konfiguracyjne Ivy nie obejmują Górę.
- wtryskiwacza należy dodać metadane przed wywołaniem injectedScore.
- Port Nutch odniesienia do Nutchbase.
- Dodaj parsującej-html z powrotem.
- MoreIndexingFilter brakujący format daty.
- Limit czasu dla parsera.
- Spróbuj ponownie przerwa w dniu przeszukiwania jest ustawiony na 0.
- Generowanie wyjście dziennika solr indekser i dedup.
- Ulepszona NutchConfiguration.
- SolrDeleteDuplicates musi klonować obiekty SolrRecord.
- Native libs Hadoop niedostępny przez Maven.
- oddzielnych środowisk kompilacji i środowiska wykonawczego.
Co nowego w wersji 1.5:
- To wydanie zawiera kilka ulepszeń, w tym modernizacje kilku głównych komponentów, w tym Tika 1.1 i Hadoop 1.0.0, ulepszenia LinkRank i elementy WebGraph jak również liczba nowych wtyczek obejmujących czarnych list, filtrowanie i analizę składniową aby wymienić tylko kilka.
Co nowego w wersji 1.4.
- Dodane SOLR 4x (trunk) przykład schematu
- Dodane '/ czas pracy "do svn ignorować.
- application / xhtml + xml powinien być włączony plugin.xml z parsowania-html; umożliwić wielu typów MIME dla plugin.xml.
- Poprawiono parse-tika i analizować-html używać względnej uchwały URL za RFC-3986.
- Aktualizacja do Tika 0,10. UWAGA:. Nowy RTF Tika parser mogą zignorować więcej tekstu w dokumentach zniekształcone niż wcześniej - patrz Tika-748 szczegóły
- cele Dodane Sonar do Ant build.xml.
- Ulepszony SolrJ do wersji 3.4.0.
- cel Ant PMD jest uszkodzony.
- Ulepszony schemat SOLR do wersji 1.4.
Co nowego w wersji 1.3:
- To wydanie zawiera kilka ulepszeń (wsparcie ulepszona RSS parsowania, mocniej Integracja z Apache Tika, zewnętrznego wsparcia analizowania, lepszej identyfikacji języka i rząd wielkości mniejsza źródłowego wydania archiwum -!. tylko około 2 MB),
Co nowego w wersji 1.2.
- Strona główna-więcej wtyczki konfigurowalny
- Możliwość konfiguracji protokołu plik katalog nadrzędny indeksowania.
- Limit czasu dla parsera.
- Strona jest wciąż Lucene marką.
- Spróbuj ponownie przerwa w dniu przeszukiwania jest ustawiony na 0.
Co nowego w wersji 1.0.
- Możliwość parserach wrócić wielu obiektów analizować
- Usunięto zbędne commons-logging słoik z wtyczki ontologii.
- Bug w SegmentReader powoduje nieskończoną pętlę.
- Filtr Punktacja powinny rozpowszechniać wynik wszystkich outlinks na raz.
- Zmniejszenie liczby ostrzeżeń nutch rdzenia.
Komentarze nie znaleziono