Szczegóły programowe:
Sherlock Holmes jest uniwersalna wyszukiwarka, system do zbierania i indeksowania danych tekstowych (pliki tekstowe, strony internetowe, itp), zarówno lokalnie jak i przez sieć.
Opis .
- Zbiera plików za pośrednictwem protokołu HTTP lub z lokalnych plików
- Analizuje plików tekstowych, HTML, PDF i kilka innych formatów za pomocą analizatorów składni zewnętrznych (takich jak MS Word i PostScript).
- Cały system jest modułowy, więc dodając własne źródła danych lub parser jest po prostu kwestia podłączeniu modułu prawej (dobrze, zazwyczaj również pisania).
- Działa dobrze w środowisku mieszanym charset.
- uważa wielu wystąpień tego samego pliku (nawet z niewielkimi zmianami) jednego dokumentu z wielu adresów URL.
- Wszystko jest wysoce konfigurowalny. Możesz napisać reguły filtrowania w specjalnym języku, który pozwala dostosować zmiennych konfiguracyjnych w zależności od przetwarzanego dokumentu.
- Wyszukiwanie słów, zwrotów i wyrażeń logicznych,. Wyszukiwanie w nazwach plików i tekstów linków.
- Wyszukiwanie Bliskość i bliskość wagę regularnych wyszukiwania.
- Uznanie języków, łatwy integracja stemmers i synonimicznych słowników.
- Sprawdzanie pisowni w oparciu o częstotliwości słów obserwowanych w indeksowanych danych, dając do zrozumienia, że jego użytkownik może być błędny zapytania.
- Wyniki wyszukiwania obejmują kontekst w każdym dokumencie.
- skaluje do kilkudziesięciu milionów dokumentów na normalnym sprzęcie PC.
- Interfejs użytkownika (front-end) jest całkowicie oddzielony od reszty systemu, dzięki czemu można łatwo modyfikować, a także, aby umieścić wyszukiwarkę w istniejących aplikacji.
- Pobrane pliki są kompresowane i wskaźniki w celu zaoszczędzenia miejsca.
Komentarze nie znaleziono