Wiele aplikacji, które zajmują się nieuporządkowanych danych wymaga dostępu do treści tekstu z sformatowanych lub oznakowanych się dokumentów. Organizacje, które często wymagają archiwizowaniu dokumentów dostęp do zawartości tekstowej, aby dokumenty, przeszukiwać i umożliwić treści agregacji, raportowanie i analizę archiwalnych dokumentów. Szukaj i uzyskiwania aplikacji również trzeba wyodrębnić i tokenize tekst z różnych formatów plików.
Jeden standardowy mechanizm dostępu i wydobywania tekstu z dokumentów jest przez interfejs wtyczki IFilter stosowanych w wyszukiwarkach Microsoft. Istnieje kilka implementacji IFilter opracowane przez Microsoft i innych producentów, które odbywają się w wielu formatach. Standardowe lub niezawodności i jakości zależy ekstrakcji tekstu w wielu deweloperów IFilter.
Opait Filtry tekstowe to mały program narzędziowy z prostym interfejsem do iFilters, które są już zainstalowane na komputerze hosta, jak i kilku niestandardowych tekstowych filtrów do ekstrakcji, które pracują bezpośrednio z formatów plików i poprawy na implementacje domyślne IFilter.
. Interfejs wyodrębnić tekst jest przez bibliotekę klasy małej zwanych Opait.Filters który jest wliczone w cenę i mogą być używane do integracji filtrów tekstowych w aplikacji .NET
Wymagania :
.NET Framework 4.5
Komentarze nie znaleziono