Индексирование Web-узлов

       

Нормализатор


Нормализатор “причесывает” поток слов, поступающий от разделителя, выполняя такие функции, как перевод всех символов в один и тот же регистр, удален знаков пунктуации и удаление неинформативных слов.

В большинстве языков письменный текст содержит достаточно много неинформативных слов. В английском языке, например, это “the”, “of”, “and”, “you” и около сотни других. По очевидным причинам, такие слова нет смысла включать в индекс. Для каждого из поддерживаемых языков Index Server располагает общесистемным списком неинформативных слов, который Вы можете настроить с учетом местного диалекта и терминов. Когда разделитель слов во время анализа потока символов обнаруживает неинформативное слово, нормализатор обеспечивает его пропуск при индексировании. Так как неинформативные слова составляют большую часть письменного текста, их удаление может значительно уменьшить размер результирующего индекса.

Только после того, как поток слов нормализован, Index Server включает слова в индекс.



Содержание раздела