Лемматизация


27.04.2016 12:55853

Среди алгоритмов поиска информации выделяют лемматизацию. Смысл механизма в том, что поисковая система проводит отбор по лемме слова – его начальной, неизменяемой форме.

Если говорить о разных частях речи, то у имени существительного лемма – именительный падеж, единственное число, кроме слов, имеющих только множественный падеж. Инфинитив, неопределенная форма – лемма глагола.

Программы-лемматизаторы, выделяющие из слова лемму, существенно ускоряют процесс индексирования интернет-страниц. Эффективность индексирования – это скорость, с которой поисковые системы анализируют запрос. Она напрямую зависит, в том числе, от количества слов и словоформ – чем их больше, тем медленнее идет поиск. Поэтому в алгоритм поиска введены лемматизаторы - они уменьшают количество индексируемых словоформ и обеспечивают наиболее эффективную лемматизацию.

Лемматизаторы используются не только поисковыми системами. В интернете есть большое количество платных и бесплатных программ для лемматизации. Конечно, такой программный продукт компактнее, чем те, которые используют поисковики. Обычно на их основе веб-мастера создают собственные поисковые системы. Их необходимость обусловлена тем, что не каждый может приобрести для своего сайта хостинг, позволяющий быстро и качественно обрабатывать большое количество информации. Здесь на помощь приходят индексаторы локальных поисковиков. Однако, для качественной работы они должны быть очень компактны.

Чтобы веб-мастер мог создать такой продукт, используется алгоритм лемматизации. Работа алгоритма начинается после запуска программы-лемматизатора.

Кроме ускорения процесса индексирования, лемматизация используется поисковыми системами для вычисления уникальности текста. Анализируемый на уникальность текст разбивается на шинглы – отдельные части, последовательность нескольких слов. Перед тем как сравнивать сами шинглы, программа приводит все формы слов к их леммам.

Но в первую очередь лемматизация нужна для более релевантного поиска информации. Пользователь при составлении запроса приводит слова в нужную грамматическую форму. Для точного поиска нужно обратное преобразование. Происходит это так: когда в алгоритме присутствует лемматизатор, он переводит все словоформы в леммы. Дальше алгоритм поиска исключает документы, не соответствующие релевантности запроса.

В языкознании лемматизация – это прикладная дисциплина, которая изучает способы формирования из словоформ лемм, что нужно для морфологического анализа текста. 





«Лемматизация» - Похожие страницы

Нет записей


Комментарии отсутствуют
Добавление комментариев доступно только зарегистрированным пользователям