Представление сайтов внутри поисковых систем

Поисковые системы
Поисковые системы

 

В интернете существует огромное количество страниц различных сайтов. Чтобы хранить их параметры на серверах, а тем более вести по ним поиск, следует их как-то сжимать до минимального объема.

 

Чтобы понимать процесс сжатия, нужно представлять, как документ выглядит в поисковой системе и как происходит поиск и ранжирование по нему. Процесс этот достаточно сложный, но продуманный и эффективный.

Процесс сжатия сайтов

Поисковик
Поисковик

Первым делом поисковик осуществляет очистку ресурса от всех лишних данных: графики, html теги и т.п.

 

В результате выходит обычный чистый текст, который переходит на следующий этап. Далее, поисковик сортирует все слова в алфавитном порядке. Элементы, не являющиеся текстом, например пробел, отбрасывает в сторону.

 

При помощи определенных программных механизмов, все слова приводят к начальной форме, для повышения точности обработки и сокращения места на сервере. Из полученных слов составляют структуру, которая по виду напоминает словарь, в котором описано место каждого вхождения ключа. 

 

В самом же индексе хранятся только порядковые номера вхождений, а сами они расположены отдельно. Хранят поисковики и прямой индекс ресурсов. Это сжатая копия текстов со всех сайтов. Сжатая копия экономит большое количество времени при показе цитат и другой необходимой информации.

Ранжирование страниц согласно запросу

Факторы ранжирования сайта
Факторы ранжирования сайта

Чтобы система понимала, что именно Вы ищете, она должна провести подробный лингвистический анализ поисковой фразы. Первым делом система определяет язык сформулированного ключа по алфавиту, который использовался при наборе фразы, а также сочетание букв, характерные для различных языков.

 

Далее запрос проверяют по морфологии. При этом поисковик различает и форму, в которой было использовано слово и синонимы к нему. Но все же отдается предпочтение точным вхождениям.

 

Также поисковикам приходится бороться с омонимами, которые могут писаться одинаково, но по значению быть разными. Проанализировать наиболее вероятный список форм помогает огромная статистика, собранная в корпусах русского языка. Следует отдать должное тому, что такой объем операций поисковая система обрабатывает за доли секунды

Оставить комментарий

Комментарии: 0

Читайте в моем блоге:

powered by Surfing Waves
eTXT
FL.ru – фриланс сайт удаленной работы. Поиск удаленной работы, фрилансеры.
5bucks.ru - Все фриланс услуги по $5
www.work-zilla.com
Top.Mail.Ru
Яндекс.Метрика

Алиса это умеет