Представление сайтов внутри поисковых систем

Поисковые системы
Поисковые системы

В интернете существует огромное количество страниц. Чтобы хранить их параметры на серверах, а тем более вести по ним поиск, следует их как-то сжимать до минимального объема.

 

Чтобы понимать процесс сжатия, нужно представлять, как документ выглядит в поисковой системе и как происходит поиск и ранжирования по ним. Процесс достаточно сложный, но продуманный и эффективный.

 

Хранят поисковики и прямой индекс ресурсов. Это сжатая копия текстов со всех сайтов. Сжатая копия экономит большое количество времени при показе цитат и другой необходимой информации.

 


Процесс сжатия сайтов

Поисковик
Поисковик

Первым делом поисковик осуществляет очистку ресурса от всех лишних данных: графики, html тегов и т.п. В результате выходит обычный чистый текст, который переходит на следующий этап.

 

Далее, поисковик сортирует все слова в алфавитном порядке. Элементы, не являющиеся текстом, например пробел, отбрасывает в сторону. При помощи определенных программных механизмов, все слова приводят к начальной форме, для повышения точности обработки и сокращения места на сервере. С полученных слов составляют структуру, которая по виду напоминает словарь, в котором описано место каждого вхождения ключа. В самом же индексе, хранятся только порядковые номера вхождений, а сами они расположены отдельно.

 

Хранят поисковики и прямой индекс ресурсов. Это сжатая копия текстов со всех сайтов. Сжатая копия экономит большое количество времени при показе цитат и другой необходимой информации.

Регистрация сайта в каталогах, раскрутка и оптимизация сайта, контекстная реклама

Ранжирование страниц согласно запросу

Факторы ранжирования сайтов
Факторы ранжирования сайта

Чтобы система понимала, что именно Вы ищете, она должна провести подробный лингвистический анализ поисковой фразы. Первым делом система определяет язык сформулированного ключа по алфавиту, который использовался при наборе фразы, а так же сочетание букв характерны для различных языков.

 

Далее запрос проверяют по морфологии. При этом поисковик различает и форму, в которой было использовано слово и синонимы к нему. Но все же отдается предпочтение точным вхождениям. Так же поисковикам приходится бороться с омонимами, которые могут писаться одинаково, но по значению быть разными.

 

Проанализировать наиболее вероятный список форм помогает огромная статистика, собранная в корпусах русского языка. Следует отдать должное тому, что такой объем операций поисковая система обрабатывает за доли секунды.

Write a comment

Comments: 0