GoogleОт одного из пользователей к Мэтту Каттсу поступила просьба рассказать о работе поиска Google. Мэтт попытался обрисовать процесс в общих чертах.

Каттс рассказал, что для того, чтобы стать лучшей поисковой системой мира, необходимо в совершенстве владеть тремя вещами: всесторонним и глубоким сканированием Интернета, индексацией страниц, ранжированием и возвратом наиболее релевантных результатов.

Краулинг является процессом гораздо более сложным, чем представляют пользователи. С повышением у страницы page rank растет частота ссылок на нее авторитетных источников, увеличивается вероятность быстрого сканирования сайта поисковиком. По факту, краулинг может быть представлен в строго определенном порядке, учитывая page rank. На весь процесс уходит примерно 30 дней. Затем две недели уходят на обработку данных и индексацию. Притом для обеспечения непрерывного обновления результатов поисковой робот посещает ресурсы с высоким показателем PR вновь и вновь, чтобы отследить появление важной или новой информации.

После этого проводится индексация документов. К примеру, вы желаете найти Кэти Перри. Поисковик Google проводит оценку, в каких именно документах встречается слово Кэти, а в которых обнаружено слово Перри. Допустим, Кэти есть в документах 5, 9, 159, 357, а Перри – в 8, 9, 245, 963. при обнаружении подобных документов Google отслеживает порядок расположения слов и как именно такие слова встречаются в документах. Если на странице есть слово Кэти, но нет слова Перри, поисковиком она отбрасывается. Документ под номером девять содержит слова и Кэти, и Перри, по этой причине Google его оставляет.

После отбора необходимых документов поисковиком принимается решение о их дальнейшем ранжировании. Именно для этого существует показатель page rank и более двухсот факторов ранжирования. К примеру, существует ресурс, на котором слово Перри встречается только один раз, причем в другом месте страницы есть слово Кэти. Кроме этого ресурса существует документ, в котором слова Кэти и Перри расположены последовательно друг за другом. Google стремится к нахождению баланса: обнаружению качественного документа с высоким уровнем репутации и одновременной выдаче ресурса, отвечающего на пользовательский запрос. Так повторяется сотни миллионов раз ежедневно, когда многочисленные пользователи заходят на ресурс Google, вводят запрос и менее, чем за полсекунды, получают максимально релевантные (по мнению команды поисковика) результаты.

Для тех, кому хочется подробнее узнать о работе Google, в частности о page rank, Каттс посоветовал ознакомиться с многочисленными тематическими статьями и различными научными работами.

Похожие записи:

  1. Мэтт Каттс о «Безопасном поиске»
  2. Доверие для Google – что это? Мэтт Каттс дает ответ
  3. Мэтт Каттс: будет ли командой Google введена замена Yahoo Site Explorer?
  4. Мэтт Каттс: обновление страницы в индексе
  5. Мэтт Каттс считает бесполезной отчетность по позициям
  6. О влиянии HTTPS на позиции ресурса рассказывает Мэтт Каттс
  7. Мэтт Каттс: удаляются ли сайты из выдачи Google вручную?
  8. Мэтт Каттс о диагностике сайтов
  9. Мэтт Каттс и Амит Сингал: новое определение качества веб-контента
  10. Мэтт Каттс: не надо использовать в URL заглавные буквы