К основному контенту

Файл robots.txt и для чего он используется

Ранжирование сайтов в выдаче поисковиков происходит на основании индексирования содержимого поисковыми роботами. Результат индексации - списки URL, которые регулярно проверяются на предмет качества и соответствия контента. При обнаружении новой ссылки робот добавляет её в список и страница становится доступной в результатах поиска.

Назначение и содержание

Robots.txt - инструкция, которую разработчики сайта оставляют для поисковых роботов. При индексации ресурса они в первую очередь обращаются к этому файлу за указаниями к действию по отношению к тем или иным страницам.
Содержание текстового документа robots.txt определяет следующие действия роботов:
  1. Разрешение или запрет на индексацию определённых элементов - разделов или страниц.
  2. Указание адреса актуальной зеркальной ссылки сайта.
  3. Устанавливает интервал времени, предназначенный для скачивания контента.
Отсутствие файла robots.txt с инструкциями фактически означает разрешение на индексирование полного объёма содержимого сайта. В этом случае существенно увеличивается нагрузка поисковиков на ресурс, а скорость индексации снижается ввиду большого объёма обрабатываемой информации. Если некоторые элементы содержимого не в полной мере соответствуют требованиям поисковиков, это отрицательно сказывается на итоговой позиции в выдаче. Наличие грамотно составленного документа robots.txt гарантирует, что роботы увидят только то, что необходимо владельцу, обойдя вниманием дублированные или некачественно наполненные страницы.

Директивы, которые прописываются в robots.txt

Для создания файла robots.txt не потребуется особенных навыков, процедура предельно проста - создаём новый документ расширением .txt под названием robots. Далее нужно заполнить его директивами, которые определяют поведение роботов на сайте. Перечень этих команд был разработан в 1994 году, а спустя два года дополнен. Рассмотрим основные директивы, прописываемые в robots.txt:
  • User-agent - формирует список роботов, которые обязаны выполнять перечисленные директивы;
  • Allow / Disallow - разрешение / запрет на индексирование содержимого определённой части ресурса;
  • Sitemap - команда предоставляет машинам маршрут пути к необходимой странице;
  • Host - директива обозначает основное зеркало сайта, указывается один раз в конце текста в файле robots.txt;
  • Crawl-delay - устанавливает промежуток времени между загрузками;
  • Clean-param - специальная команда для ботов Яндекса, которая устанавливает запрет на индексацию страниц с определёнными параметрами.

Главный параметр самого файла robots.txt - его размер. Если он превышает 32 КБайт, то доступ к индексированию автоматически открывается для всего содержимого ресурса.
Источник тут.

Комментарии

Популярные сообщения из этого блога

Дубли страниц, как они влияют на позиции самого сайта

Борьба с дублированием страниц - один из действенных способов повышения рейтинга сайта. Это объясняется отрицательным воздействием дублей на эффективность работы проекта и негативным отношением со стороны поисковиков. Что такое дубль страницы Под дублями понимают страницы, содержимое которых полностью или частично копирует данные, представленные в других частях ресурса или на других сайтах. Повторение в пределах одного ресурса называют внутренними дублями, совпадения с другими сайтами - внешними. В зависимости от процента идентичности подразделяются на два типа: Полные - точные копии страниц, содержащих идентичный контент. Неполные - частично повторяющиеся данные, размещённые на нескольких страницах. Причины появления Неполные дубли появляются из-за упрощений и недоработок, связанных с наполнением сайта. Как правило, разработчик сознательно копирует отдельные элементы ввиду отсутствия аналогичных уникальных. Присутствие полных дублей может стать сюрпризом даже д