Что такое robots.txt — различия между версиями
(Новая страница: «Что такое robots.txt? Технические аспекты созданного сайта играют не менее важную роль для п…») |
|||
(не показана одна промежуточная версия этого же участника) | |||
Строка 1: | Строка 1: | ||
− | Что такое robots.txt? | + | ===Что такое robots.txt?=== |
+ | |||
Технические аспекты созданного сайта играют не менее важную роль для продвижения сайта в поисковых системах, чем его наполнение. Одним из наиболее важных технических аспектов является индексирование сайта, т. е. определение областей сайта (файлов и директорий), которые могут или не могут быть проиндексированы роботами поисковых систем. Для этих целей используется специальный файл robots.txt. | Технические аспекты созданного сайта играют не менее важную роль для продвижения сайта в поисковых системах, чем его наполнение. Одним из наиболее важных технических аспектов является индексирование сайта, т. е. определение областей сайта (файлов и директорий), которые могут или не могут быть проиндексированы роботами поисковых систем. Для этих целей используется специальный файл robots.txt. | ||
− | Понятие файла robots.txt и требования, предъявляемые к нему | + | |
+ | ===Понятие файла robots.txt и требования, предъявляемые к нему=== | ||
+ | |||
Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые не описаны в /robots.txt. Этот файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id) и указывают для каждого робота или для всех сразу, что именно им не надо индексировать. | Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые не описаны в /robots.txt. Этот файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id) и указывают для каждого робота или для всех сразу, что именно им не надо индексировать. | ||
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов. | Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов. | ||
− | Содержимое файла robots.txt | + | |
+ | ===Содержимое файла robots.txt=== | ||
Файл robots.txt включает в себя две записи: «User-agent» и «Disallow». Названия данных записей не чувствительны к регистру букв. | Файл robots.txt включает в себя две записи: «User-agent» и «Disallow». Названия данных записей не чувствительны к регистру букв. | ||
Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система «Yandex» использует запись «Host» для определения основного зеркала сайта (основное зеркало сайта – это сайт, находящийся в индексе поисковых систем). | Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система «Yandex» использует запись «Host» для определения основного зеркала сайта (основное зеркало сайта – это сайт, находящийся в индексе поисковых систем). | ||
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь. | Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь. | ||
+ | |||
Предполагается следующий формат строк файла robots.txt: | Предполагается следующий формат строк файла robots.txt: | ||
имя_записи[необязательные пробелы]:[необязательные пробелы]значение[необязательные пробелы] | имя_записи[необязательные пробелы]:[необязательные пробелы]значение[необязательные пробелы] | ||
Чтобы файл robots.txt считался верным, необходимо, чтобы, как минимум, одна директива «Disallow» присутствовала после каждой записи «User-agent». Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта. | Чтобы файл robots.txt считался верным, необходимо, чтобы, как минимум, одна директива «Disallow» присутствовала после каждой записи «User-agent». Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта. | ||
− | Запись «User-agent» | + | |
+ | ===Запись «User-agent»=== | ||
Запись «User-agent» должна содержать название поискового робота. В данной записи можно указать каждому конкретному роботу, какие страницы сайта индексировать, а какие нет. | Запись «User-agent» должна содержать название поискового робота. В данной записи можно указать каждому конкретному роботу, какие страницы сайта индексировать, а какие нет. | ||
Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»: | Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»: | ||
+ | |||
User-agent: * | User-agent: * | ||
Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Rambler: | Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Rambler: | ||
+ | |||
User-agent: StackRambler | User-agent: StackRambler | ||
+ | |||
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать его (название): | Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать его (название): | ||
на сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру», в котором часто указывается название поискового робота; | на сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру», в котором часто указывается название поискового робота; | ||
при просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt. | при просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt. | ||
− | Запись «Disallow» | + | |
+ | ===Запись «Disallow»=== | ||
+ | |||
Запись «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено. | Запись «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено. | ||
Рассмотрим различные примеры записи «Disallow». | Рассмотрим различные примеры записи «Disallow». | ||
Строка 41: | Строка 52: | ||
Пример (запрет индексации файлов с расширением «htm»): | Пример (запрет индексации файлов с расширением «htm»): | ||
Disallow: *.htm$ | Disallow: *.htm$ | ||
− | Запись «Host» | + | |
+ | ===Запись «Host»=== | ||
Запись «host» используется поисковой системой «Yandex». Она необходима для определения основного зеркала сайта, т. е. если сайт имеет зеркала (зеркало – это частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса), то с помощью директивы «Host» можно выбрать то имя, под которым Вы хотите быть проиндексированы. В противном случае «Yandex» выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации. | Запись «host» используется поисковой системой «Yandex». Она необходима для определения основного зеркала сайта, т. е. если сайт имеет зеркала (зеркало – это частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса), то с помощью директивы «Host» можно выбрать то имя, под которым Вы хотите быть проиндексированы. В противном случае «Yandex» выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации. | ||
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять запись «Host» непосредственно после записей Disallow. | В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять запись «Host» непосредственно после записей Disallow. | ||
Пример: www.site.ru – основное зеркало: | Пример: www.site.ru – основное зеркало: | ||
Host: www.site.ru | Host: www.site.ru | ||
− | Комментарии | + | |
+ | ===Комментарии=== | ||
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. | Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. | ||
Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку. | Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку. | ||
Строка 52: | Строка 65: | ||
Disallow: /cgi-bin/ #комментарий | Disallow: /cgi-bin/ #комментарий | ||
Желательно размещать комментарий на отдельной строке. Пробел в начале строки разрешается, но не рекомендуется. | Желательно размещать комментарий на отдельной строке. Пробел в начале строки разрешается, но не рекомендуется. | ||
− | Примеры файлов robots.txt | + | |
+ | ===Примеры файлов robots.txt=== | ||
Пример файла robots.txt, разрешающего всем роботам индексирование всего сайта: | Пример файла robots.txt, разрешающего всем роботам индексирование всего сайта: | ||
User-agent: * | User-agent: * | ||
Строка 77: | Строка 91: | ||
Disallow: /dir | Disallow: /dir | ||
Host: www.site.ru | Host: www.site.ru | ||
− | Заключение | + | |
+ | ===Заключение=== | ||
+ | |||
Таким образом, наличие файла robots.txt, а так же его составление, может повлиять на продвижение сайта в поисковых системах. Не зная синтаксиса файла robots.txt, можно запретить к индексированию возможные продвигаемые страницы, а так же весь сайт. И, наоборот, грамотное составление данного файла может очень помочь в продвижении ресурса, например, можно закрыть от индексирования документы, которые мешают продвижению нужных страниц. | Таким образом, наличие файла robots.txt, а так же его составление, может повлиять на продвижение сайта в поисковых системах. Не зная синтаксиса файла robots.txt, можно запретить к индексированию возможные продвигаемые страницы, а так же весь сайт. И, наоборот, грамотное составление данного файла может очень помочь в продвижении ресурса, например, можно закрыть от индексирования документы, которые мешают продвижению нужных страниц. |
Текущая версия на 10:54, 17 сентября 2014
Содержание
Что такое robots.txt?
Технические аспекты созданного сайта играют не менее важную роль для продвижения сайта в поисковых системах, чем его наполнение. Одним из наиболее важных технических аспектов является индексирование сайта, т. е. определение областей сайта (файлов и директорий), которые могут или не могут быть проиндексированы роботами поисковых систем. Для этих целей используется специальный файл robots.txt.
Понятие файла robots.txt и требования, предъявляемые к нему
Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые не описаны в /robots.txt. Этот файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id) и указывают для каждого робота или для всех сразу, что именно им не надо индексировать. Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
Содержимое файла robots.txt
Файл robots.txt включает в себя две записи: «User-agent» и «Disallow». Названия данных записей не чувствительны к регистру букв. Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система «Yandex» использует запись «Host» для определения основного зеркала сайта (основное зеркало сайта – это сайт, находящийся в индексе поисковых систем). Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Предполагается следующий формат строк файла robots.txt: имя_записи[необязательные пробелы]:[необязательные пробелы]значение[необязательные пробелы] Чтобы файл robots.txt считался верным, необходимо, чтобы, как минимум, одна директива «Disallow» присутствовала после каждой записи «User-agent». Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Запись «User-agent»
Запись «User-agent» должна содержать название поискового робота. В данной записи можно указать каждому конкретному роботу, какие страницы сайта индексировать, а какие нет. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:
User-agent: * Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Rambler:
User-agent: StackRambler
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать его (название): на сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру», в котором часто указывается название поискового робота; при просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
Запись «Disallow»
Запись «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено. Рассмотрим различные примеры записи «Disallow». Пример (сайт полностью открыт для индексирования): Disallow: Пример (сайт полностью запрещен к индексации. Для этого используется символ «/»): Disallow: / Пример (для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»): Disallow: /page.htm Disallow: /dir/page2.htm Пример (для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории): Disallow: /cgi-bin/ Disallow: /forum/ Возможно закрытие от индексирования ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты. Пример (для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д.): Disallow: /dir Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система «Google» поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов. Пример (запрет индексации файлов с расширением «htm»): Disallow: *.htm$
Запись «Host»
Запись «host» используется поисковой системой «Yandex». Она необходима для определения основного зеркала сайта, т. е. если сайт имеет зеркала (зеркало – это частичная или полная копия сайта. Наличие дубликатов ресурса бывает необходимо владельцам высокопосещаемых сайтов для повышения надежности и доступности их сервиса), то с помощью директивы «Host» можно выбрать то имя, под которым Вы хотите быть проиндексированы. В противном случае «Yandex» выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации. В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять запись «Host» непосредственно после записей Disallow. Пример: www.site.ru – основное зеркало: Host: www.site.ru
Комментарии
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку. Пример (комментарий находится на одной строке вместе с директивой): Disallow: /cgi-bin/ #комментарий Желательно размещать комментарий на отдельной строке. Пробел в начале строки разрешается, но не рекомендуется.
Примеры файлов robots.txt
Пример файла robots.txt, разрешающего всем роботам индексирование всего сайта: User-agent: * Disallow: Host: www.site.ru Пример файла robots.txt, запрещающего всем роботам индексирование сайта: User-agent: * Disallow: / Host: www.site.ru
Пример файла robots.txt, запрещающего всем роботам индексирование директории «abc», а так же всех директорий и файлов, начинающихся с символов «abc». User-agent: * Disallow: /abc Host: www.site.ru
Пример файла robots.txt, запрещающего индексирование страницы «page.htm», находящейся в корневом каталоге сайта, поисковым роботом «googlebot»: User-agent: googlebot Disallow: /page.htm Host: www.site.ru
Пример файла robots.txt, запрещающего индексирование: – роботу «googlebot» – страницы «page1.htm», находящейся в директории «directory»; – роботу «Yandex» – все директории и страницы, начинающиеся символами «dir» (/dir/, /direct/, dir.htm, direction.htm, и т. д.) и находящиеся в корневом каталоге сайта. User-agent: googlebot Disallow: /directory/page1.htm User-agent: Yandex Disallow: /dir Host: www.site.ru
Заключение
Таким образом, наличие файла robots.txt, а так же его составление, может повлиять на продвижение сайта в поисковых системах. Не зная синтаксиса файла robots.txt, можно запретить к индексированию возможные продвигаемые страницы, а так же весь сайт. И, наоборот, грамотное составление данного файла может очень помочь в продвижении ресурса, например, можно закрыть от индексирования документы, которые мешают продвижению нужных страниц.