Приветствую, друзья! В этом уроке мы поговорим о создании файла robots.txt, который показывает роботам поисковых систем, какие разделы Вашего сайта нужно посещать, а какие нет.
Фактически, с помощью этого служебного файла можно указать, какие разделы будут индексироваться в поисковых системах, а какие нет.
Создание файла robots.txt
1. Создайте обычный текстовый файл с названием robots в формате .txt.
2. Добавьте в него следующую информацию :
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= Host: site.com Sitemap: http://site.com/sitemap.xml
3. Замените в в текстовом файле строчку site.com на адрес Вашего сайта.
4. Сохраните изменения и загрузите файл robots.txt (с помощью FTP) в корневую папку Вашего сайта.
5. Готово.
Для просмотра и скачки примера, нажмите кнопку ниже и сохраните файл (Ctrl + S на клавиатуре).
Скачать пример файла robots.txtРазбираемся в файле robots.txt (директивы)
Давайте теперь более детально разберем, что именно и зачем мы добавили в файл robots.txt.
User-agent — директива, которая используется для указания названия поискового робота. С помощью этой директивы можно запретить или разрешить поисковым роботам посещать Ваш сайт. Примеры:
Запрещаем роботу Яндекса просматривать папку с кэшем:
User-agent: Yandex Disallow: /wp-content/cache
Разрешаем роботу Bing просматривать папку themes (с темами сайта):
User-agent: bingbot Allow: /wp-content/themes
Allow и Disallow — разрешающая и запрещающая директива. Примеры:
Разрешим боту Яндекса просматривать папку wp-admin:
User-agent: Yandex Allow: /wp-admin
Запретим всем ботам просматривать папку wp-content:
User-agent: * Disallow: /wp-content
В нашем robots.txt мы не используем директиву Allow, так как всё, что не запрещено боту с помощью Disallow — по умолчанию будет разрешено.
Host — директива, с помощью которой нужно указать главное зеркало сайта, которое и будет индексироваться роботом.
Sitemap — используя эту директиву, нужно указать путь к карте сайта. Напомню, что карта сайта является очень важным инструментом при продвижении сайта! Обязательно указывайте её в этой директиве!
Если остались какие-то вопросы — задавайте их в комментарий. Если же информации в этом уроке для Вас оказалось недостаточно, рекомендую почитать подробнее о всех директивах и способах их использования перейдя по этой ссылке.
Александр, добрый день! Есть пару вопросов на тему robots.txt, отпишите мне на почту пожалуйста! Спасибо!=)
Можете посмотреть мой robots.txt rezmaster.ru
Посмотрел, все ок 🙂
petrovich.org.ua/robots.txt проверьте мой и скажите все ли там правильно. Спасибо.
Если все что вы открыли/закрыли от ботов вас устраивает, то в остальном все хорошо. Конечно, я немного сомневаюсь в необходимости добавлять Allow: /wp-content/uploads/ и вот такого Allow: /*/*/*.js*, но тут уже все индивидуально.
Если честно то я не очень разбираюсь во всем этом, вы бы не могли мне помочь написать правильный роботс?
Ну у вас ведь он и так нормальный. Можно только для красоты и удобства сделать одну карту сайта, а не 3 🙂
Спаибо!
Забрел на ваш сайт, спасибо
Добрый! скажите, возможно ли сгенерировать роботс тхт автоматически?
к примеру, нашла несколько бесплатных плагинов в самой системе WP
Думаю да. Но если вам нужно добавить свои правила, то ориентироваться в директивах в любом случае нужно.
Спасибо за быстрый ответ )
подскажите пожалуйста нормальный ли роботс у меня , сайт fortunastom.ru Заранее благодарю
нормальный 🙂
Александр, подскажите, пожалуйста, что может означать строчка внизу файла robots.txt такого написания Sitemap: mamaimarusya.ru/sitemap.xml.gz (что обозначает gz ?)
Заранее спасибо.
заархивированная карта сайта, gz это типа zip
На кой прописывать User-agent: Yandex если у вас уже прописаны те же правила для всех роботов? User-agent: *
да, меня тоже удивило это. Думаю особого смысла нет, просто показать что можно индивидуально указать а можно для всех остальных
Вставил Ваш robots повылетали все страницы. Контент в товаре пропал вместе с картинками. Почему так произошло? Как исправить?
Посмотрите robots на tensib.ru
добрый день, а если убрать этот фаил или оставить его пустым?
Александр, статья толковая, за что искреннее спасибо. Но появился вопрос, когда просмотрел ваш роботс. Меня несколько озадачили две последние строчки с хостом и адресом карты сайта. При переводе сайта на защищенный протокол https разве не рекомендуется с таковым и строку host?
С уважением
Здравствуйте! Спасибо за отзыв и замечание. Вы правы, в моем роботс не было https, что не соответствует рекомендациям Яндекса. Но Яндекс автоматически определил зеркало и добавил версию с https в панели вебмастера и в результатах поисковой выдачи разницы замечено не было. Но само собой, лучше при переходе на защищенный протокол https добавить так, как рекомендует Яндекс.
Благодарю, Александр. Про самостоятельный правильный выбор главного зеркала у Яндекс информации не видел. Буду знать. Порой кажется, что мы, новички, через чур много акцентируем внимания на различных мелочах, при этом старательно не обращаем внимание на главное.
Здравствуйте!
Подскажите пожалуйста, у меня когда проверяю сайт на сервисе одном то там пишет что домен типа склеен с доменом на www а вот когда проверка именно с www то пишет что не склеен, то что делать вообще, в любом случае если домены склеены то это же плохо вроде. Файл robots.txt я пока что не настраивал, может там и нужно указать какое-то значение, но у вас же тут не показано нужно вносить Host: site.com с www или без и как лучше?
Раньше когда проверял то никогда не писало что домен склеен, я всегда на проверку писал без www а теперь почему-то стало выдавать эту ошибку а вот если с www то ошибки этой нет.
Помогите пожалуйста разобраться, был тег header-title с заголовком h1 на главной странице, потом я добавил картинку логотипа и теперь заголовок h1 на главной странице пропал, как это так вообще? Я думал что он будет невидимым просто а он в настройках так и остался а при проверке сайта пишет что нет заголовка h1 но раньше до установки логотипа он точно был на главной странице, зачем добавлять функцию добавления логотипа картинкой в тему если исчезает потом заголовок h1 тема там чисто под интернет-магазин поэтому прописывать отдельно вручную в коде заголовок h1 под логотипом там нет места и по дизайну не подходит да и тем более тогда на других страницах будет по 2 заголовка h1 а это насколько я понял еще хуже, то как же тогда поступить? Тема Alphastore дело в том что уже нарисовал более-менее нормальный логотип и поставил его на сайт но теперь если не получится с этим заголовком h1 на главной странице то придется наверное логотип оставить текстом просто а картинку значит удалить.
Хотя бы дайте ссылки на сайты где можно почитать о такой проблеме.
Здравствуйте! Постараюсь помочь советом.
Вероятнее всего, в теме так и задумано, если нету логотипа (изображения), то будет текстовый лого (h1).
Если ставите изображение — текст пропадает. Это вполне логично, так как оборачивать изображение в h1 нету смысла.
Но так как h1 нужен, и только на главной странице — рекомендую его добавить в шаблон таким образом:
Код выше можно смело добавлять в шаблон, и заголовок будет отображаться только на главной странице.
Теперь второй нюанс. Если для него нету места в дизайне — рекомендую его сделать скрытым, добавив display:none в CSS. Валидаторы и различные проверки должны видеть тег, но фактически он отображаться на сайте не будет. Это не лучший вариант, и желательно чтобы таки он где-то был виден, но такое решение лучше чем никакое.
Здравствуйте.
У меня закрыты в роботс:
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
В Google Search Consol отображаются заблокированные ресурсы(js, css файлы) из этих директорий.
Нужно ли открывать их?