Место для вас

Создание файла Robots.txt для сайта на WordPress

Robots.txt - этот файл задаёт основные правила индексирования сайта различными поисковыми системами, а также дает возможность применить различные права доступа для отдельных поисковых ботов.

В этом примере я покажу, как составить правильный robots.txt для WordPress. Но если понять общую суть документа, то можно сделать и для другого типа сайта. За основу возьму две преимущественно главные поисковые системы - Google и Яндекс. Как показывает практика, то Яндекс предпочитает когда к нему обращаются отдельно.

Боты читают содержимое файла, как впрочем и исходный код любой страницы сайта, сверху-вниз. По-этому User-agent должна быть первой строкой.

Если напротив директивы User-agent поставить звездочку

User-agent: *

то все последующие правила будут относиться к любому роботу, а если нужно прописать отдельные правила для конкретных ботов, то строка будет выглядеть так:

User-agent: Yandex

Любой сайт имеет свои папки, файлы, изображения, кэш и прочее, что не должно попадать в индекс. И чтоб ботам сообщить это, то нужно использовать следующие конструкции.

Для запрета индексации папок и их содержимого, включая папки и файлы:

Disallow: /cgi-bin
Disallow: /wp-admin/

Для запрета индексации конкретной папки:

Disallow: /wp-content/cache

Существуют дублирующие страницы, такие как теги, страницы комментариев, ленты rss комментариев и тд. От таких страниц нужно немедленно избавляться, иначе есть вероятность попасть под фильтр поисковиков.

Disallow: */feed
Disallow: */trackback
Disallow: */comments

Страницы содержащие в своих URL знаки вопроса тоже являются дублирующими основной контент. Поэтому их также следует запрещать:

Disallow: /*?
Disallow: /*.php

Обратите внимание, что отдельные файлы с расширением .php также запрещены, связано это с тем, что та же главная страница доступна по нескольким адресам и один из них /index.php. Под этот запрет попадают и файлы администрирования — install.php, login.php и другие.

Хорошим тоном считается наличие директивы Host. Обычно ее прописывают в конце файла. Это нужно для того, чтоб повысить индексацию сайта. И содержит она домен или путь к сайту.

Host: zawebis.com

или

Host: zawebis.com/blog/

или

Host: cart.zawebis.com

И последнее, что должно быть в файле robots.txt - это директива Sitemap, указывающая на карту вашего сайта или проще говоря - sitemap.xml

Sitemap: http://www.zawebis.com/sitemap.xml

И в завершении я выложу весь файл robots.txt для wordpress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php
Host: zawebis.com
Sitemap: http://www.zawebis.com/sitemap.xml

Место для вас

Добавить коментарий

кликните на картинку,
чтоб обновить код

Что за сайт

Этот сайт представляет унифицированную базу, где инфа собрана в единое целое, а не разбросанна по многочисленным сайтам, записям на листах бумаги или головам людей; а так же доступна круглосуточно не зависимо от кого-либо или чего-либо.

Будь в курсе

Интересненько

Вверх