Доброго времени суток уважаемые читатели блога wooden-stool.ru
Сегодня я хочу поговорить про файл robots.txt, в частности про удаление дублей со страниц сайта на WordPress.
И так, очередная статья из серии «Апгрейд блога». Собственно для начала вкратце о этом файле- данный файл, robots.txt, служит указателем для поисковых систем. С помощью него можно указать поисковому роботу какие страницы / каталоги вашего сайта необходимо индексировать а какие следует обходить стороной.
Теперь о основных директивах этого файла, которые помогут нам избежать возникновения дублей на вашем сайте WordPress.
Дубли страниц — это страницы, содержащие некий текст с основной, скажем так продвигаемой страницы. При возникновении дублей, статья, содержащая полный текст страницы теряет свою уникальность, в связи с чем и трастовасть со всеми отсюда вытекающими последствиями. Более того, можно попасть под фильтры поисковых систем, если на сайте будет множество страниц с одинаковым контентом. Поэтому стоит позаботиться о том, что-бы удалить дубли страниц. Хотя честно сказать, в wordpress существует множество способов избежать дублей страниц, но об этом, как ни будь потом — вернёмся к файлу robots.txt
И так, вернёмся к директивам. Первое что следует рассмотреть это директива user-agent.
user-agent позволяет указать что индексировать а что нет, какому то определённому роботу, например роботу который индексирует картинки или роботу индексирующего комментарии блогов. Собственно вот весь их перечень, взятый с яндекса (соответственно это роботы яндекса, название ботов в других поисковых системах отличаются).
- ‘YandexBot’ — основной индексирующий робот. (да, именно его мы ждём после размещения своей статьи)
- YandexMedia — робот, индексирующий мультимедийные данные.
- YandexImages — индексатор Яндекс.Картинок.
- YandexCatalog — «простукивалка» Яндекс.Каталога.
- YandexDirect — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
- YandexBlogs — робот поиска по блогам, индексирующий комментарии постов.
- YandexNews — робот Яндекс.Новостей.
- YandexPagechecker — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки».
Disallow в файле robots.txt указываем поисковому роботу какие страницы или же каталоги не нужно индексировать. Для примера
User-agent: * Disallow: /
такой файл robots.txt указывает поисковым система то, что-бы они не индексировали ваш сайт в целом. Синтаксис простой, после указания самой директивы идёт двоеточие ну а за ними указывается директория, которые не следует индексировать. Этим мы и воспользуемся. Теперь давайте разберем, где на wordpress возникают дубли страниц, соответственно потом нам нужно будет закрыть эти места от индексации в файле robots.txt и дело в шляпе.
1. Категории, директория «/category/» — многие блоггеры размещают свои записи целиком, то есть без ссылочки «Читать далее», «Подробней», «Читать полностью», ну вы поняли — к слову говоря, подобная ссылка ставиться в том месте где указан тег <!—more—>.
Собственно в связи с этим на сайте возникает множество страниц, с одинаковым контентом.
2. Теги, директория «/tag/» - про страницы с тегами вообще молчу, как правило тегов у всех много, и каждый тег имеет свою директорию где отображает статьи, в которых прописан выбранный тег. Опять же — одинаковый контент, что не есть хорошо.
3. RSS, деректория «/feed/» — да, это ваша RSS лента и её дело транслироваться в различные сервисы а не создавать дубли. Поэтому тоже закрываем.
4. Страницы авторов, директория «/author/» — при просмотре страниц автора, также выводятся недавно добавленные записи, что не есть хорошо если у вас десяток, а то и более пользователей.
На этом наверное всё, перейдём непосредственно к удалению дублей страниц. Так стоп, для тех кто ещё не знает- файл robots.txt должен лежать в корневой директории вашего сайта, например www.your-web-site.ru/robots.txt . То есть если у вас его ещё нету — заливаем его к себе на хостинг, открываем и начинаем вносить изменения.
User-Agent: * Disallow: /category/* Disallow: /tag/* Disallow: /feed/* Disallow: /author/*
Здесь мы директивой юзер-агент указываем что, эти правила для всех и их необходимо отработать. Далее идёт disallow, которая, как вы уже знаете- запрещает индексировать поисковому роботу то или иное место, на вашем сайте. Вот в общем то и всё, всё свелось к 5ти строчкам в простом текстовом файле. Если хотите посмотреть более живой и правильный файл robots.txt, который демонстрирует работу с «лишним контентом» то, можете заглянуть на один интересный блог мир денег, так сказать рассмотреть в боевых условиях.
Удаление дублей страниц с помощью тега rel=cannonical
Существует ещё один метод борьбы с дублированным контентом — Тег cannonical который позволяет указать каноническую, основную страницу.
С ним всё просто, достаточно его указать на страницах, которые как вам кажеться дублируют контент
с оригинала.
Пример записи тега cannonical:
< link rel="canonical" href="http://wooden-stool.ru/cannonical.html" />
То есть, поисковая машина зайдя на страницу с дублированным контентом, увидев этот тег поймут что — оригинальная страница распологаеться по адрессу «http://wooden-stool.ru/canonical.html»
Размещать его следует в теле тега
Так же возможно вам будет полезно прочитать про правильный robots.txt для DLE. На этом всё, удачи.
Вообще, изучая и читая Ваши статьи на блоге, многое узнала для себя в настройках блога! Тут ещё такую статью затрогали – robots.txt. Мне многое в этом файле не понятно. Мне помогли составить такой файл, когда создавала блог! Статья познавательна!
Этот файл действительно один с наиполезнейших средств при оптимизации и вообще управлении проэктом на любом движке. Главное его, действительно, правильно использовать или использовать вообще. Да, будьте с ним осторожны!
Спасибо 5+