Правильный файл robots.txt для WordPress — удаление дублей страниц + тег rel canonical.

[ 23 Мар 2019 ]

Доброго времени суток уважаемые читатели блога wooden-stool.ru
Сегодня я хочу поговорить про файл robots.txt, в частности про удаление дублей со страниц сайта на WordPress.

Удаление дублей страниц на WordPress с помощью robots.txt и тега rel=cannonical

И так, очередная статья из серии «Апгрейд блога». Собственно для начала вкратце о этом файле- данный файл, robots.txt, служит указателем для поисковых систем. С помощью него можно указать поисковому роботу какие страницы / каталоги вашего сайта необходимо индексировать а какие следует обходить стороной.

Теперь о основных директивах этого файла, которые помогут нам избежать возникновения дублей на вашем сайте WordPress.

Дубли страниц — это страницы, содержащие некий текст с основной, скажем так продвигаемой страницы. При возникновении дублей, статья, содержащая полный текст страницы теряет свою уникальность, в связи с чем и трастовасть со всеми отсюда вытекающими последствиями. Более того, можно попасть под фильтры поисковых систем, если на сайте будет множество страниц с одинаковым контентом. Поэтому стоит позаботиться о том, что-бы удалить дубли страниц. Хотя честно сказать, в wordpress существует множество способов избежать дублей страниц, но об этом, как ни будь потом — вернёмся к файлу robots.txt

И так, вернёмся к директивам. Первое что следует рассмотреть это директива user-agent.
user-agent позволяет указать что индексировать а что нет, какому то определённому роботу, например роботу который индексирует картинки или роботу индексирующего комментарии блогов. Собственно вот весь их перечень, взятый с яндекса (соответственно это роботы яндекса, название ботов в других поисковых системах отличаются).

‘YandexBot’ — основной индексирующий робот. (да, именно его мы ждём после размещения своей статьи)
YandexMedia — робот, индексирующий мультимедийные данные.
YandexImages — индексатор Яндекс.Картинок.
YandexCatalog — «простукивалка» Яндекс.Каталога.
YandexDirect — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов.
YandexNews — робот Яндекс.Новостей.
YandexPagechecker — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки».

Disallow в файле robots.txt указываем поисковому роботу какие страницы или же каталоги не нужно индексировать. Для примера

User-agent: *
Disallow: /

такой файл robots.txt указывает поисковым система то, что-бы они не индексировали ваш сайт в целом. Синтаксис простой, после указания самой директивы идёт двоеточие ну а за ними указывается директория, которые не следует индексировать. Этим мы и воспользуемся. Теперь давайте разберем, где на wordpress возникают дубли страниц, соответственно потом нам нужно будет закрыть эти места от индексации в файле robots.txt и дело в шляпе.

1. Категории, директория «/category/» — многие блоггеры размещают свои записи целиком, то есть без ссылочки «Читать далее», «Подробней», «Читать полностью», ну вы поняли — к слову говоря, подобная ссылка ставиться в том месте где указан тег <!—more—>.

Собственно в связи с этим на сайте возникает множество страниц, с одинаковым контентом.

2. Теги, директория «/tag/» - про страницы с тегами вообще молчу, как правило тегов у всех много, и каждый тег имеет свою директорию где отображает статьи, в которых прописан выбранный тег. Опять же — одинаковый контент, что не есть хорошо.

3. RSS, деректория «/feed/» — да, это ваша RSS лента и её дело транслироваться в различные сервисы а не создавать дубли. Поэтому тоже закрываем.

4. Страницы авторов, директория «/author/» — при просмотре страниц автора, также выводятся недавно добавленные записи, что не есть хорошо если у вас десяток, а то и более пользователей.

На этом наверное всё, перейдём непосредственно к удалению дублей страниц. Так стоп, для тех кто ещё не знает- файл robots.txt должен лежать в корневой директории вашего сайта, например www.your-web-site.ru/robots.txt . То есть если у вас его ещё нету — заливаем его к себе на хостинг, открываем и начинаем вносить изменения.

User-Agent: *
Disallow: /category/*
Disallow: /tag/*
Disallow: /feed/*
Disallow: /author/*

Здесь мы директивой юзер-агент указываем что, эти правила для всех и их необходимо отработать. Далее идёт disallow, которая, как вы уже знаете- запрещает индексировать поисковому роботу то или иное место, на вашем сайте. Вот в общем то и всё, всё свелось к 5ти строчкам в простом текстовом файле. Если хотите посмотреть более живой и правильный файл robots.txt, который демонстрирует работу с «лишним контентом» то, можете заглянуть на один интересный блог мир денег, так сказать рассмотреть в боевых условиях.

Удаление дублей страниц с помощью тега rel=cannonical

Существует ещё один метод борьбы с дублированным контентом — Тег cannonical который позволяет указать каноническую, основную страницу.
С ним всё просто, достаточно его указать на страницах, которые как вам кажеться дублируют контент
с оригинала.
Пример записи тега cannonical:
< link rel="canonical" href="http://wooden-stool.ru/cannonical.html" />
То есть, поисковая машина зайдя на страницу с дублированным контентом, увидев этот тег поймут что — оригинальная страница распологаеться по адрессу «http://wooden-stool.ru/canonical.html»
Размещать его следует в теле тега вашей страницы с дублированным контентом.

Так же возможно вам будет полезно прочитать про правильный robots.txt для DLE. На этом всё, удачи.

Ответов - 3 to “Правильный файл robots.txt для WordPress — удаление дублей страниц + тег rel canonical.”

Гулзира Говорит:

20.04.2012 at 3:11 пп

Вообще, изучая и читая Ваши статьи на блоге, многое узнала для себя в настройках блога! Тут ещё такую статью затрогали – robots.txt. Мне многое в этом файле не понятно. Мне помогли составить такой файл, когда создавала блог! Статья познавательна!

Ответить
Victka Говорит:

30.04.2012 at 6:56 пп

Этот файл действительно один с наиполезнейших средств при оптимизации и вообще управлении проэктом на любом движке. Главное его, действительно, правильно использовать или использовать вообще. Да, будьте с ним осторожны!

Ответить
lixvar Говорит:

13.02.2014 at 3:55 пп

Спасибо 5+

Ответить

Блог сеошника

Заработок

Программирование

SEO

Правильный файл robots.txt для WordPress — удаление дублей страниц + тег rel canonical.

Удаление дублей страниц с помощью тега rel=cannonical

Ответов - 3 to “Правильный файл robots.txt для WordPress — удаление дублей страниц + тег rel canonical.”

Добавить комментарий Отменить ответ

Почтальон

Рубрики блога

Парсер kinopoisk (автозаполнение киносайта)

IT-Новости

Я почитываю

Счётчики

Блог сеошника

Заработок

Программирование

SEO

Правильный файл robots.txt для WordPress — удаление дублей страниц + тег rel canonical.

Удаление дублей страниц с помощью тега rel=cannonical

Похожие записи:

Ответов - 3 to “Правильный файл robots.txt для WordPress — удаление дублей страниц + тег rel canonical.”

Добавить комментарий Отменить ответ

Почтальон

Рубрики блога

Парсер kinopoisk (автозаполнение киносайта)

IT-Новости

Я почитываю

Счётчики