Что из себя представляет дублированный контент и чем он так опасен для блога. Когда написана свежая статья в блоге - через время ее посещает поисковой робот и передает о ней данные поисковику - тому же google. Но помимо проверки свежих статей просматривается еще и архив, который дублирует статьи и рубрики. Таким образом "глаза" поискового робота видят похожие между собой статьи - а это очень не нравиться поисковым машинам и рассматривается ими как мусор. Это хороший защитный механизм от тех, кто захочет напрямую копировать наши статьи и вставлять их в свой блог. Но у этой защиты есть и обратная сторона - робот видя точно такие же статьи в нашем архиве понижает наш рейтинг в глазах google и чем больше будет статей - тем меньше будет рейтинг. Рано или поздно сайт будет выброшен с нормальных позиций и займет самые последние чего мы конечно же не хотим.Обычно достаточно запретить рубрики в файле robot.txt, но к сожалению пользователи blogger не имеют ftp доступа, а проще говоря не могут залесть и изменить файлы своего блога напрямую - доступа нет.
Проверить дублированный контент очень легко. Для этого достаточно скачать бесплатную программу Site-Auditor которая очень удобная в обращении и показывает массу других полезных вещей о вашем сайте. Давайте по порядку. Скачать программу:
После того как вы установили плагин flash плеера и скачали программу. Запустим ее и вот что мы увидим:
поля на которые указывают красные стрелки. Обратите внимание, что в google проиндексированно 64 страницы. На моем блоге на сегодня не насобирается и 30 статей. Откуда 64 страницы? Очевидно, что остальные 30 страниц это просто статьи из архива которые как две капли воды похожи на те что сейчас видны на блоге. И это очень опасно - чем дальше тем хуже будет выглядеть блог в глазах google и в один прекрасный день его просто невозможно будет найти через поиск.
Однозначано нужно срочно решать назревшую проблему.
Заходим в настройки блога, затем жмем Дизайн/Изменить HTML, как всегда отмечаем птичкой строку Расширить шаблоны виджета и конечно же обязательно копируем уже существующий шаблон, чтобы если что то пойдет не так не биться головой об стену из-за безвозвратно испорченного блога -).
Теперь в самом верху найдем тег <head> и сразу под ним разместим следующий код:
<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>
Сохраняем шаблон и заходим на свой блог. Теперь через время часть страниц должно выпасть из индекса. Для этого через день-два проверяем скачанной нами программой Site Auditor свой блог на количество проиндексированных страниц. Их число должно приблизительно равняться числу ваших статей.
Проверим на всякий случай работоспособность вставленного нами сейчас кода. Если у вас в блоге есть архив выберите в нем любой месяц или день - блог откроет страницу архива. При этом обратите внимание что вверху в строке браузера должен быть соответствующий html файл в имени которого стоит слово archive. Вот эти страницы и являются скрытыми убийцами нашего блога (пока мы не поставим код). Теперь нажмите просмотреть эту странице в html коде. Для браузера мозилла и оперы это кнопки Ctrl+U. Если вы сразу под тегом <head> увидите строчку <meta content='noindex,follow' name='robots'/> - все прошло нормально.
Теперь давайте нажмем на нашу главную страницу и на заглавие любой статьи и посмотрим их посредством тех же Ctrl+U на этот раз обратите внимание под тег <head> тут этой строчки быть НЕ ДОЛЖНО. Не забывайте просматривать свой блог время от времени через сайт аудитор чтобы увидеть как вываливаются из индекса не нужные "рубрики" и "архивы".
38 комментариев:
Огромное спасибо за полезную информацию.
Рад помочь -)
Почему-то файл который выложен как Скачать - для тех у кого Windows XP (zip 1.8 Мб) скачивается как страница оперы(((
Это может происходить если вы скачиваете программами для закачки, если прямо нажать на файл он скачивается. Только что попробовал.
Файрфоксом файл скачался корректно.
С оперой всегда проблемы -) Если что то в скачанной программе будет не понятно - пишите )
Сергей подскажите пожалуйста по трём вопросам:
1) Нужно ли мне проверять дублированный контент, если я вообще отключил архив блога?
2) В скором времени начну поисковую оптимизацию своего блога, но ввести все возможные ключевые слова, по которым должны находить мой блог, в текст страниц будет просто некрасиво и туповато выглядеть. Я придумал такую штуку: в самом конце каждой страницы прописать все желаемые ключевые слова мелким шрифтом и цветом фона => они будут видны только при выделении мышью. Так вот это лучше делать только на главной странице или можно на всех (будет ли тогда этот контент дублированным)?
3) Как я понял, при создании новой страницы блога, ей даётся то имя, которое мы впишем в заголовок страницы, и остаётся таким уже навсегда, даже если менять заголовок. Так вот я заметил такую вещь. Допустим я создал страницу с названием comments. Потом её удалил, и после опять решил создать страницу с таким же названием "comments". Но такой страницы уже не создаётся, а создаётся что-то типа comments_02 или подобное (кстати заметил что цифры ставятся в зависимости от числа месяца, то есть 02 это к примеру 2 апреля). Такое ощущение, что создать 2 раза страницу с одним и тем же именем не получается потому, что первоначальная страница висит в невидимкой даже после её удаления. От этого никак нельзя избавиться?
1. Все верно, если нет архива - прописывать не надо.
2. Попробуйте, но я читал, что поисковые роботы ловят такие вещи. Но точно сказать никто не может.
3. Да, избавиться нельзя, блоггер дает имена автоматически и доступа к изменению нет.
Спасибо за помощь, к сожалению файлы Site-Auditor для w7 удалены, либо в ночное время сервер отключают. Короче подожду до завтра.
А у меня вот недавно при проверке оказалось,что Гугл не проиндексировал ни одной страницы,хотя раньше почти все были,и копипастом я не занимаюсь,не знаю чего делать...(((
Извините.У меня по ссылке Файл не найден. Возможно он был удален.(((И как быть?
В интернете посмотрите Site-Auditor в поисковике
Большое спасибо Вам за вашу работу и помощь))Вы просто молодец))
Спасибо за полезную информацию к размышлению. Я об этом как-то даже не задумывался.
Спасибо за совет! Никак не мог подумать, что гугл сам такое западло устроит для своих кастомеров. Разрешили бы robots.txt править или научили своего поискового робота не тупить.
Мда, полезная статья...жаль, что я раньше вас не нашёл, уже куча страниц в самой ж...у гугла болтается. Спасибо!
Извините,я может задам глупый вопрос,но где,и как в блоге прописывать мета теги и ключевые слова? Это одно и то-же?Или это те слова,что записывают в графе-описание блога?И надо ли что то удалять,взамен приведённого Вами выше кода.Или он ставится дополнительно?Заранее благодарен за ответ.
Ключевые слова и мета теги не являются одним и тем же. Прошу вас перефразировать вопрос, не уловил сути.
мета тэги и ключевые слова по блогу необходимо прописывать в теле шаблона. Вот статья по этому поводу:
http://lagunof.blogspot.com/2010/02/meta-teg.html
Сделал по Вашему совету, а прогу не стал и скачивать.
Сделал всё как написано, но получилось где Google вместо 64, стало 0 (((( Что могло произойти?
Не подскажу, так как какими критериями оценивает страницы гугл никто не знает.
очень информативно, спасибо!!!
Сергей здравствуйте!
Файл на скачку удален, где можно скачать программу?
Если я правильно понял, то можно просто отключать архив блога и не заморачиваться?
Да, верно, лучше отключить архив сразу у вновь созданного блога исключив головную боль в самом начале.
Сергей здравствуйте!
Файл на скачку удален, где можно скачать программу?
Посмотрите программу через гугл.
Привет!
1.
Проверил на работоспособность вставляемый код, код не поставился!
2.
"При этом обратите внимание что вверху в строке браузера должен быть соответствующий html файл в имени которого стоит слово archive"
Слово archive в имени файла не нашел
Спасибо за Ваш блог, пользуюсь более года. Этот код я установил сразу на всех блогах. В яндексе всё в порядке - сколько статей столько и ссылок, а вот с гуглом беда - ссылок больше в 3(!) раза, чем статей. У меня виджет Архив вообще отсутствует, а все дублированные ссылки относятся либо к архиву либо к ярлыкам. Как быть? Спасибо!
Бывает так, что гугл не выбрасывает из индекса старые статьи и они висят, но потом все равно отваливаются, подождите некоторое время должны пропасть.
В том-то и беда, что код стоит год и более...
Сергей, добрый день! Простите, если пишу не в ту тему, просто не нашла больше, где можно спросить и уточнить.
Я хочу вести блог на двух языках. На русском и иностранном одновременно. Сначала я сделала всё в одном блоге. Пишу пост сначала на русском, а потом сразу же на иностранном в этом же посте, просто следом. Так же оформила всю страницу - все вкладки, тэги на русском и в скобках на иностранном. Но в какой-то момент я стала сомневаться, не кажется ли это сумбуром иностранным читателям.. Я знаю, что иногда у иностранцев наша кириллица выдается как "птичий язык" и я опасаюсь, что это просто отпугнет иностранного читателя. В связи с этим у меня два вопроса.
Есть ли какой-то способ вести блог на двух языках (гугл-переводчики не в счет)? Или нужно просто создавать два одинаковых блога, просто писать их на разных языках?
Если да, то не будет ли это считаться дублированным контентом, ведь всё оформление, картинки и пр. будет одинаковым в обоих блогах?
Прошу прощения, что столько понаписала. Я, как девушка, просто не умею излагать более кратко))).
Вам нужно будет вести блог на двух языках.
Дублированным контентом это не будет считаться, не волнуйтесь.
Т.е. создать два одинаковых блога, правильно?
Спасибо большое за быстрый ответ!
Спасибо за Ваш блог, Сергей, и за эту статью в частности.
Ольга ☼
Чтоб отключить архив надо в дизайне шаблона ,затем перейти в дизайн а потом блок архив нажать измениять и нажать кнопку удалить?
Правильно сделано?
Спасибо за статью. А если сам архив закрыть от индексации в robots.txt?
Отправить комментарий
Оставляйте ваши комментарии