Дублированный контент - медленный убийца блога

суббота, 9 января 2010 г.

Что из себя представляет дублированный контент и чем он так опасен для блога. Когда написана свежая статья в блоге - через время ее посещает поисковой робот и передает о ней данные поисковику - тому же google. Но помимо проверки свежих статей просматривается еще и архив, который дублирует статьи и рубрики. Таким образом "глаза" поискового робота видят похожие между собой статьи - а это очень не нравиться поисковым машинам и рассматривается ими как мусор. Это хороший защитный механизм от тех, кто захочет напрямую копировать наши статьи и вставлять их в свой блог. Но у этой защиты есть и обратная сторона - робот видя точно такие же статьи в нашем архиве понижает наш рейтинг в глазах google и чем больше будет статей - тем меньше будет рейтинг. Рано или поздно сайт будет выброшен с нормальных позиций и займет самые последние чего мы конечно же не хотим.Обычно достаточно запретить рубрики в файле robot.txt, но к сожалению пользователи blogger не имеют ftp доступа, а проще говоря не могут залесть и изменить файлы своего блога напрямую - доступа нет.
Проверить дублированный контент очень легко. Для этого достаточно скачать бесплатную программу Site-Auditor которая очень удобная в обращении и показывает массу других полезных вещей о вашем сайте. Давайте по порядку. Скачать программу:



Скачать - для тех у кого Windows XP (zip 1.8 Мб)
Скачать AIR редакцию (для Windows XP/Vista/W7, Linux, MAC OS X)
также понадобиться Flash плеер (ехе 15 Мб)

После того как вы установили плагин flash плеера и скачали программу. Запустим ее и вот что мы увидим:


Пользоваться программой очень просто. В верхнем поле пропишите свой сайт и нажмите кнопку проверить. Давайте посмотрим что показала программа о моем блоге. Нас интересуют
поля на которые указывают красные стрелки. Обратите внимание, что в google проиндексированно 64 страницы. На моем блоге на сегодня не насобирается и 30 статей. Откуда 64 страницы? Очевидно, что остальные 30 страниц это просто статьи из архива которые как две капли воды похожи на те что сейчас видны на блоге. И это очень опасно - чем дальше тем хуже будет выглядеть блог в глазах google и в один прекрасный день его просто невозможно будет найти через поиск.
Однозначано нужно срочно решать назревшую проблему.
Заходим в настройки блога, затем жмем Дизайн/Изменить HTML, как всегда отмечаем птичкой строку Расширить шаблоны виджета и конечно же обязательно копируем уже существующий шаблон, чтобы если что то пойдет не так не биться головой об стену из-за безвозвратно испорченного блога -).
Теперь в самом верху найдем тег <head> и сразу под ним разместим следующий код:
<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>

Сохраняем шаблон и заходим на свой блог. Теперь через время часть страниц должно выпасть из индекса. Для этого через день-два проверяем скачанной нами программой Site Auditor свой блог на количество проиндексированных страниц. Их число должно приблизительно равняться числу ваших статей. 
Проверим на всякий случай работоспособность вставленного нами сейчас кода. Если у вас в блоге есть архив выберите в нем любой месяц или день - блог откроет страницу архива. При этом обратите внимание что вверху в строке браузера должен быть соответствующий html файл в имени которого стоит слово archive. Вот эти страницы и являются скрытыми убийцами нашего блога (пока мы не поставим код). Теперь нажмите просмотреть эту странице в html коде. Для браузера мозилла и оперы это кнопки Ctrl+U. Если вы сразу под тегом <head> увидите строчку <meta content='noindex,follow' name='robots'/> - все прошло нормально. 
Теперь давайте нажмем на нашу главную страницу и на заглавие любой статьи и посмотрим их посредством тех же Ctrl+U на этот раз обратите внимание под тег  <head> тут этой строчки быть НЕ ДОЛЖНО. Не забывайте просматривать свой блог время от времени через сайт аудитор чтобы увидеть как вываливаются из индекса не нужные "рубрики" и "архивы".

Похожие статьи

38 комментариев:

Сергей Николаеску комментирует...

Огромное спасибо за полезную информацию.

Unknown комментирует...

Рад помочь -)

Yi-dam комментирует...

Почему-то файл который выложен как Скачать - для тех у кого Windows XP (zip 1.8 Мб) скачивается как страница оперы(((

Unknown комментирует...

Это может происходить если вы скачиваете программами для закачки, если прямо нажать на файл он скачивается. Только что попробовал.

Yi-dam комментирует...

Файрфоксом файл скачался корректно.

Unknown комментирует...

С оперой всегда проблемы -) Если что то в скачанной программе будет не понятно - пишите )

Unknown комментирует...

Сергей подскажите пожалуйста по трём вопросам:
1) Нужно ли мне проверять дублированный контент, если я вообще отключил архив блога?
2) В скором времени начну поисковую оптимизацию своего блога, но ввести все возможные ключевые слова, по которым должны находить мой блог, в текст страниц будет просто некрасиво и туповато выглядеть. Я придумал такую штуку: в самом конце каждой страницы прописать все желаемые ключевые слова мелким шрифтом и цветом фона => они будут видны только при выделении мышью. Так вот это лучше делать только на главной странице или можно на всех (будет ли тогда этот контент дублированным)?
3) Как я понял, при создании новой страницы блога, ей даётся то имя, которое мы впишем в заголовок страницы, и остаётся таким уже навсегда, даже если менять заголовок. Так вот я заметил такую вещь. Допустим я создал страницу с названием comments. Потом её удалил, и после опять решил создать страницу с таким же названием "comments". Но такой страницы уже не создаётся, а создаётся что-то типа comments_02 или подобное (кстати заметил что цифры ставятся в зависимости от числа месяца, то есть 02 это к примеру 2 апреля). Такое ощущение, что создать 2 раза страницу с одним и тем же именем не получается потому, что первоначальная страница висит в невидимкой даже после её удаления. От этого никак нельзя избавиться?

Unknown комментирует...

1. Все верно, если нет архива - прописывать не надо.
2. Попробуйте, но я читал, что поисковые роботы ловят такие вещи. Но точно сказать никто не может.
3. Да, избавиться нельзя, блоггер дает имена автоматически и доступа к изменению нет.

nikolenko.de комментирует...

Спасибо за помощь, к сожалению файлы Site-Auditor для w7 удалены, либо в ночное время сервер отключают. Короче подожду до завтра.

SwaEgo комментирует...

А у меня вот недавно при проверке оказалось,что Гугл не проиндексировал ни одной страницы,хотя раньше почти все были,и копипастом я не занимаюсь,не знаю чего делать...(((

Фея комментирует...

Извините.У меня по ссылке Файл не найден. Возможно он был удален.(((И как быть?

Unknown комментирует...

В интернете посмотрите Site-Auditor в поисковике

Елена Магия комментирует...

Большое спасибо Вам за вашу работу и помощь))Вы просто молодец))

Daemon комментирует...

Спасибо за полезную информацию к размышлению. Я об этом как-то даже не задумывался.

Анонимный комментирует...

Спасибо за совет! Никак не мог подумать, что гугл сам такое западло устроит для своих кастомеров. Разрешили бы robots.txt править или научили своего поискового робота не тупить.

Unknown комментирует...

Мда, полезная статья...жаль, что я раньше вас не нашёл, уже куча страниц в самой ж...у гугла болтается. Спасибо!

Cer комментирует...

Извините,я может задам глупый вопрос,но где,и как в блоге прописывать мета теги и ключевые слова? Это одно и то-же?Или это те слова,что записывают в графе-описание блога?И надо ли что то удалять,взамен приведённого Вами выше кода.Или он ставится дополнительно?Заранее благодарен за ответ.

Unknown комментирует...

Ключевые слова и мета теги не являются одним и тем же. Прошу вас перефразировать вопрос, не уловил сути.

The Neighbour комментирует...

мета тэги и ключевые слова по блогу необходимо прописывать в теле шаблона. Вот статья по этому поводу:

http://lagunof.blogspot.com/2010/02/meta-teg.html

Анонимный комментирует...

Сделал по Вашему совету, а прогу не стал и скачивать.

Ипполит Фетисов комментирует...

Сделал всё как написано, но получилось где Google вместо 64, стало 0 (((( Что могло произойти?

Unknown комментирует...

Не подскажу, так как какими критериями оценивает страницы гугл никто не знает.

Patrician комментирует...

очень информативно, спасибо!!!

Павел Роман комментирует...

Сергей здравствуйте!
Файл на скачку удален, где можно скачать программу?

anders комментирует...

Если я правильно понял, то можно просто отключать архив блога и не заморачиваться?

Unknown комментирует...

Да, верно, лучше отключить архив сразу у вновь созданного блога исключив головную боль в самом начале.

Unknown комментирует...

Сергей здравствуйте!
Файл на скачку удален, где можно скачать программу?

Посмотрите программу через гугл.

tislic комментирует...

Привет!
1.
Проверил на работоспособность вставляемый код, код не поставился!

2.
"При этом обратите внимание что вверху в строке браузера должен быть соответствующий html файл в имени которого стоит слово archive"

Слово archive в имени файла не нашел

Unknown комментирует...

Спасибо за Ваш блог, пользуюсь более года. Этот код я установил сразу на всех блогах. В яндексе всё в порядке - сколько статей столько и ссылок, а вот с гуглом беда - ссылок больше в 3(!) раза, чем статей. У меня виджет Архив вообще отсутствует, а все дублированные ссылки относятся либо к архиву либо к ярлыкам. Как быть? Спасибо!

Unknown комментирует...

Бывает так, что гугл не выбрасывает из индекса старые статьи и они висят, но потом все равно отваливаются, подождите некоторое время должны пропасть.

Unknown комментирует...

В том-то и беда, что код стоит год и более...

Анонимный комментирует...

Сергей, добрый день! Простите, если пишу не в ту тему, просто не нашла больше, где можно спросить и уточнить.
Я хочу вести блог на двух языках. На русском и иностранном одновременно. Сначала я сделала всё в одном блоге. Пишу пост сначала на русском, а потом сразу же на иностранном в этом же посте, просто следом. Так же оформила всю страницу - все вкладки, тэги на русском и в скобках на иностранном. Но в какой-то момент я стала сомневаться, не кажется ли это сумбуром иностранным читателям.. Я знаю, что иногда у иностранцев наша кириллица выдается как "птичий язык" и я опасаюсь, что это просто отпугнет иностранного читателя. В связи с этим у меня два вопроса.
Есть ли какой-то способ вести блог на двух языках (гугл-переводчики не в счет)? Или нужно просто создавать два одинаковых блога, просто писать их на разных языках?
Если да, то не будет ли это считаться дублированным контентом, ведь всё оформление, картинки и пр. будет одинаковым в обоих блогах?
Прошу прощения, что столько понаписала. Я, как девушка, просто не умею излагать более кратко))).

Unknown комментирует...

Вам нужно будет вести блог на двух языках.
Дублированным контентом это не будет считаться, не волнуйтесь.

Анонимный комментирует...

Т.е. создать два одинаковых блога, правильно?
Спасибо большое за быстрый ответ!

Soleil комментирует...

Спасибо за Ваш блог, Сергей, и за эту статью в частности.
Ольга ☼

Turgen (Артур Мартиросов) комментирует...

Чтоб отключить архив надо в дизайне шаблона ,затем перейти в дизайн а потом блок архив нажать измениять и нажать кнопку удалить?
Правильно сделано?

Сергей комментирует...

Спасибо за статью. А если сам архив закрыть от индексации в robots.txt?

Leopard комментирует...
Этот комментарий был удален автором.

Отправить комментарий

Оставляйте ваши комментарии

 
 
 

Читать блог на другом языке

English French German Spain Italian Dutch

Russian Portuguese Japanese Korean Arabic Chinese Simplified
 
Copyright ©Lagunof.com
Блога автора книги "Недвижимость: классическая, виртуальная, интеллектуальная" При перепечатке материалов с блога обратная ссылка обязательна
e4a11e6f00df223bf058f2795454739b