• Автор:

    Flesha
  • Добавлено:

    фев 21, 2013
  • Комментариев:

    5
  • Просмотров:

    3253

Как правильно создать robots.txt часть 2

Как правильно создать robots.txt часть 2

О robots.txt написано уже очень много, советы и примеры как правильно его составить существуют на всех ресурсах для веб-мастеров в сети, но оказывается, что эта тема до сих пор актуальна и веб-мастера снова и снова поднимают топики на seo-форумах рунета. Сегодня попробую обобщить информацию и написать как это сделать правильно для DLE, причем не просто сайта построенного на DataLife Engine, а для СДЛ.

Тема наиболее правильного файла robots.txt обсуждалась при моей участии ранее на серче, потом на провеббе, а совсем недавно на мауле, причём из последнего я сам того не ожидая извлёк полезную информацию.

На форуме провебба свою версию robots.txt предлагает asmakovec2, она у него даже выведена в профиле. Версия его универсальна и оспаривать там нечего, поэтому вернусь к полезной информации, которую я извлёк из топика о рабочем robots.txt на мауле.
Родилась она в процессе обсуждения ошибки новичков, когда добавляя в robots.txt запрет на индексирование админки, они указывали имя файла админки, тем самым нарушая безопасность своего сайта:
Disallow: /admin.php


что делать нельзя, иначе злоумышленник, получить пусть небольшую, но иногда необходимую для него информацию из доступного для всех файла robots.txt.
Но идея закрытия от индексирования админки сама верна, особенно в свете развития аудиторских сервисов Поисковых Систем, например Метрики от Яндекса, отслеживающих переходы, из которых извлекается информация и затем скрытые каталоги сайтов оказываются в индексе.
Я ранее реализовывал это добавляя метатег robots в файл /engine/skins/default.skin.php:
Найти:
<head>


Добавить ниже:
<meta name="robots" content="noindex,nofollow" />


А fioru-и на мауле предложил закрывать индексирование админки в robots.txt, но интересным способом:
Disallow: /admin


а файл админки admin.php переименовывать, например в admin-dostup.php, оставляя впереди имени часть admin.
В итоге админка закрыта от индексирования, а полное имя файла админки в robots.txt для злоумышленников не раскрыто.

Далее поговорим о страницах дублирования контента, нужно ли разрешать их индексировать ПС.
Хочется напомнить, что мы создаём и обсуждаем robots.txt применительно к сайту для людей (СДЛ), а не под сапу, стремясь запихнуть в индекс под размещение ссылок максимум страниц, в том числе служебных и дублирующих контент.

Само по себе то, что контент дублируется на страницах пагинации, архивов, дат, категорий, каталога и тегов посетителям вашего сайта не мешает, всё дело в том, что основная масса посетителей приходит на ваш сайт с поисковиков, и приходят посетители за интересующей их информацией, которую они искали, вот тут то дубли попавшие в индекс ПС нам и мешают, причём не только мешают, но и наносят вред в виде обмана посетителя.

И теперь рассмотрим в чём обман посетителя применимый к страницам пагинации. Большинство ресурсов в сети постоянно обновляются, т.е. информация размещённая сегодня на первой странице, завтра уже будет на второй, а через неделю где то на 10-ой странице вашего сайта. ПС проиндексировала какую-то информацию размещённую сегодня на второй странице, а через неделю посетитель увидя её в результатах поиска пришёл на ваш сайт и на второй странице этой информации не нашёл, она же уже на 10-ой, после этого он скорее всего закроет страницу вашего сайта и выберет из результатов поиска сайт конкурентов, где может быть станет постоянным посетителем, которого вы потеряли.

С остальными страницами сайта, дублирующими контент, ситуация схожа, например страницу всех тегов, ссылку на которую я открываю только зарегистрированным пользователям, я использую как поисковый инструмент сайта, так и называя её - Поиск по тегам, причём тут есть плюс, он позволит найти информацию из трех и менее символов, которую не позволить найти на вашем сайте обычный поиск. А от индексирования эти страницы закрыты:

Disallow: /2013/
Disallow: /tags/
Disallow: /user/
Disallow: /favorites/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /catalog/
Disallow: /*page/
Disallow: /*print


А теперь рассмотрим как закрыть служебные страницы и дубли вида:
Disallow: /index.php?newposts.html
Disallow: /index.php?statistics.html
Disallow: /index.php?subaction=userinfo
Disallow: /index.php?subaction=newposts
Disallow: /index.php?index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=register
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=addnews
Disallow: /index.php?do=stats
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=search

ведь их так много?

тут всё просто и в одной строке:
Disallow: /*?*


Так как служебные страницы, обратной связи, регистрации, добавления новости, статистики и др. не несут полезной информации, то не жалейте их, они ведь сами по себе близнецы-дубли страниц тысяч сайтов построенных на DLE.

Старался описать большинство нюансов значений в robots.txt доступным языком и теперь подвожу итог, каким же я вижу правильный robots.txt для DLE?

а вот он:
User-agent: *
Disallow: /2008/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /tags/
Disallow: /user/
Disallow: /favorites/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /catalog/
Disallow: /*page/
Disallow: /*print
Disallow: /addnews.html
Disallow: /statistics.html
Disallow: /rules.html
Disallow: /dle-rules-page.html
Disallow: /engine/ajax/
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /*?*
Disallow: /admin

Sitemap: http://сайт.ru/sitemap.xml
Host: сайт.ru


Файл админки при таком варианте нужно переименовывать из admin.php например в admin-dostup.php, вообщем оставляя начало в виде admin. Первые строки зависят от количества лет существования вашего сайта.

И не забудьте в строках Sitemap и Host заменить сайт.ru на ваш домен.
В Sitemap укажите url к карты сайта, его можно узнать в админке в разделе "Карта сайта для Google и Yandex".
В Host укажите ваш домен, учитывая его основное зеркало, т.е. с www или без него, для этого и служит значение Host, и вводится только домен основного зеркала, а не полный url сайта.
Кроме того, так как Host понимают не все роботы, рекомендуется его добавлять в конце файла robots.txt.

С уважением, Yeti
Источник: dlepro.ru
Вернуться

Комментарии:


  1. ruxxxxx → 26 февраля 2013 19:34
    Переименовал admin.php и админка не запускается smile
  2. Flesha → 26 февраля 2013 21:19
    Надо переименовать в админке и корне самого сайта.
  3. ruxxxxx → 28 февраля 2013 00:33
    Flesha
    Спасибо за помощь!
    Если можно ответь пожалуйста на вопрос.То что здесь указан в новости как правильно делать robots.txt я так и сделал,но у меня два дублирующих сайта один на бесплатном хосте и я купил просто домен в зоне ру и припарковал его к тому хостингу.Вообщем вся суть вопроса в том то что я в robots.txt прописал все как полагается но продублировал тот же текст но в строчке хост указал уже другой домен,получается как бы на два домена в robots.txt .
    Как думаешь так нормально или последствия какие то ожидать не хорошие от поисковых ботов? smile
  4. Flesha → 28 февраля 2013 11:00
    В роботс надо прописывать основной сайт, неважно сколько склеек и дублеров идет на основной.
  5. win32:trojan → 23 июля 2013 01:42
    Я вообще считаю что самый правильный роботс на DLE сайтах это
    
    User-agent: *
    Disallow: /engine/
    sitemap: http://localhost/sitemap.xml
    

    А все остальные ненужные страницы закрывать метатегами, хотите судите, хотите нет, но это было мое мнение, тем более гугл не всегда слушает роботс, часто бывает что он всеравно индексирует запрещенные страницы!
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.