• Автор:

    Braund
  • Добавлено:

    июн 06, 2014
  • Комментариев:

    4
  • Просмотров:

    2 271

Спутник - поисковая система

Спутник - поисковая система

Поисковый механизм «Спутника» основывается на классических алгоритмах информационного поиска и собственных разработках команды проекта, который зародился в 2008 году как небольшой стартап энтузиастов.

Сегодня «Спутник» запущен в режиме открытого beta-тестирования с целью усовершенствовать работу сервиса на больших объёмах данных и отладить взаимодействие системы с реальными пользователями.

Общее качество поисковой выдачи обеспечивается поисковыми алгоритмами, обучающую базу для которых формирует служба асессоров. Данные, полученные в ходе beta-тестирования и эксплуатации системы в открытом доступе, позволят улучшить алгоритмы ранжирования и качество работы системы.Технологии «Спутника» направлены на создание безопасного и полезного поискового сервиса, который предоставляет достоверную информацию и защищает пользователя от вредоносного контента, сайтов с порнографическим содержанием, пропагандой употребления наркотиков и другими материалами, нарушающими законодательство Российской Федерации.

Фильтрация ненормативного контента происходит на основе семантического описания указанных предметных областей. Для пользователя поисковой системы семейный фильтр представлен в виде трех возможных настроек: легкий, умеренный и строгий.

Поисковый робот SputnikBot

Поисковый робот «Спутника» SputnikBt ежедневно обходит сайты русского сегмента интернета. Собранная им информация в дальнейшем обрабатывается и попадает в индекс поисковой системы.

Все запросы поискового робота приходят из подсети 109.207.13.0/24. Заголовок User-Agent, посылаемый роботом, выглядит следующим образом: Mozilla/5.0 (compatible; SputnikBot/2.3). Номер версии бота, в данном случае 2.3, со временем будет увеличиваться.

Чтобы избежать чрезмерной нагрузки на сайты, поисковый робот SputnikBot при загрузке страниц придерживается следующих правил:
Если у сайта имеется несколько поддоменов, одновременная загрузка страниц может производиться не более чем с четырёх поддоменов;
Страницы с каждого поддомена загружаются последовательно;
Минимальная задержка по умолчанию между двумя последовательными запросами к поддомену составляет 2 секунды.

Запретить или разрешить обход и индексацию определённых страниц сайта можно одним из следующих способов:
С помощью директив Disallow/Allow в файле robots.txt;
С помощью meta-тегов robots;
C помощью HTTP-заголовков X-Robots-Tag.

Кроме того, при помощи директивы Crawl-delay в файле robots.txt можно управлять скоростью обхода страниц сайта. При анализе файла robots.txt поисковый робот использует директивы, описанные для User-Agent с именем SputnikBot:
User-Agent: SputnikBot;
Disallow:.

Регистр символов в имени бота значения не имеет. Не следует указывать номер версии поискового робота.

В случае если директивы для робота SputnikBot отсутствуют, поисковый робот будет использовать директивы общие для всех роботов:
User-Agent: *;
Disallow: /

Требования к префиксам пути директив Disallow/Allow:
пустой префикс директивы Disallow эквивалентен записи Allow: /;
пустой префикс директивы Allow эквивалентен записи Disallow: /

Все непустые префиксы должны начинаться с символа /. Допускается использование специальных символов:
* — обозначает произвольное количество символов в пути (0 и более);
$ — обозначает конец пути.

В случае конфликта директив Disallow/Allow используется директива, имеющая более длинный префикс пути; при одинаковой длине префикса приоритет отдаётся директиве Allow. Всё, что не запрещено явным образом, считается разрешённым для загрузки и индексации.

При помощи директивы Crawl-delay можно задать минимальную задержку между двумя последовательными запросами робота к сайту. Значение минимальной задержки может быть дробным:
User-Agent: SputnikBot;
Crawl-delay: 0.1 dle
Вернуться

Комментарии:


  1. qwerty → 6 июня 2014 18:58
    угу щас прям, все вебмастера так взялись и начали затачивать сайты под мегосуперпоисковик спутник
  2. blinnd → 27 октября 2014 11:55
    Link for downloads please.
  3. Flesha → 27 октября 2014 11:57
    This is news.
  4. Dnemas → 8 января 2015 14:36
    Молодцы ребята, правда вряд ли смогут гигантов подвинуть.
    Нужны более решительные меры.
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.