Spider yandex com что это
Перейти к содержимому

Spider yandex com что это

  • автор:

Фейковый бот Яндекса 77-88-47-68.spider.yandex.com ?

Это Яндекс, или кто-то маскируется под него? Стоит ли их забанить?

  • eTarget 2011:Панельная дискуссия «Стратегия и планирование рекламной кампании в интернете»
  • eTarget 2011: Круглый стол «Реклама в онлайн-видео»
  • Могут ли «плохие» входящие ссылки привести к ухудшению ранжирования?

Это доменное имя резолвится ДНСом Яндекса на заявленный IP адрес:

Т.е. этот IP владельца домена yandex.com

Айпишники принадлежат яндексу. Я б пока банить не стал 🙂

А что за юзер агент?

У Яндекса там лет 8 сети есть. Да и офис.

У меня давно эти айпи в вайтлисте

Ну да, у меня тоже 🙂

И у меня в базе ботов есть, оказывается.

Если установлено значение Crawl-delay: 40 для Яндекса и Меил.ру , но я визуально вижу роботы заходят чаще. Нормально ли их банить скажем на 5 минут, как реализовано в плагине WP Wordfence Security?

Как снять ДОС-атаку с сайта от YandexBot ?

Бывают такие ситуевины, когда Яндекс вдруг начинает мнить о себе слишком много и начинает скнировать сайт вдоль и поперек. Причем одни и теже страницы сканируются по несколько раз в день не имея на это никаких причин.
Такое поведение я называл бы так: ДОС-атака YandexBot

В логах неразобранных журналов отчетливо виден шквал запросов, которые идут к сайту-жертве примерно до 4 запросов в секунду.

Если при этом сайт работает на голом WordPress, то недорогой шред хостер пообещает вам вас обидеть своею сильной волосатой рукой. И поверьте, вам не будут доказывать почему вы не правы.

Пример ДОС атаки от YandexBot:

5.255.253.31 — — [04/Feb/2015:15:09:49 +0300] "GET /jkeks.ru/?p=4393 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:50 +0300] "GET /jkeks.ru/?p=6426 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:50 +0300] "GET /jkeks.ru/?p=1722 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:50 +0300] "GET /jkeks.ru/?p=9547 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:50 +0300] "GET /jkeks.ru/archives/9563/feed HTTP/1.0" 200 1031 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:50 +0300] "GET /jkeks.ru/?p=4309 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:51 +0300] "GET /jkeks.ru/archives/906/feed HTTP/1.0" 200 932 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:51 +0300] "GET /jkeks.ru/?p=9733 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:51 +0300] "GET /jkeks.ru/archives/2290/comment-page-1 HTTP/1.0" 200 28550 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:51 +0300] "GET /jkeks.ru/archives/1776/feed HTTP/1.0" 200 948 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:51 +0300] "GET /jkeks.ru/?p=1832 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:52 +0300] "GET /jkeks.ru/archives/1804/feed HTTP/1.0" 200 939 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:52 +0300] "GET /jkeks.ru/?p=5053 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:52 +0300] "GET /jkeks.ru/?p=5845 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:52 +0300] "GET /jkeks.ru/?p=769 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:53 +0300] "GET /jkeks.ru/archives/677/feed HTTP/1.0" 200 936 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:53 +0300] "GET /jkeks.ru/archives/1246/comment-page-1 HTTP/1.0" 200 26659 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:53 +0300] "GET /jkeks.ru/?p=909 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:53 +0300] "GET /jkeks.ru/archives/10123 HTTP/1.0" 200 27508 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:53 +0300] "GET /jkeks.ru/?p=6510 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:54 +0300] "GET /jkeks.ru/?p=1929 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:54 +0300] "GET /jkeks.ru/archives/5591 HTTP/1.0" 200 27555 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:54 +0300] "GET /GGLreports/loadGGL2.php HTTP/1.0" 404 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:54 +0300] "GET /jkeks.ru/archives/5384 HTTP/1.0" 200 27582 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:55 +0300] "GET /jkeks.ru/archives/9547/feed HTTP/1.0" 200 940 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:55 +0300] "GET /jkeks.ru/?p=8220 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:55 +0300] "GET /jkeks.ru/archives/3046 HTTP/1.0" 200 27289 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:55 +0300] "GET /jkeks.ru/?p=2215 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:55 +0300] "GET /jkeks.ru/archives/2099 HTTP/1.0" 200 31447 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:56 +0300] "GET /jkeks.ru/?p=1028 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:56 +0300] "GET /jkeks.ru/?p=6922 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:56 +0300] "GET /jkeks.ru/archives/5932 HTTP/1.0" 200 27487 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:56 +0300] "GET /jkeks.ru/archives/7666/feed HTTP/1.0" 200 997 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:57 +0300] "GET /jkeks.ru/archives/2954 HTTP/1.0" 200 28072 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:57 +0300] "GET /jkeks.ru/?p=1021 HTTP/1.0" 301 — "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:57 +0300] "GET /jkeks.ru/archives/1472 HTTP/1.0" 200 24978 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
5.255.253.31 — — [04/Feb/2015:15:09:57 +0300] "GET /jkeks.ru/archives/1819/feed HTTP/1.0" 200 938 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

Как мы видим Яндекс лупит по нам аш 5 раз в секунду без зазрения совести:

Как это проблему ДОС атаки от Яндекса ?

Яндекс и не скрывает своих намерений. Ведь нормальные хостинги и нормально настроенные WordPress смело выдерживают эти комариные укусы. Но на всякий случай все поисковики поддерживают директиву Crawl-delay.

Для этого в корень вашего сайта в файл robots.txt в раздел Ядекса нужно прописать строку:

User-agent: Yandex
Crawl-delay: 10

UserAgent может быть YandexBot встречал даже YandexBot/0.3, но при этом начинает глючить проверка в Вебмастере.

Узнать свой IP-адрес

Достаточно воспользоваться нашим простым, удобным и надежным инструментом.

Скройте личные данные, защитите трафик и снимите все лимиты со своего интернета!

Подробнее об IP-адресе

IP-адрес, читается как «айпи адрес», а происходит от сокращения английского «Internet Protocol Address». Это уникальный номер устройства, подключенного к интернету, либо локальной сети.

Отвечаем на самые популярные вопросы про IP-адрес, его использование и варианты изменения.

Как узнать мой IP-адрес?

IP-адрес вашего компьютера можно узнать при помощи специализированных сервисов. Они запрашивают у вашего браузера и системы информацию об IP-адресе. Например, на этой странице отображается такая информация.

Как его изменить?

Если ваш провайдер работает с меняющимися, т.е. динамическими IP-адресами, достаточно выключить роутер, подождать несколько минут и снова включить его. Скорее всего, сеть выдаст вам новый адрес. Но это будет по-прежнему ваш реальный IP-адрес. Если вы хотите не только изменить адрес, но сделать его анонимным, используйте прокси или VPN.

Почему прокси не скрывает мой реальный IP-адрес?

Возможно, вы неправильно подключили прокси сервер в браузере или используете HTTP-прокси, который не настроен скрывать реальный IP. Используйте другой тип прокси, с более высоким уровнем анонимности, либо VPN-сервис.

Как сервис определяет, что используется прокси?

Используйте Socks-прокси с повышенным уровнем анонимности, чтобы полностью скрыть факт использования прокси. Второй, ещё более надежный способ, подключить VPN. В этом случае, помимо смены IP-адреса, вы защитите свой интернет-трафик.

Как получить постоянный адрес, если мой айпи постоянно меняется?

Есть несколько способов. Можно купить у своего интернет-провайдера услугу выделенного IP-адреса за дополнительную плату в месяц. Но не все дают такую возможность. Лучше подключиться к VPN-сервису со статическими адресами. Часто этот вариант даже дешевле.

Можно ли скрыть информацию о системе и браузере?

Эту информацию сообщает ваш браузер. Поэтому изменить её можно только в браузере. Например, при помощи плагина «Random User-Agent». Дополнительно рекомендуем установить плагин предотвращающий утечку айпи-адреса через WebRTC: «Disable WebRTC» или «WebRTC Leak Prevent».

Топ 20 ботов которые постоянно сканируют ваши сайты. Не все из них одинаково полезны

Здравствуйте! На связи Максим Кульгин, моя компания clickfraud.ru защищает предпринимателей от ущерба, вызываемого действиями «плохих» роботов. Многие администраторы веб-сайтов настолько напуганы современными сетевыми угрозами, что без разбора готовы бороться против всех средств автоматизированного обхода. Оправдана ли такая глухая линия обороны? Вряд ли.

Существует огромное количество «хороших» роботов, без которых не то что не обойтись, а даже не выжить. Этот небольшой обзор поможет всем, кто ведет деятельность в интернете.

В конце статьи мы посмотрим, почему простое противодействие роботам бесполезно и кроме вреда и головной боли ничего не принесет. А заодно и подскажем: от кого защищаться и как именно.

Начнем с самого простого.

Любой маркетолог скажет, что содержимое сайта должно постоянно обновляться — снова и снова — только так можно заполучить благосклонность SEO (Search Engine Optimization, оптимизация под поисковые системы), а значит, и шанс на внимание со стороны целевой аудитории.

Однако бывает, что сайты содержат сотни и даже тысячи страниц. И что? Привлекать поисковики вручную? Если контента много и он обновляется часто — как гарантировать, что изменения действительно благотворно скажутся на SEO?

Вот тут-то и вступают в игру поисковые роботы! Такой робот прочитает карту сайта, сравнит даты последнего обновления (у себя и на сайте) — и проиндексирует новое содержимое!

Кто-то подумает, что поисковые роботы — это Google Bot, Yandex Bot, ну, может быть, ещё какой-то там bot. На самом деле их очень много! Тот, кто заинтересован в продвижении сайта должен знать о сетевых ботах хотя бы в общих чертах. Зачем? Чтобы использовать в свою пользу!

Здесь мы рассмотрим полный список всех роботов, которые неустанно читают сайты и о которых полезно знать. Но прежде чем нырнуть в мир, который невозможно было бы ни вообразить, ни описать ещё четверть века назад, давайте чуть ближе познакомимся с существами из цифрового мира.

Поисковый робот (их ещё называют ботами, пауками, сканерами, обходчиками) — это компьютерная программа, которая автоматически обходит веб-сайты по найденным ссылкам, читает и анализирует содержимое страниц, составляет краткую сводку для своего сервиса. Если робот работает на какую-то систему, то составление или обновление краткой сводки по веб-странице принято называть «индексацией».

Такой процесс необходим, чтобы пользователи могли мгновенно получать по своему запросу ссылки на нужные страницы из сотен миллионов существующих в интернете сайтов. Как правило, индексация — процесс автоматический, но в некоторых случаях она может быть инициирована и вручную.

Упорядочивание веб-страниц в выдаче, то есть выставление каждой некоторого рейтинга с точки зрения поисковой системы — сложная функция со множеством входных данных, наиболее влиятельные из которых: соответствие запросу, наличие внешних ссылок на страницу, авторитетность ссылающихся ресурсов и многое другое.

Всё это, включая время и труд, затраченные на создание страницы, не будет иметь ни малейшего значения, если поисковый робот на ней не побывает. Именно поэтому так важно не препятствовать роботам. Наоборот надо позволять им совершать обход и встречать как дорогих гостей: робот — друг человека! (Пока…)

Роботы выполняют свою работу постоянно — это единственный способ поддерживать точность и актуальность информации в постоянно меняющемся интернете. При этом поисковые системы — самые часто посещаемые ресурсы.

Не существует единого поискового робота, который собирает информацию для всех. У каждой поисковой системы, у каждого сервиса — свой собственный неповторимый набор роботов и алгоритмов. Поэтому те, кто создает и поддерживает работу веб-сайтов — разработчики и маркетологи — держат список «хороших» роботов, чтобы беспрепятственно пропускать их к ресурсам, при этом блокируя деятельность «плохих» роботов.

На первый взгляд просто. Рано или поздно он самостоятельно попадет на нужную страницу и проиндексирует её: соберет ключевые слова и фразы, попытается определить тематику, изучит ссылки, по которым пойдет дальше.

Путь робота до каждой веб-страницы очень извилист. Начинается он с известных URL-адресов, с некоторого перечня сайтов, полученного на основе уже собранной информации.

Веб-мастер может контролировать каким роботам какие страницы позволено читать. Делается это с помощью специального файла robots.txt

Этот же файл подскажет: какие страницы и когда обновлялись. А поисковый робот помнит: когда и какие страницы он обрабатывал последний раз. Такая согласованность в обмене информацией благотворно сказывается на эффективности всех участников.

Надо заметить, что инструкциям файла robots.txt подчиняются только послушные, «хорошие» роботы. «Плохие» же роботы, роботы-воры, роботы-скликиватели и прочие попросту проигнорируют файл robots.txt. Это хорошо, что у них нет технической возможности плюнуть в его содержимое и растереть.

Различные типы поисковых роботов используются для разных целей. Они отличаются и по стоимости, и по предназначению, и по функциональным возможностям. Условно их можно разделить на три типа:

  • собственные роботы, созданные разработчиками компании для внутренних задач, таких как аудит и оптимизация;
  • коммерческие роботы; используются готовые (например, Screaming Frog) или разрабатываются на заказ;
  • с открытым исходным кодом; бесплатные для использования, создаются различными хакерами и энтузиастами по всему миру.

Не существует универсального робота, одинаково пригодного для любых задач. Вот некоторые из наиболее распространенных на сегодняшний день.

Googlebot — универсальный поисковый робот Google, отвечающий за поиск сайтов, которые будут отображаться в одноименной поисковой системе.

Хотя технически существует две разные версии Googlebot (Googlebot Desktop и Googlebot Smartphone), большинство экспертов считают Googlebot одним единственным роботом.

Это обусловлено тем, что оба используют один и тот же уникальный токен продукта (известный как «User Agent», «пользовательский агент»), который фигурирует в robots.txt.

Когда Googlebot работает над сайтом, то производит запросы на чтение раз в несколько секунд (если только его не заблокировали в настройках robots.txt). Резервная копия прочитанных страниц сохраняется в единой базе данных, называемой Google Cache, которая доступна онлайн и позволяет просматривать старые версии сайтов.

Кроме того, Google Search Console — ещё один инструмент, которым с удовольствием пользуются веб-мастера, в том числе и для понимания того, как Googlebot сканирует сайт, а также для поисковой оптимизации страниц.

User Agent: Googlebot

Full User Agent String:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Bingbot был создан в 2010 году корпорацией Microsoft для своей поисковой системы Bing. Нужно гарантировать пользователям актуальность поисковой информации, а для этого необходимо иметь собственный поисковый робот для сканирования и индексации URL-адресов.

Как и Googlebot, Bingbot уважительно относится к предписаниям в файле robots.txt, так что разработчики или маркетологи могут определять: позволительно ли роботу от Microsoft сканировать содержимое сайта или нет.

Однако, в отличие от Googlebot, Bingbot может отличать версии сайтов для мобильных устройств: для чего как раз недавно перешел на новый тип пользовательского агента. Это, наряду с инструментами Bing для веб-мастеров, предоставляет большую гибкость в настройках того, как сайт отображается в результатах поиска.

User Agent: Bingbot

Full User Agent String:

Desktop – Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36

Mobile – Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)

«W.X.Y.Z» подразумевают версию Microsoft Edge, например, 100.0.4896.127

Российским пользователям интернета представлять Яндекс не нужно. По эффективности поиска на русском языке Яндекс часто обходит всех конкурентов.

Yandex Bot — это робот, созданный специально для поисковой системы Яндекс.

Разумеется Yandex Bot подчиняется указаниям файла robots.txt.

Сверх того веб-мастера могут добавлять на страницы специальные теги Яндекс.Метрика — сервис, «который помогает получать наглядные отчеты, записи действий посетителей, отслеживать источники трафика и оценивать эффективность онлайн- и офлайн-рекламы».

Yandex Webmaster имеет много возможностей, которые невозможно осветить в рамках этой статьи.

Поддерживается IndexNow — простой способ для владельцев веб-сайтов мгновенно информировать поисковые системы о последних изменениях содержимого.

User Agent: YandexBot

Full User Agent String:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Несложно догадаться, что Apple Bot создан для индексации страниц, чтобы отдавать максимально релевантные результаты в Siri и Spotlight.

Apple Bot учитывает множество факторов в момент принятия решения о том, какой контент следует предпочесть в предложениях для Siri и Spotlight:

  • вовлеченность пользователей;
  • релевантность поисковых запросов;
  • количество и качество ссылок;
  • сигналы, основанные на местоположении;
  • дизайн веб-страницы.

User Agent: Applebot

Full User Agent String:

Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version)

DuckDuckBot — робот для DuckDuckGo, поисковой системы, которая предлагает «бесшовную защиту конфиденциальности в вашем веб-браузере».

DuckDuckBot предоставляет API (Application Programming Interface, программный интерфейс), которым могут пользоваться веб-мастера, чтобы узнать: проиндексировал ли DuckDuckBot сайт и когда. Во время обхода он обновляет свою базу данных, в которой отражены IP-адреса и другие данные о посещенных местах.

Это помогает выявить любых роботов-самозванцев, вредоносных ботов, которые пытаются выдавать себя за DuckDuckBot.

Вообще, кроме DuckDuckGo кто-нибудь озабочен в той же степени вопросами безопасности, конфиденциальности и сохранности личной жизни пользователей сети? Оставим вопрос висящим в воздухе… (Может его «приземлит» кто-нибудь в комментариях?)

User Agent: DuckDuckBot

Full User Agent String:

DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

Baidu — ведущая китайская поисковая система, а Baidu Spider — её поисковый робот.

Поскольу Google запрещен в Китае, все кто ориентирован на китайский рынок должны стараться понравиться этой системе, и поискового робота Baidu Spider нужно встречать с распростертыми объятиями, позволяя ему индексировать сайт.

Чтобы идентифицировать Baidu Spider, пришедшего на сайт, нужно искать следующие пользовательские агенты:

  • baiduspider
  • baiduspider-image
  • baiduspider-video

и другие подобные, начинающиеся на baiduspider.

Для тех, кто наоборот — не ведет бизнес в Китае — возможно имеет смысл заблокировать Baidu Spider в файле robots.txt, что предотвратит обход сайта этим роботом, тем самым исключив любую вероятность появления информации на страницах результатов поисковой системы Baidu.

User Agent: Baiduspider

Full User Agent String:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Sogou — ещё одна китайская поисковая система, которая «первая проиндексировала 10 миллиардов китайских страниц».

Тем, кто ведет бизнес на китайском рынке нужно знать и об этой поисковой системе. Заявляется, что Sogou Spider следует предписаниям robots.txt, в том числе и параметрам задержки обхода. Получать информацию крайне трудно, так как практически вся официальная информация написана исключительно на путунхуа.

Как и в случае с Baidu Spider, тем кому не нужен рынок загадочной и экзотической восточной страны, следует отключить этот робот, чтобы не перегружать сервер понапрасну.

Full User Agent String:

Sogou Pic Spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou head spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou Orion spider/3.0( http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98)

Facebook External Hit, также известный как Facebook Crawler, обходит сайты, упомянутые на Facebook. Не следует забывать о том, что социальная сеть Facebook прошла долгий путь деградации, докатилась до того, что стала экстремистской организацией и теперь запрещена в РФ.

Использование собственного поискового робота позволяет Facebook создавать общедоступный предварительный просмотр каждой ссылки, размещенной на платформе. Заголовок, описание и уменьшенное изображение отображаются благодаря произведенному индексированию.

Посещение ссылки роботом должно благополучно завершаться в течение нескольких секунд, иначе Facebook не покажет сформированное содержимое в специальном фрагменте, сгенерированном перед публикацией.

User Agent: facebot

Full User Agent String:

facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

Exalead — компания по разработке программного обеспечения, созданная в 2000 году со штаб-квартирой в Париже. Компания предоставляет поисковые платформы для потребительских и корпоративных клиентов.

Exabot — робот для поисковой системы Exalead, построенной на их продукте CloudView.

Как и большинство поисковых систем, Exalead при ранжировании учитывает как обратные (внешние) ссылки, так и качество контента на веб-страницах. Робот создает «основной индекс» и компилирует результаты, которые и увидят пользователи поисковой системы.

Full User Agent String:

Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Exabot-Thumbnails)

Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)

Swiftype — это пользовательская поисковая система для одного веб-сайта. Она сочетает в себе «лучшие технологии поиска, алгоритмы, платформу для приема контента, клиентов и инструменты аналитики».

Этот инструмент заинтересует прежде всего тех, у кого сложный сайт с большим количеством страниц. Swiftype предлагает полезный интерфейс для каталогизации и индексации всех страниц в автоматическом режиме.

Swiftbot — поисковый робот Swiftype. Однако, в отличие от других поисковых роботов Swiftbot обходит только те сайты, которые запрашивают клиенты Swiftype.

User Agent: Swiftbot

Full User Agent String:

Mozilla/5.0 (compatible; Swiftbot/1.0; UID/54e1c2ebd3b687d3c8000018; +http://swiftype.com/swiftbot)

Slurp Bot — поисковый робот Yahoo, который сканирует и индексирует страницы для этой, некогда самой популярной, поисковой системы.

Обладание собственным роботом необходимо для любой поисковой системы. Yahoo — это не только Yahoo.com, но и партнерские сайты: Yahoo News, Yahoo Finance, Yahoo Sports.

Без качественного поискового робота посетителю не предоставить релевантную поисковую выдачу, а значит, не получить его благосклонность, не продать рекламу, не заработать денег и — в конечном итоге — уйти в архивы истории.

На примере Yahoo видно, что робот — необходимое, но недостаточное условие для удержания успеха. И даже спонсирование фестивалей душевнобольных, свихнувшихся на теме своей половой принадлежности, не помогает обойти конкурентов.

Вернемся к технической составляющей. Правильно проиндексированный контент способствует максимально персонализированной выдаче поисковых результатов. Что в конечном итоге соответствует и интересам пользователя и карманам капиталистов-извращенцев.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *