Как заблокировать доступ к SeekportBot или другим crawЯ нажал на веб-сайт

В большинстве случаев, когда вам нужно заблокировать доступ SeekportBot или другие crawl bots с веб-сайтом, причины просты. Веб-паук делает слишком много обращений за короткий промежуток времени и запрашивает ресурсы веб-сервера, или он исходит от поисковой системы, в которой вы не хотите, чтобы ваш сайт был проиндексирован.

Это очень полезно для веб-сайта, который посещают crawЯ наткнулся на него. Эти веб-пауки предназначены для изучения, обработки и индексации содержимого веб-страниц в поисковых системах. Google и Bing используют такие crawЯ наткнулся на него. Однако существуют также поисковые системы, которые используют роботов для сбора данных с веб-страниц. Seekport является одной из этих поисковых систем, которая использует crawпрограмма SeekportBot для индексации веб-страниц. К сожалению, он иногда чрезмерно использует его и создает ненужный трафик.

Что такое SeekportBot?

SeekportBot является web crawler разработан компанией Seekport, которая базируется в Германии (но использует IP-адреса из нескольких стран, включая Финляндию). Этот бот используется для сканирования и индексации веб-сайтов, чтобы они могли отображаться в результатах поиска. Seekport. Нефункциональная поисковая система, насколько я могу судить. По крайней мере, ни по одной ключевой фразе он не дал мне никаких результатов.

SeekportBot Использовать user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Как заблокировать доступ к SeekportBot или другим crawЯ нажал на веб-сайт

Если вы пришли к выводу, что это веб-паук или другой, то не обязательно сканировать весь ваш сайт и направлять ненужный трафик на веб-сервер, у вас есть несколько методов, с помощью которых вы можете заблокировать их доступ.

Брандмауэр на уровне веб-сервера

Это приложения брандмауэра open-source которые можно установить на операционные системы Linux и может быть настроен для блокировки трафика на основе нескольких критериев. IP-адрес, местоположение, порты, протоколы или пользовательский агент.

APF (Advanced Policy Firewall) это такое программное обеспечение, с помощью которого вы можете блокировать нежелательных ботов на уровне сервера.

Поскольку SeekportBot и другие веб-пауки используют несколько блоков IP-адресов, наиболее эффективное правило блокировки основано на «user agent". Итак, если вы хотите заблокировать доступ SeekportBot посредством APF, все, что вам нужно сделать, это подключиться к веб-серверу через SSHи добавьте правило фильтрации в файл конфигурации.

1. Откройте файл конфигурации с помощью nano (или другое издательство).

sudo nano /etc/apf/conf.apf

2. Найдите строку, начинающуюся с «IG_TCP_CPORTS» и добавьте пользовательский агент, который вы хотите заблокировать, в конце этой строки, после запятой. Например, если вы хотите заблокировать user agent SeekportBot", строка должна выглядеть так:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Сохраните файл и перезапустите службу APF.

sudo systemctl restart apf.service

Доступ "SeekportBot" будет заблокирован.

Фильтр web crawls с помощью Cloudflare — Заблокировать доступ SeekportBot

С помощью Cloudflare мне кажется самым безопасным и удобным методом, с помощью которого можно различными способами ограничить доступ некоторых ботов к сайту. Метод, который я также использовал в случае SeekportBot для фильтрации трафика в интернет-магазин.

Предполагая, что у вас уже есть веб-сайт, добавленный в Cloudflare, и службы DNS активированы (то есть трафик на веб-сайт проходит через Cloudflare), выполните следующие действия:

1. Откройте свою учетную запись Clouflare и перейдите на веб-сайт, для которого вы хотите ограничить доступ.

2. Перейдите к: Security → WAF и добавить новое правило. Create rule.

3. Выберите имя для нового правила, Field: User AgentOperator: ContainsValue: SeekportBot (или другое имя бота) – Choose action: BlockDeploy.

Как заблокировать доступ SeekportBot
Заблокировать доступ к SeekportBot из Cloudflare

Всего за несколько секунд новое правило WAF (Web Application Firewall) он начинает действовать.

События брандмауэра в Cloudflare
События брандмауэра в Cloudflare

Теоретически частота, с которой веб-паук обращается к сайту, может быть установлена ​​из robots.txt, но... это только в теории.

User-agent: SeekportBot
Crawl-delay: 4

Многие web crawlerii (кроме Bing и Google) не соблюдают эти правила.

В заключение, если вы идентифицируете сеть crawl кто чрезмерно посещает ваш сайт, лучше всего полностью заблокировать его доступ. Конечно, если этот бот не из той поисковой системы, в которой вам интересно присутствовать.

Поклонник технологий, с 2006 года с удовольствием пишу на StealthSettings.com. Обширный опыт работы с операционными системами: macOS, Windows и Linux, а также с языками программирования и платформами для блогов (WordPress) и онлайн-магазинов (WooCommerce, Magento, PrestaShop).

КАК » чистый серфинг » Как заблокировать доступ к SeekportBot или другим crawЯ нажал на веб-сайт
Оставьте комментарий