Re: запрет фальшивых Googlebot

Илья Шипицин chipitsine на gmail.com
Сб Окт 10 08:50:24 UTC 2015


говорят, что поисковики таким образом могут находить поисковый спам (т.е.
ситуацию, когда контент, отдаваемый роботу, отличается от
пользовательского).
возможно, это сам гугл и был

9 октября 2015 г., 15:36 пользователь Autopilot <nginx-forum на nginx.us>
написал:

> Недавно подопечные сервера начали перегружаться по DDoS, как правило, с
> одного ip из примерно 3000 шел один запрос на произвольную страницу одного
> из сайтов сервера с user agent Googlebot. IP не принадлежал сетям Google.
> Появилась идея опознать бота и разрешить доступ только для сетей google.
> Конструкция вида if ($http_user_agent ~* googlebot ) { deny all; allow
> GOOGLENETS;} не разрешается. На основе ветки
> http://forum.nginx.org/read.php?2,202715,202715#msg-202715 и статьи хабра
> был составлен рецепт
>
> http {
> #...
> geo $bot_ip {
>     default 0;
>     216.239.32.0/19     1;
>     64.233.160.0/19     1;
>     66.249.80.0/20      1;
>     66.249.64.0/19      1;
>     72.14.192.0/18      1;
>     209.85.128.0/17     1;
>     66.102.0.0/20       1;
>     74.125.0.0/16       1;
>     64.18.0.0/20        1;
>     207.126.144.0/20    1;
>     173.194.0.0/16      1;
> }
>
> map $http_user_agent $is_bot {
>     default 0;
>     ~Googlebot          1;
> }
>
> map "$is_bot:$bot_ip" $fake_bot {
>     default     0;
>     "1:0"       1;
> }
> # ...
> server {
> #...
>         if ($fake_bot) {
>             return 418;
>         }
> #...
> }
> #...
> }
>
> Код ошибки выбран для парсинга логов на предмет новых ip гугла.
>
> Привел тут как пример решения задачи и для поиска более оптимальных решений
>
> Posted at Nginx Forum:
> http://forum.nginx.org/read.php?21,262080,262080#msg-262080
>
> _______________________________________________
> nginx-ru mailing list
> nginx-ru на nginx.org
> http://mailman.nginx.org/mailman/listinfo/nginx-ru
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mailman.nginx.org/pipermail/nginx-ru/attachments/20151010/12b64b8a/attachment.html>


Подробная информация о списке рассылки nginx-ru