Pull to refresh

Ловим ботов, которые ходят по ссылкам в твитах

Reading time2 min
Views1.1K
Пользуясь CloudApp я обратил внимание на то, что только что опубликованные ссылки в твиттере получают сразу по 18-20 хитов. Очевидно, что это роботы, а я решил их посчитать.

Я создал на своем сервере пустой html-файл и опубликовал ссылку на него в твиттере. После этого я собрал значения User-Agent'ов, обративщихся по этой ссылке. Причем, сам твит я почти сразу удалил.

Засветились сервисы и продукты:
IP Referer
38.113.234.181 Voyager/1.0 (два раза)
128.242.241.133 Twitterbot/0.1
204.236.175.30 JS-Kit URL Resolver, js-kit.com (два раза)
66.249.71.218 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
216.24.142.45 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7 OneRiot/1.0 (http://www.oneriot.com)
74.123.148.48 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
65.52.17.163 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
204.236.206.79 PostRank/2.0 (postrank.com)
204.236.202.14 Mozilla/5.0 (compatible; kmbot-62c5/0.0; +http://knowmore.com/bots)
65.52.2.3 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
79.99.6.106 Twingly Recon
174.129.146.212 PycURL/7.18.2
72.14.212.81 AppEngine-Google; (+http://code.google.com/appengine; appid: linksalpha)
89.151.116.54 Mozilla/5.0 (compatible; MSIE 6.0b; Windows NT 5.0) Gecko/2009011913 Firefox/3.0.6 TweetmemeBot
70.37.65.108 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
64.13.147.188 Mozilla/5.0 (compatible; abby/1.0; +http://www.ellerdale.com/crawler.html)
75.101.235.29 -
74.112.128.62 Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8
174.129.89.199 Python-urllib/2.5


Если захотите блокировать их, то пригодится www.botsvsbrowsers.com

PS. Публикуя ссылку на «тяжелую» ссылку на своем сайте имейте в виду, что к каждому ретвиту будет +20 хитов.
Tags:
Hubs:
Total votes 25: ↑23 and ↓2+21
Comments11

Articles