您现在的位置: 天下网吧 >> 网吧天下 >> 网吧行业 >> 网络追踪 >> 正文

震惊,大多数互联网用户都不是人

[作者:佚名 来源:不详 时间:2014-12-26我来说两句
:震惊,大多数互联网用户都不是人

网站安全和内容分发公司Incapsula发布了一个数据,56%的网页浏览量都由爬虫机器人贡献。

爬虫机器人因为功能和目的不同分为这几类:

Search engine crawlers:搜索引擎爬虫,它们能够对网页建立索引,这样人们就可以在搜索框查找到对应网页的内容。Google就使用这个爬虫整理全世界的信息。

RSS bots:订阅类爬虫,能够从网站抓取内容聚合起来,鲜果、今日头条和网页新闻客户端就使用了这类爬虫。

SCrapers:网页爬虫,一般是盗取内容、邮箱地址和逆向破解定价模型,它可以作用在电子商务网站。

Impersonator:拟人伪装爬虫,它能够伪装成搜索引擎或者浏览器,以避免被网站发现。它能够搜集营销情报,发动DDos攻击,消耗带宽甚至使网站瘫痪。

Hacking Tools:黑客工具,它能够盗取信息,植入流氓软件,破坏网页内容甚至劫持网站和服务器。

Spammers:垃圾邮件发送工具,它可以骚扰普通访客,发布无关内容或者钓鱼链接。它还可以加载过量链接,让网站进入搜索引擎的黑名单而从互联网“消失”。

在56 %的访问中,恶意爬虫机器人占比29%,善意占比27%。随着RSS爬虫的减少,善意爬虫的比例更小了。

大部分网站的爬虫访问比例在63%到80%之间,越小的网站爬虫访问的比例越高。搜索引擎爬虫是这一现象的主要原因,它对小网站和大网站几乎无差别对待,而平均每个网站一天要被谷歌的搜索引擎爬虫访问187次。

拟人伪装爬虫增长很快,它是过去3年里唯一持续增长的爬虫。在上面提到的Google搜索引擎爬虫中,平均来说每24次访问就会有一个伪装爬虫来访。在这些伪装爬虫中,25.16%来自美国,中国占比15.61%,是第二大的来源国。

RSS爬虫逐渐走向衰落。老一代RSS工具,例如Google Reader、鲜果都已经走向死亡。

Incapsula的数据来源于20000个每天至少有10个访问量的网站,它整理了过去90天的150亿次访问数据得出了这个结果。

我们的所见所得,数据安全,带宽消耗和广告浏览都和爬虫机器人息息相关,它们重塑了我们工作和生活的方式。




关注天下网吧微信,了解网吧网咖经营管理,安装维护:


本文来源:不详 作者:佚名

相关文章
没有相关文章
声明
本文来源地址:http://www.ithome.com/
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。若文章侵犯了您的相关权益,请及时与我们联系,我们会及时处理,感谢您对本站的支持!联系邮箱:support@txwb.com.,本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧 网吧天下