web扫描爬虫优化

smarttang · 2014/11/13 10:44

0x01 需求背景

公司要弄自动化的扫描工具，目前市面上的工具都无法针对业务进行检测，所以只能自己开发。辣么，就有个问题，爬虫需要自己去写。。。

之前自己也写过相关的爬虫，但是要么是半成品，要么就是垃圾代码…很多都无法直接引用，所以，在强大的KPI考核下，强迫自己代码重构。用Python写起。

0x02 遇到问题

本身在爬虫上轻车熟路，很轻易就写出了一个根据多线程的爬虫，完成整站扫描，但是问题来了，效率如何提高。仔细观察下扫描的链接就发现，它爬取了很多链接，都是一些重复性比较高的链接，例如以下：

这些链接都是静态的页面，也就是一些新闻之类的，页面架构的都差不多，这个情况我们自己知道，但是爬虫是不了解的。它只是按照我们指定的规则去做，所以导致爬虫效率降低。

在我预想的情况下，一些静态的页面，我们是可以减少抓取的，通过减少抓取我们可以提高整体的效率。例如：

http://www.xxx.com/news/ziyue/2014/1029/61069.html

http://www.xxx.com/news/ziyue/2014/1029/61070.html

http://www.xxx.com/news/ziyue/2014/1029/61071.html

这三个URL中，我们只需要抓取一条作为典型，完全就能达到我们的需求，不需要将所有的抓下来。因为大家都知道，这是伪静态生成的。那么问题来了，该怎样去做这个规则？小伙伴可能有想法说：“你怎么知道这种静态页面就一定架构一样呢？” 好吧，我不确定，但是我有办法去确定。现在就以上面的URL做个拆分了解下：

http://www.xxx.com/ 这个是host

/news/ziyue/2014/1029/ 这个是具体的目录，或者说是具体的文章归类。

61069.html 这个是具体的页面。

上面分析后，小伙伴又有新的问题：“莫装逼，你怎么知道人家的URL一定按照这个标准来？” 好吧，对此我整理了下我所发现的URL组合规则，目前很多URL都是以以下几种方式组成的。

1）静态页面型：

http://[host]/xxx/xxx/xxx/[int|string].html

2）rewrite型：

http://[host]/xxx/xxx/xxx/[string|int]

3）目录型:

http://[host]/xxx/xxx/xxx/Catalog/

4）不固定型:

http://[host]/xxx/xxx/xxx/file.[asp|php|aspx|do|jsp]?[string|int]=[string|int]

0x03 奇葩的实验

找到了这些规律后，应该考虑怎样去把爬虫的质量提升起来，降低重复率，然后就有了以下奇葩的实验：

1）先建立规则：

2) 然后针对这些规则进行引用、测试。

运行结果诸如:

确实达到了我期望的结果…. 本文只是抛砖引玉，可能代码略挫。各位大侠轻拍，射射。

【实验前】

【实验后】

wilence 2016-01-04 14:02:34

有关于并发方面的经验可以分享吗？

路飞 2015-02-17 15:41:10

我觉得就让爬虫先爬完，然后再进行过滤。万一漏掉了什么。。。如有不对请指正

xsser 2014-12-02 18:28:02

来洞主来一个爬ajax的

风之传说 2014-11-28 00:07:35

楼主加油写啊，写出来记得共享一份。。

smarttang 2014-11-27 14:46:37

对的撒，这也是我一直在琢磨的事情。。

iv4n 2014-11-21 20:41:59

很不错的，至少解决了很大一部分问题。
URL去重这块，有通用的地方，不过也有和业务粘性比较强的地方，比如taobao和sina的，差很多；
本质问题是URL相似度判断，后续只需要根据业务情况和机器学习调整对应域名的各个模块权重来控制相似度，阈值内做去重即可。

smarttang 2014-11-17 12:01:39

这个想法挺好，规则库可以不断的完善，前提是有需求，功能是可以迭代的。

insight-labs 2014-11-16 08:35:44

我觉得用规则不是很好，因为你永远也不知道还有哪些奇葩的rewrite方法。
我的想法是把url做一个简单的hash，比如先过滤掉非ascii字符后(有些奇葩新闻站url里是新闻标题)，把url每个字符的ascii值相加得到的总和作为hash，每个url生成的hash放到list里面，放进去之前先检查一下和list里面已经有了的url的差值，如果差值大于某阈值，说明url相似度比较低，所以可以爬，然后把hash放进list反之则跳过。

xyw55 2014-11-14 23:31:19

好牛啊！不是很懂。

smarttang 2014-11-14 17:44:00

我个人觉得这样理解比较好：
1）如果是静态链接，例如html/htm这种，就按照我之前说的方法去弄。
2）如果是那种动态链接，就是比如xx.php?xx=[int|string]这种，就全抓下来，这样应该就能解决该问题把？
3）因为这个只是讨论爬虫，如果说还要讨论判断注入的话会影响效率，我想的是，把链接抓完以后统一用sqlmap来批量检查，然后再倒入结果。

wa3lker 2014-11-14 17:08:42

大侠牛逼，学习了！

luwikes 2014-11-14 11:39:12

同遇到，求解释。另外，“还有类似case”能详细说说吗？

wu311 2014-11-14 10:40:15

我与遇到过这样的问题，求解释

smarttang 2014-11-13 20:37:29

一起撸。。

xsser 2014-11-13 18:26:22

来一发啊

smarttang 2014-11-13 14:20:51

可以啊！Email:[email protected] qq:505575655

zcy 2014-11-13 14:15:25

可否留个联系方式一起交流

smarttang 2014-11-13 14:01:34

嗯。。之前去360的时候，我记得有小伙伴说过这个方案，用webkit，不过我想试试别的方案。。。嘿嘿...

aa 2014-11-13 13:58:40

可以看下url的相似性，ajax可以试试命令行的webkit

smarttang 2014-11-13 13:36:01

ajax异步并不是不能解决。ajax你所看到的都是固定的格式，我思考的方式是，根据正则来捕获，然后提交参数。
我之前写过一个类似的插件，但是那个版本有点残缺，目前准备完善一个解析ajax的插件。后面如果wooyun允许，我会接着写一篇文章专门说扫描中的ajax识别。
【想法残缺代码】：
https://github.com/smarttang/w3a_Scan_Console/blob/master/module/form-test_module.py

zcy 2014-11-13 13:31:11

我比较关注对于ajax异步请求怎么解决。。。

smarttang 2014-11-13 13:28:34

射射。。

smarttang 2014-11-13 13:25:05

这个就是实现这个功能的...但是可能描述的不够清晰..后面我会接着研究，然后细化，再把研究结果发出来。。

smarttang 2014-11-13 13:23:55

这个目前还没遇到过。。。注入这块我准备用sqlmap批量检测的功能实现，目前还在完善插件库。你所说的统计我是有的，贴出来的这个是修改版本，为了让大家看得清晰些。我还想不断优化规则，然后将结果变得更加清晰些。欢迎一起讨论学习，Email:[email protected] :)

smarttang 2014-11-13 13:20:54

...THX..还希望多交流。。

px1624 2014-11-13 13:18:40

挺好的。感觉抓取到URL然后根据URL的规则分析出正则，然后再排除抓正则中的URL就比较给力了。

asdf 2014-11-13 13:08:34

还需要优化下。应该是有个计数，配置相似度相同的URL爬取的个数。
我想小伙伴一定没有碰到 page.php?id=9527 可以注入，而page.php?id=9528 不能注入的情况
还有类似case。做安全检测，不能一棍子打死。灵活配置，在效率和覆盖面做好平衡是关键。这就是扫描器的精髓。

0xLucifer 2014-11-13 12:08:30

打的一手好码，最开始看字符长度我特么还以为是58呢

龍、 2014-11-13 11:22:49

赞起来

墨迹哥 2014-11-13 11:11:49

好久木有给我们撸了...是因为我们给的礼物不够牛逼么？还是钱没给到位？回头把地址发来，我给大伙发下礼物啥的。

疯子 2014-11-13 11:09:52

37.com 赞起来！

smarttang 2014-11-13 11:07:42

我擦。。最后没打马赛克。。。

感谢知乎授权页面模版

0x01 需求背景

0x02 遇到问题

0x03 奇葩的实验

为您推荐了适合您的技术文章: