

原帖由 Kokgog 于 2011-5-13 19:04 发表
自己写的最高效
接下来是nutch,heritrix,scrapy这类爬虫框架,具体的连接处理和入库也要自己写的
第三类是火车头这些
第四类是php,asp之类的web采集器
越是通用的方案,越要考虑用户的使用习惯的程序,越是低效,本来就是共 ...
学习

原帖由 Kokgog 于 2011-5-13 19:04 发表
自己写的最高效
接下来是nutch,heritrix,scrapy这类爬虫框架,具体的连接处理和入库也要自己写的
第三类是火车头这些
第四类是php,asp之类的web采集器
越是通用的方案,越要考虑用户的使用习惯的程序,越是低效,本来就是共 ...
| 欢迎光临 全球主机交流论坛 (https://loc.wget.at/) | Powered by Discuz! X3.4 |