全球主机交流论坛

标题: 听说火车在牛人眼里算非常低效率的采集工具了 [打印本页]

作者: cw723    时间: 2011-5-13 18:48
标题: 听说火车在牛人眼里算非常低效率的采集工具了
谁给提供一个高效率的呀。
最好是Linux下的采集工具
作者: wjhhxl    时间: 2011-5-13 18:50
什么样的牛人,说说~

他应该是不会用吧。
作者: moto72    时间: 2011-5-13 18:52
什么样的采集工具? 自己写的算不 java快平台
作者: l12ab    时间: 2011-5-13 18:52
curl。。。
作者: 挨个搞    时间: 2011-5-13 18:52
自己用curl + 正则  写呗
作者: wske    时间: 2011-5-13 18:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: 李院长    时间: 2011-5-13 18:53
wget
作者: wzwen    时间: 2011-5-13 18:57
牛人总是与众不同
作者: Host.HowPick    时间: 2011-5-13 18:58
原帖由 wzwen 于 2011-5-13 18:57 发表
牛人总是与众不同

作者: Kokgog    时间: 2011-5-13 19:04
自己写的最高效
接下来是nutch,heritrix,scrapy这类爬虫框架,具体的连接处理和入库也要自己写的
第三类是火车头这些
第四类是php,asp之类的web采集器

越是通用的方案,越要考虑用户的使用习惯的程序,越是低效,本来就是共识
作者: 大飞机    时间: 2011-5-13 19:22
低级的 都够折腾了。。
作者: yc260982    时间: 2011-5-13 19:33
够用就行
作者: 稀飯    时间: 2011-5-13 19:52
不是人人他爸都是李缸
作者: Yikmings    时间: 2011-5-13 20:55
牛人总是与众不同
作者: 晨曦初露    时间: 2011-5-13 20:59
WEB没有cookies功能。。开论坛采集必杯具
作者: zxtaobao2010    时间: 2011-5-13 21:28
至今不会用dedecms、火车头等啥采集。
如果自己要某站的内容。都是独立的去写。
作者: xspoco    时间: 2011-5-14 01:31
只会用低级采集的路过...
作者: test100    时间: 2011-5-14 11:22
10楼不亏是元老。
作者: 小夜    时间: 2011-5-14 11:41
我还是用火车头呢,没时间精力去研究其它的了。
作者: 稀飯    时间: 2011-5-14 11:51
原帖由 晨曦初露 于 2011-5-13 20:59 发表
WEB没有cookies功能。。开论坛采集必杯具

web采集可以cookies的
作者: 咖啡    时间: 2011-5-14 12:04
原帖由 稀飯 于 2011-5-14 11:51 发表

web采集可以cookies的

正解。。。
作者: lyylts    时间: 2011-5-14 12:04
一直自己写python采集。
话说采集的瓶颈不是带宽么
作者: meike    时间: 2011-5-14 12:52
火車感覺有點占資源。。每次用的時候都有點卡卡的。特別是長時間采集了。
作者: 老刘    时间: 2011-5-14 18:46
火车头 上手简单
作者: aru    时间: 2011-5-14 19:05
自己写容易控制呗
作者: nba517    时间: 2011-5-20 14:48
原帖由 Kokgog 于 2011-5-13 19:04 发表
自己写的最高效
接下来是nutch,heritrix,scrapy这类爬虫框架,具体的连接处理和入库也要自己写的
第三类是火车头这些
第四类是php,asp之类的web采集器

越是通用的方案,越要考虑用户的使用习惯的程序,越是低效,本来就是共 ...

高人
作者: nba517    时间: 2011-5-20 14:48
学习
作者: efish    时间: 2011-5-20 16:28
python写个
作者: mslxd    时间: 2011-5-20 17:26
原帖由 lyylts 于 2011-5-14 12:04 发表
一直自己写python采集。
话说采集的瓶颈不是带宽么


python的好写?
作者: 乔洋    时间: 2011-5-20 19:09
标题: 回复 10# 的帖子
...强悍
作者: WAKAKA    时间: 2011-5-20 19:12
不采集已多年。。。
作者: sunshine    时间: 2011-5-20 19:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: wingtam    时间: 2011-5-20 20:34
都是牛人
来学习下~~~
至今为止只用过低级的火车头啊~~~
作者: ucfans    时间: 2011-5-20 21:08
俺也不会写
作者: 火雪心    时间: 2011-5-20 21:59
火车速度太慢,坚决不要

还是虫虫快,采集跟CC一样,很爽
作者: wst321    时间: 2011-5-20 22:27
原帖由 Kokgog 于 2011-5-13 19:04 发表
自己写的最高效
接下来是nutch,heritrix,scrapy这类爬虫框架,具体的连接处理和入库也要自己写的
第三类是火车头这些
第四类是php,asp之类的web采集器

越是通用的方案,越要考虑用户的使用习惯的程序,越是低效,本来就是共 ...







欢迎光临 全球主机交流论坛 (https://loc.wget.at/) Powered by Discuz! X3.4