全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 4415|回复: 35
打印 上一主题 下一主题

听说火车在牛人眼里算非常低效率的采集工具了

[复制链接]
跳转到指定楼层
1#
发表于 2011-5-13 18:48:05 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
谁给提供一个高效率的呀。
最好是Linux下的采集工具
2#
发表于 2011-5-13 18:50:47 | 只看该作者
什么样的牛人,说说~

他应该是不会用吧。
3#
发表于 2011-5-13 18:52:15 | 只看该作者
什么样的采集工具? 自己写的算不 java快平台
4#
发表于 2011-5-13 18:52:22 | 只看该作者
curl。。。
5#
发表于 2011-5-13 18:52:59 | 只看该作者
自己用curl + 正则  写呗
6#
发表于 2011-5-13 18:53:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
7#
发表于 2011-5-13 18:53:27 | 只看该作者
wget
8#
发表于 2011-5-13 18:57:24 | 只看该作者
牛人总是与众不同
9#
发表于 2011-5-13 18:58:24 | 只看该作者
原帖由 wzwen 于 2011-5-13 18:57 发表
牛人总是与众不同
10#
发表于 2011-5-13 19:04:30 | 只看该作者
自己写的最高效
接下来是nutch,heritrix,scrapy这类爬虫框架,具体的连接处理和入库也要自己写的
第三类是火车头这些
第四类是php,asp之类的web采集器

越是通用的方案,越要考虑用户的使用习惯的程序,越是低效,本来就是共识

评分

参与人数 6威望 +71 收起 理由
wst321 + 7 精品文章
cnx + 24 精品文章
forags + 10 看来绝对是掌握了至少三种技术的牛人,怀疑第 ...
我是人 + 20 再次举双手不停点头赞成。。。 ...
David + 5 精品文章

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-11-11 20:21 , Processed in 0.096836 second(s), 14 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表