全部评论(1条)
-
- 哈哈哈哈去草 2016-12-16 00:00:00
- 由于项目需求收集并使用过一些爬虫相关库,做过一些对比分析。以下是我接触过的一些库: Beautiful Soup。名气大,整合了一些常用爬虫需求。缺点:不能加载JS。 Scrapy。看起来很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。 mechanize。优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。 selenium。这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。 cola。一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高,不过值得借鉴。 以下是我的一些实践经验: 对于简单的需求,比如有固定pattern的信息,怎么搞都是可以的。 对于较为复杂的需求,比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发,这种情况下是很难找到一个契合需求的库的,很多东西只能自己写。 至于题主提到的: 还有,采用现有的Python爬虫框架,相比与直接使用内置库,优势在哪?因为Python本身写爬虫已经很简单了。 third party library可以做到built-in library做不到或者做起来很困难的事情,仅此而已。还有就是,爬虫简不简单,完全取决于需求,跟Python是没什么关系的。
-
赞(18)
回复(0)
热门问答
- python网络数据采集 用python写网络爬虫 哪个好
2016-12-15 07:11:56
374
1
- htmlparser 网络爬虫 数据采集
- 我用的是htmlparser初学者,到ie.html()就报这个错希望大神们帮我看看java.lang.IllegalArgumentException:Value204doesnotbelongtospecifiedcom.jniwrapper.win32.ie.event.StatusCo... 我用的是htmlparser 初学者,到ie.html()就报这个错 希望大神们帮我看看 java.lang.IllegalArgumentException: Value 204 does not belong to specified com.jniwrapper.win32.ie.event.StatusCode enumeration at com.jniwrapper.util.Enums.getItem(SourceFile:44) at com.jniwrapper.win32.ie.event.StatusCode.create(SourceFile:79) at com.jniwrapper.win32.ie.aB.navigateError(SourceFile:525) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.IDispatchServer.invoke(SourceFile:209) at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.b(SourceFile:239) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.callback(SourceFile:142) at com.jniwrapper.Callback.enterPoint(SourceFile:222) at com.jniwrapper.Function.invokeCFunc(Native Method) at com.jniwrapper.FunctionCall.a(SourceFile:126) at com.jniwrapper.FunctionCall.call(SourceFile:34) at com.jniwrapper.Function.invoke(SourceFile:164) at com.jniwrapper.Function.invoke(SourceFile:188) at com.jniwrapper.win32.MessageLoopThread$LoopThread.run(MessageLoopThread.java:489)ps:分不够了啊~~~~ 展开
2014-01-12 07:12:40
362
2
- 异构数据采集技术和网络爬虫采集有什么区别?
2017-09-14 17:03:06
417
2
- python 做监控数据采集,怎么做.新手请教
2015-01-31 15:20:56
395
1
- 承德软件开发 Python和Ruby哪个就业好
2018-07-17 01:11:53
564
1
- python 数据分析 用什么软件
2016-10-23 00:37:06
284
2
- 学习python,用什么软件?
2012-12-01 01:12:11
233
4
- python和r数据分析哪个更好
2015-09-02 12:22:33
385
3
- 网络爬虫抓取数据 有什么好的应用
2016-06-29 17:10:20
411
1
- python 监控视频分析
- 我有一段视频,想做个分析看那个时间段图像有变化,有没有什么现在工具或者用python写个分析代码。... 我有一段视频,想做个分析看那个时间段图像有变化,有没有什么现在工具或者用python写个分析代码。 展开
2017-01-10 11:19:51
470
1
- wan能数据采集引擎和一般的网络爬虫程序有什么区别
2018-02-04 01:15:54
331
1
- 高纬数据用python什么工具包绘图好
2016-06-12 18:09:27
322
1
- 如何评价利用python制作数据采集,计算,可视化界面
2016-09-19 17:54:54
245
1
- 怎么用VBA或网络爬虫程序抓取网站数据
2017-03-29 07:14:03
397
1
- C#实现网络数据采集
- Z近看到个题目,从一个网页上采集数据,根据采集到的数据进行数据库更新等操作。用C#的话,该怎么实现呢,怎么在网页上采集数据呢我该看看哪些资料呢谁有代码或者资料啊传来看看哦先... Z近看到个题目,从一个网页上采集数据,根据采集到的数据进行数据库更新等操作。 用C#的话,该怎么实现呢,怎么在网页上采集数据呢 我该看看哪些资料呢 谁有代码或者资料啊 传来看看哦 先谢谢啦 我的邮箱 tonglei12345@126.com 网页上的一个Table 里面的数据采集下来 根据采集到得数据对数据库进行更新的操作 怎么弄呢 初学者 还望说详细点哈 Z好举例说明哦 展开
2009-04-10 23:23:05
387
2
- java和python编码
- 运行Java和python代码时中文乱码,sublime有提示错误
2018-11-30 22:51:31
253
0
- python要不要加数据类型
2018-12-02 20:23:07
314
0
- python 如何添加计时器
- 如何在每一步运行之前查看程序已经运行了多久
2016-05-15 13:20:36
249
1
- 利用python进行数据分析 用什么软件
2017-11-10 17:45:43
491
2
- python的GUI设计用什么软件?
2017-12-10 04:26:31
296
2
9月突出贡献榜
- 单位预算忏悔
- 饿啊地方
- 空中有牛
- 依然相信你会
- 本生(天津)健康科技有限公司
- 猫合宝
- 武汉安德信检测设备有限公司
- 上海一科仪器有限公司
- 广东皓天检测仪器有限公司
- 东莞市皓天试验设备有限公司
- futu888
- 牛牛麻麻2
推荐主页
最新话题
参与评论
登录后参与评论