全球主机交流论坛

标题: 可视化的网页内容抓取工具 Portia [打印本页]

作者: riskstar    时间: 2014-7-11 11:42
标题: 可视化的网页内容抓取工具 Portia
Portia Spider(孔蛛)号称世界上最聪明的蜘蛛,孔蛛属,英文名 Portia,也翻译为波西亚蜘蛛(波西亚跳蛛)。

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。

这些规则可以在#Scrapy#中使用,用于抓取页面。



具体请参考:http://blog.scrapinghub.com/2014/04/01/announcing-portia/

Github: https://github.com/scrapinghub/portia

视频介绍:http://v.youku.com/v_show/id_XNjkzNjkwODE2.html
作者: yjlml    时间: 2014-7-11 11:44
看不懂   上个教程吧  也懒得看 那么多字
作者: 槛外人    时间: 2014-7-11 11:45
手动选取DOM节点,全自动化,很好很喜欢。
作者: h0stl0c    时间: 2014-7-11 11:58
本帖最后由 h0stl0c 于 2014-7-11 12:00 编辑

搞定了。还行。
(, 下载次数: 3)
作者: scand    时间: 2014-7-11 12:03
32个赞
作者: 暮雨秋晨    时间: 2014-7-11 14:26
py运行,浏览9001端口下的某网页,然后~~~啪啪啪
作者: woshigaozhen    时间: 2014-7-11 17:58
看起来非常不错啊。




欢迎光临 全球主机交流论坛 (https://kokgog.com/) Powered by Discuz! X3.4