全球主机交流论坛
标题:
可视化的网页内容抓取工具 Portia
[打印本页]
作者:
riskstar
时间:
2014-7-11 11:42
标题:
可视化的网页内容抓取工具 Portia
Portia Spider(孔蛛)号称世界上最聪明的蜘蛛,孔蛛属,英文名 Portia,也翻译为波西亚蜘蛛(波西亚跳蛛)。
Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。
这些规则可以在#Scrapy#中使用,用于抓取页面。
具体请参考:http://blog.scrapinghub.com/2014/04/01/announcing-portia/
Github: https://github.com/scrapinghub/portia
视频介绍:http://v.youku.com/v_show/id_XNjkzNjkwODE2.html
作者:
yjlml
时间:
2014-7-11 11:44
看不懂 上个教程吧 也懒得看 那么多字
作者:
槛外人
时间:
2014-7-11 11:45
手动选取DOM节点,全自动化,很好很喜欢。
作者:
h0stl0c
时间:
2014-7-11 11:58
本帖最后由 h0stl0c 于 2014-7-11 12:00 编辑
搞定了。还行。
(, 下载次数: 3)
上传
点击文件名下载附件
作者:
scand
时间:
2014-7-11 12:03
32个赞
作者:
暮雨秋晨
时间:
2014-7-11 14:26
py运行,浏览9001端口下的某网页,然后~~~啪啪啪
作者:
woshigaozhen
时间:
2014-7-11 17:58
看起来非常不错啊。
欢迎光临 全球主机交流论坛 (https://kokgog.com/)
Powered by Discuz! X3.4