spider-flow是一个爬虫平台,以可视化推拽方式定义爬取流程,无需代码即可实现一个爬虫服务。
1.使用git下载项目源码(也可以下载zip包)。
git clone https://gitee.com/ssssssss-team/spider-flow.git项目目录结构如下图所示,其中db文件夹存放有数据库初始化脚本,spider-flow-web文件夹下为启动程序。
2.初始化数据库
使用Navicat打开“根目录\db\spiderflow.sql”下的sql文件并运行,检查数据表是否初始化成功。
3.修改配置
用IntelliJ IDEA打开项目,修改spider-flow-web下面的配置文件,主要修改数据库配置,包括连接字符串和账户密码。
application.properties
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.username=root
spring.datasource.password=123456
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true4.运行
编译,IDE会自动下载依赖包,运行SpiderApplication,等待程序启动成功,然后打开浏览器,在地址栏输入:http://localhost:8088/ 运行程序,如下图所示。
如上图所示,点击“爬取码云GVP”进入测试界面,点击工具栏上的“运行”按钮即可看到测试结果。
测试结果界面
抓取日志界面
具体语法请参考:https://www.spiderflow.org/intro.html
请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。
| 留言与评论(共有 0 条评论) “” |