spider-flow：开源的可视化方式定义爬虫方案

科技 06-14 来源： HelloCoder

spider-flow简介

spider-flow是一个爬虫平台，以可视化推拽方式定义爬取流程，无需代码即可实现一个爬虫服务。

spider-flow特性

支持css选择器、正则提取
支持JSON/XML格式
支持Xpath/JsonPath提取
支持多数据源、SQL select/insert/update/delete
支持爬取JS动态渲染的页面
支持代理
支持二进制格式
支持保存/读取文件(csv、xls、jpg等)
常用字符串、日期、文件、加解密、随机等函数
支持流程嵌套
支持插件扩展(自定义执行器，自定义函数、自定义Controller、类型扩展等）
支持HTTP接口

插件

redis插件
mongodb插件
IP代理池插件
OSS插件
OCR插件
Selenium插件

安装部署

1.使用git下载项目源码（也可以下载zip包）。

git clone https://gitee.com/ssssssss-team/spider-flow.git

项目目录结构如下图所示，其中db文件夹存放有数据库初始化脚本，spider-flow-web文件夹下为启动程序。

2.初始化数据库

使用Navicat打开“根目录\db\spiderflow.sql”下的sql文件并运行，检查数据表是否初始化成功。

3.修改配置

用IntelliJ IDEA打开项目，修改spider-flow-web下面的配置文件，主要修改数据库配置，包括连接字符串和账户密码。

application.properties

spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.username=root
spring.datasource.password=123456
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true

4.运行

编译，IDE会自动下载依赖包，运行SpiderApplication，等待程序启动成功，然后打开浏览器，在地址栏输入：http://localhost:8088/ 运行程序，如下图所示。