开源大数据流水线系统 PiFlow V1.3 发布

PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。

本次版本更新如下特性:

  1. 数据源改版,支持组件绑定;
  2. 优化日志保存方式,避免出现日志丢失问题,支持按天保存;
  3. web 改成 war 包,取消对 6002 端口的使用
  4. 新增组件:TDengine 组件TiDB 组件OceanBase 组件openlookeng 组件

GitHub 地址: https://github.com/cas-bigdatalab/piflow
Gitee 地址: https://gitee.com/opensci/piflow

特性

  • 简单易用
    • 可视化配置流水线
    • 监控流水线
    • 查看流水线日志
    • 检查点功能
    • 流水线调度
  • 扩展性强:
    • 支持自定义开发数据处理组件
  • 性能优越:
    • 基于分布式计算引擎Spark开发
  • 功能强大:
    • 提供100+的数据处理组件
    • 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
    • 集成了微生物领域的相关算法

架构

要求

  • JDK 1.8
  • Scala-2.11.8
  • Apache Maven 3.1.0
  • Spark-2.1.0 及以上版本
  • Hadoop-2.6.0

页面展示

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章