开源大数据流水线系统 PiFlow V1.3 发布

科技 07-28 来源： IT技术资源爱好者

PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。

本次版本更新如下特性：

数据源改版，支持组件绑定；
优化日志保存方式，避免出现日志丢失问题，支持按天保存；
web 改成 war 包，取消对 6002 端口的使用；
新增组件：TDengine 组件TiDB 组件OceanBase 组件openlookeng 组件

GitHub 地址： https://github.com/cas-bigdatalab/piflow
Gitee 地址： https://gitee.com/opensci/piflow

特性

简单易用

可视化配置流水线
监控流水线
查看流水线日志
检查点功能
流水线调度

扩展性强:

支持自定义开发数据处理组件

性能优越：

基于分布式计算引擎Spark开发

功能强大：

提供100+的数据处理组件
包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
集成了微生物领域的相关算法

架构

要求

JDK 1.8
Scala-2.11.8
Apache Maven 3.1.0
Spark-2.1.0 及以上版本
Hadoop-2.6.0

页面展示

水线数据流开源

发表评论

留言与评论（共有 0 条评论） “”

相关文章

开源的ASP.NET大型智能办公OA管理系统源码

开源的ASP.NET大型智能办公OA管理

开源：lepus-一款强大开源的企业级数据库监控系统

开源：lepus-一款强大开源的企业级数

开源月刊《HelloGitHub》第 76 期

开源月刊《HelloGitHub》第 76 期

12款开源情报（OSINT）检索工具盘点

12款开源情报（OSINT）检索工具盘点

统信软件王耀华：根社区为国产操作系统破局带来了什么

统信软件王耀华：根社区为国产操作系

一个基于.Net Core遵循Clean Architecture原则开源架构

一个基于.Net Core遵循Clean Archi

网友投稿普通会员

我还没有学会写个人说明

277309 篇文章

9241829 次浏览

最近文章