EMR 简介
Aliware
开源大数据开发平台E-MapReduce(简称“EMR”)作为大数据处理的系统解决方案被越来越多的企业所接受。而阿里云EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据,还可以与阿里云OSS和RDS等云数据存储系统和数据库系统进行数据传输,让企业可以快速搭建Hadoop、Spark、Flink、Kafka和HBase等开源大数据服务。
E-MapReduce 观测指标解读
HOST指标[1]
HDFS指标[2]
HDFS-HOME HDFS-NameNodes HDFS-DataNodes HDFS-JournanlNodes
YARN指标[3]
YARN-HOME YARN-Queues YARN-ResourceManager YARN-NodeManagers YARN-TimeLineServer YARN-JobHistory
Hive指标[4]
HiveMetaStore
HiveServer2
ZooKeeper指标[5]
| |
Kafka指标[6]
Kafka-HOME Kafka-Broker
Status Throughput Performance Storage Request Rate Request Time MessageConversion ZK session JVM
Kafka-Topic
Status Throughput Request Rate MessageConversion Storage
Impala指标[7]
HUE指标[8]
Kudu指标[9]
ClickHouse指标[10]
Flink指标[11]
Overview
Checkpoint
Network
IO
Watermark
CPU
Memory
JVM
使用阿里云 Prometheus 监控 EMR
Aliware
下面介绍如何使用阿里云Prometheus进行EMR的监控,包括接入配置、查看监控大盘和配置告警规则等三方面。
开启exporter端口
sed -i 's/prom_sink_enable:\s*false/prom_sink_enable: true/g' /usr/local/taihao_exporter/taihao_exporter.yamlservice taihao_exporter restart
接入EMR组件
EMR集群ID:到EMR控制台查找 EMR集群名称:建议和EMR集群名称一致 exporter名称:job名称(建议默认值+集群名称) exporter端口:默认9712 采集路径:Prometheus采集exporter的HTTP Path,使用默认值/metrics_preget 采集间隔(秒):采集时间间隔 ECS标签Key:部署Exporter的ECS标签和标签值,Prometheus通过该标签进行服务发现,具体配置根据上图ECS标签设置,key取值: acs:emr:nodeGroupType或acs:emr:hostGroupType ECS标签值:参考ECS标签值,默认是CORE,MASTER (多个值用逗号分割)
常见问题
context deadline exceeded,将EMR实例的ECS加入vpc安全组,安装时有安全组提示
1. HOST大盘:ECS节点CPU、内存、磁盘、load、network、socket等
2. HDFS大盘:HDFS-HOME、HDFS-NameNodes、HDFS-DataNodes、HDFS-JournanlNodes
3. Hive大盘:
HiveServer2: HiveQL查询服务器, 接收来自JDBC客户端提交的SQL请求 HiveMetaStore: 元数据管理模块,用于存储Database和Table等元信息
4. YARN大盘:
HOME: 集群状态、内存、任务、节点、container等 NodeManager: 负责节点的资源管理、监控和作业运行。 ResourceManager: 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配资源 TimeLineServer: 收集作业的指标,并展示作业执行情况 JobHistory:
5. ClickHouse大盘
6. Flink大盘
7. Impala大盘
8. ZooKeeper大盘
HOST大盘
HDFS大盘
HDFS-HOME
HDFS-NameNodes
HDFS-DataNodes
HDFS-JournanlNodes
Hive大盘
HiveMetaStore
HiveServer2
YARN大盘
HOME
YARN-HOME-copy
YARN-HOME2
NodeManagers
JobHistory
ResourceManager
TimeLineServer
Kafka大盘
KAFKA-HOME
KAFKA-Broker
KAFKA-Topic
Impala大盘
Spark大盘
ZooKeeper大盘
ClickHouse大盘
自建 Prometheus 与阿里云 Prometheus 监控的优劣对比
Aliware
Prometheus作为目前最主流的可观测开源项目之一,已经被众多企业所广泛应用。但在实际生产过程中,还是遇到各种各样问题,其中包括:
由于安全、组织管理等因素,用户业务通常部署在多个相互隔离的 VPC,需要在多个 VPC 内都重复、独立部署 Prometheus,导致部署和运维成本高。 每套完整的自建观测系统都需要安装并配置 Prometheus、Grafana、AlertManager 等组件,部署过程复杂、实施周期长,并且每次升级都需要对每个组件进行维护。 随着监控规模不断扩大,资源消耗呈非线性快速增加,系统可用性无法得到保障。 对于EMR的相关组件,自建 Prometheus 无法实现一站式、全局视角的监控建设。 开源分享的相关大盘不够专业,却少开箱即用的丰富指标,不能帮助用户更迅速的了解EMR的整体运行状况
针对以上问题,阿里云Proemtheus监控进行了以下几个方面的优化:
相关链接
Aliware
[1] HOST指标
[7] Impala指标
https://help.aliyun.com/document_detail/427926.html