首页 > 其他分享> > StarRocks存活监控实现

StarRocks存活监控实现

2021-10-29 11:01:40 作者：互联网

1、前言

任何数据库的引入，监控都是很重要的部分。本篇文章分享下StarRocks的数据库的存活监控相关的实现

StarRocks的监控分为： 存活监控、性能监控 。因为之前的TiDB的经验，建设分为：

【FE信息查看】：

列名	值	说明
Name	10.1.1.1_666_1628925096585	表示该 FE 节点在 bdbje 中的名称
IP	10.1.1.1
EditLogPort	6661
HttpPort	6662	web端口
QueryPort	6663	对外查询端口
RpcPort	6664
Role	FOLLOWER	角色
IsMaster	FALSE	是否是master
ClusterId	1731263968
Join	TRUE	Join 为 true 表示该节点曾经加入过集群。但不代表当前还在集群内（可能已失联）
Alive	TRUE	Alive 表示节点是否存活。
ReplayedJournalId	44074	表示该节点当前已经回放的最大元数据日志id
LastHeartbeat	2021/8/15 19:18	是最近一次心跳
IsHelper	TRUE	表示该节点是否是 bdbje 中的 helper 节点
ErrMsg		用于显示心跳失败时的错误信息

【BE信息查看】：

列名	值	说明
BackendId	10002
Cluster	default_cluster
IP	10.2.2.2
HeartbeatPort	7776
BePort	7777
HttpPort	7778
BrpcPort	7779
LastStartTime	2021-08-14 15:11:56	LastStartTime 表示最近一次 BE 启动时间
LastHeartbeat	2021-08-15 19:27:43	表示最近一次心跳
Alive	TRUE	示节点是否存活
SystemDecommissioned	FALSE	为 true 表示节点正在安全下线中
ClusterDecommissioned	FALSE	为 true 表示节点正在从当前cluster中下线
TabletNum	2266	表示该节点上分片数量
DataUsedCapacity	11.548KB	表示实际用户数据所占用的空间
AvailCapacity	2.907TB	表示磁盘的可使用空间
TotalCapacity	2.909TB	表示总磁盘空间
UsedPct	0.0005	示磁盘已使用量百分比
MaxDiskUsedPct	0.0005
ErrMsg		用于显示心跳失败时的错误信息
Version	1.17.1-914c0d2
Status	{“lastSuccessReportTabletsTime”:“2021-08-1519:27:03”}	于以 JSON 格式显示BE的一些状态信息,目前包括最后一次BE汇报其tablet的时间信息