监控专家岗位

Posted by 白行简 on Tuesday, January 7, 2025

“知道岗位需求,再持续补齐短板”

岗位要求

岗位职责
1. 监控系统建设与维护:
- 负责公司 监控系统(Prometheus、Grafana、Victoriametrics、Nightingale 等) 的 搭建、配置、维护与优化。
- 设计并实现 监控告警平台化 功能,包括:
  - 规则管理:多维度告警规则设计及管理;
  - 告警抑制:减少重复或误报;
  - 告警收敛聚合:相似告警的自动聚合与分类;
  - 告警升级与通知:根据告警等级进行分级通知及升级;
  - 自愈策略与自动化处理:集成自动化脚本和自愈策略。
2. 故障排查与处理:
- 快速响应并解决监控系统的故障。
- 参与制定应急预案,提升系统的可用性和稳定性。
- 与 开发、运维、架构团队协作,优化监控指标和告警策略。
3. 平台化与智能化:
  - 负责 监控告警系统平台化建设,包括:
  - 统一管理告警规则、通知、抑制和收敛策略;
  - 与 CI/CD 流程集成,实现监控配置的自动化部署和版本管理。
- 探索和应用 大语言模型(LLM)和 AIOps 技术,推动监控告警的 智能化和自动化,包括:智能告警分类和收敛、告警根因分析与自动化处理、基于机器学习的异常检测;
4. 文档编写与知识分享:
- 编写运维监控相关的技术文档和操作手册。
- 定期组织内部培训,分享运维监控的最佳实践。
岗位要求
1. 熟悉主流监控工具(如 Prometheus、Grafana、Victoriametrics、Flashduty 等)。
2. 深入理解 Kubernetes、Docker 的运行机制,具备 K8s 集群监控及调优经验,熟悉 Kube-prometheus、Thanos、Loki 等监控组件。
3. 熟悉 SkyWalking、Pinpoint、Jaeger、Zipkin 等 APM 工具,能够对应用性能进行实时监控与分析。
4. 熟悉shell/python/go至少2种脚本语言,具备一定的平台化监控系统开发能力(有项目经验者可加分)。
5. 日志和链路追踪:熟悉 ELK、EFK、Loki、Fluentd 等日志系统,以及分布式链路追踪技术。
6. 具备大语言模型应用在监控告警智能化方向的经验(加分项)

「真诚赞赏,手留余香」

观测猿

真诚赞赏,感谢认可

使用微信扫描二维码完成支付