百亿级访问量的实时监控系统如何实现?

gtxyzz 运维技术 2022-11-12 640浏览 0

笔者自2016年加入WiFi***钥匙，现任WiFi***钥匙高级架构师，拥有10年互联网研发经验，喜欢折腾技术。主要专注于：分布式监控平台、调用链跟踪平台、统一日志平台、应用性能管理、稳定性保障体系建设等领域。

在本文中，笔者将与大家分享一下在实时监控领域的一些实战经验，介绍WiFi***钥匙是如何构建APM端到端的全链路监控平台，从而实现提升故障发现率、缩短故障处理周期、减少用户投诉率、树立公司良好品牌形象等目标。

WiFi***钥匙开发运维团队的困扰

始于盛大创新院的WiFi***钥匙，截至到2016年底，我们总用户量已突破9亿、月活跃达5.2亿，用户分布在全球223个国家和地区，在全球可连接热点4亿，日均连接次数超过40亿次。

随着日活跃用户大规模的增长，WiFi***钥匙各产品线服务端团队正进行着一场无硝烟的战争。越来越多的应用服务面临着流量激增、架构扩展、性能瓶颈等问题。为了应对并支撑业务的高速发展，我们迈入了SOA、Microservice、API Gateway等组件化及服务化的时代。

伴随着各系统微服务化的演进，服务数量、机器规模不断增长，线上环境也变得日益复杂，工程师们每天都会面临着诸多苦恼。例如：线上应用出现故障问题时无法***时间感知;面对线上应用产生的海量日志，排查故障问题时一筹莫展;应用系统内部及系统间的调用链路产生故障问题时难以定位等等。

综上所述，线上应用的性能问题和异常错误已经成为困扰开发人员和运维人员***的挑战，而排查这类问题往往需要几个小时甚至几天的时间，严重影响了效率和业务发展。WiFi***钥匙亟需完善监控体系，帮助开发运维人员摆脱烦恼，提升应用性能。依据公司的产品形态及业务发展，我们发现监控体系需要解决一系列问题：

◆面对全球多地域海量用户的WiFi连接请求，如何保障用户连接体验?

◆如何通过全链路监控提升用户连接WiFi的成功率?

◆随着微服务大规模推广实施，钥WiFi***钥匙产品服务端系统越来越复杂，线上故障的发现、定位、处理难度也随之增长，如何通过全链路监控提升故障处理速度?

◆移动出海已经进入深入化发展的下半场，全链路监控如何应对公司全球化的业务发展?

◆……

全链路监控

早期为了快速支撑业务发展，我们主要使用了开源的监控方案保障线上系统的稳定性：Cat、Zabbix，随着业务发展的需要，开源的解决方案已经不能满足我们的业务需求，我们迫切需要构建一套满足我们现状的全链路监控体系：

◆多维度监控(系统监控、业务监控、应用监控、日志搜索、调用链跟踪等)

◆多实例支撑(满足线上应用在单台物理机上部署多个应用实例场景需求等)

◆多语言支撑(满足各团队多开发语言场景的监控支撑，Go、C++、PHP等)

◆多机房支撑(满足国内外多个机房内应用的监控支撑，机房间数据同步等)

◆多渠道报警(满足多渠道报警支撑、内部系统对接，邮件、掌信、短信等)

◆调用链跟踪(满足应用内、应用间调用链跟踪需求，内部中间件升级改造等)