🔭 目前专注于RTB广告系统的工程架构开发,深入优化广告投放流程和实时竞价技术。此前在微博负责粉丝订阅、博主创作平台、支付和结算、登录等核心业务系统,积累了较多的大规模系统架构经验。通过跨领域实践持续拓展技术视野,不断提升系统设计和业务理解能力。
⭐ 在业务与技术双向发展中不断成长,深入理解业务需求的同时持续提升技术深度。尤其在基础设施建设和系统可观测性方面积累了丰富经验,主导开发的「一站式可观测平台」获得公司级推广并受邀在 GopherChina 2022 进行技术分享。持续关注和实践这些领域的前沿技术,致力于打造高性能、高可用的系统。
❤️ 自驱型研发工程师,热衷于技术交流、知识分享及开源社区建设。
👨💻 工作经历
2019-至今
百度-国际化产品研发中心 - MediaGo团队
2023.03 - 至今
- 负责RTB广告系统(MediaGo)的核心架构开发和优化。打造高并发、低延时的系统框架,通过引入限流器、熔断器、超时控制和资源隔离等机制,持续优化系统性能。完善可观测性建设,实现请求限流、服务熔断和性能监控等特性,显著提升系统可用性和稳定性。
- 深入RTB广告生态系统,涵盖广告请求处理、实时竞价、广告投放、流量接入管理和预算控制等全链路流程,积累丰富的RTB系统开发经验。
- 主导智能算力分配与流量价值预估项目,有效提升流量变现效率和系统资源利用率。
- 改造系统引入实时近线计算能力,将数据处理延迟从40分钟优化至分钟级,提升决策效率和模型迭代速度。
- 负责谷歌云平台资源管理,包括Kubernetes集群维护、监控系统搭建和成本优化等基础设施工作。
新浪微博-增值技术部 - 微博会员及内容增值
2020.03 - 2023.03
- 作为「一站式可观测平台」项目负责人,主导微博增值技术部的可观测性建设,独立完成90%的核心开发工作。同时有效协调跨团队资源,成功将平台从部门级项目扩展至其他部门。
- 负责会员团队核心业务的开发工作,包括粉丝订阅、支付系统、博主结算及创作工具等。
- 负责微博增值技术部的 Go 语言生态建设,主导内部框架和公共基础库的开发与落地。
- 负责会员团队的运维保障工作,成功推动服务从传统物理机全面迁移至 k8s 容器化平台。
新浪微博-增值技术部 - 电商团队
2019.07 ~ 2020.03
- 负责电商及美妆业务的开发工作,为红人周、双十一、双十二等重大营销活动提供技术支持。
- 设计并开发「统一登录平台」,解决内部系统登录流程分散的问题,显著提升用户体验和系统维护效率。
- 主导「低代码活动框架」的设计与开发,实现活动开发流程的降本提效。
- 参与电商团队基础设施建设,开发「统一告警平台」,全面提升监控告警体系。
新浪微博-增值技术部
2018.06 ~ 2019.03
- 作为研发实习生,支持日常活动需求开发。
- 开发「微博流数据分析平台」,实现产品运营数据需求自助化,提升工作效率。
- 完成实习考核项目,在千万用户量级下实现用户、feed、转评赞、关注等微博核心功能。
🗂️ 项目介绍
动态算力分配 - 项目负责人 (百度)
2023.12 - 至今
在RTB场景下,针对流量价值差异大的问题(高价值流量RPM可达低价值流量的10倍以上),通过动态算力分配机制优化系统资源利用。基于流量价值预估能力,为不同价值的流量分配合适的计算资源,实现系统效率与收益的双重提升。
主要工作:
- 设计并实现支持多维度(集群、媒体、domain、country 等)的动态配置系统,采用分层配置架构和实时更新机制,实现精细化的算力控制。通过配置中心统一管理,确保配置变更的实时性和一致性。
- 主导设计并实现流量价值模型与粗排队列Quota计算模型的接入方案。将历史表现、实时数据和预测模型相结合,实现更精准的流量价值评估和动态算力分配。
- 通过系统的静态分析与实时动态调整,持续优化各维度的算力分配策略。项目上线后成效显著:系统95分位延迟降低超过20%,云计算成本降低10%,RPM提升约45%。
- 获得百度国际化团队2024 Q1团队效率提升奖。
稳定性保障及成本优化专项 - 专项负责人 (百度)
2023.09 - 至今
通过多维度优化提升系统稳定性和效率:Redis资源方面实现错误率降至万分位级别,日均费用降低48.84%;引入限流器、熔断器等机制解决流量波动问题;通过多集群建设提升容灾能力;优化资源管理实现CPU利用率提升17%,整体成本降低15%。
主要工作:
- Redis资源优化:通过物理隔离、分库拆分和资源隔离等方式,大幅提升了Redis服务的稳定性。引入降级熔断机制,实现分钟级别快速熔断故障实例。主要工作包括Redis业务场景梳理与模块拆分、物理隔离和降级熔断实现、Google Cloud Memory Redis支持等。项目成果显著:Redis错误率和超时率从百分位降至万分位,日均费用降低48.84%,内存使用减少34.47%。
- 持续优化机型池配置(包括N4机型引入、机型优先级调整和SSD磁盘下线等),有效降低服务器资源浪费,提升整体资源利用率。
- 多集群能力建设:通过建设多集群架构,解决了美国单集群的单点故障风险和节点数量上限问题。基于超时等多维度的服务治理来提升系统容灾能力。完成从单集群到多集群架构的升级改造,包括机型配置优化、多集群k8s创建与服务部署,建立多维度的服务治理体系,实现系统架构能力的重要突破。
- 日本核心流量迁移:将日本核心流量迁移至媒体机房就近的新加坡机房,显著优化了性能指标:网络链路时延从 100ms 降至 30ms,超时率从 5% 降至 2%。此次迁移使低超时流量的竞得率提升 60%,RPM 提升 89%。
- Google Cloud Bigtable重构:调研并选型Redis替代方案,实施Redis向Bigtable的迁移。完成SDK开发、服务改造和数据迁移,解决了数据临时存储场景中Redis的单点依赖。系统支持自动扩缩容,预计可降低10-20%的云上资源成本。
- 服务质量提升:通过引入限流器、服务熔断器和协程池等工程化能力,优化了RTB服务的超时阈值,同时升级框架并完善了告警服务。这些改进有效解决了流量波动导致的服务不稳定问题,显著提升了资源利用率与服务质量。
实时近线计算能力 - 核心开发 (百度)
2023.06 - 2023.12
为提升 Bank Account 数据时效性和实时指标计算能力,构建了统一的实时近线计算平台。通过将离线 Bank Account 词表逻辑迁移至架构侧,实现分钟级近实时计算,同时建设了展示、点击、转化等通用实时指标数据流能力,为多个业务场景提供支持。
主要工作:
- 作为核心开发,设计并实现了统一的实时指标数据流计算能力,支持展示、点击、转化等基础指标的分钟级计算,为 MaxCV、实时成本控制、Bank Account 等功能提供数据支持。
- 将策略侧离线产出的 Bank Account 词表逻辑迁移至架构侧,实现分钟级近实时计算,显著提升数据时效性,使 Bank Account 机制更加有效。
- 项目上线后取得显著成效:MaxCV 场景下消耗相对 SMB 上涨 1800%、CV 提高 1350%;Campaign 达成率提升 10-30%,优化了出价平滑性。
程序化广告监控报警系统 2.0 - 项目负责人 (百度)
2023.03 - 2023.05
基于VictoriaMetrics解决方案,对监控告警系统进行全面升级重构。解决了数据丢失、查询性能差、配置繁琐等问题,为MediaGo团队提供统一低成本的通用监控告警平台。重构后系统稳定性显著提升,查询性能提升3倍,支持多维度告警分级与通知。
主要工作:
- 作为项目负责人,主导完成需求梳理、技术选型和整体架构设计。引入VictoriaMetrics方案并完成服务部署、调优。
- 重新规划和优化了81个仪表板共1200+面板,新增7个全新仪表板。迁移并校准270个告警规则,维护750+告警规则。将指标面板分为9大类,实现快速索引定位。
- 设计实现收入监控功能,支持整体及各媒体收入的环比、同比和ROI分析。新增小流量等专有场景看板,便于RD快速验证上线影响。
- 优化查询性能,同等条件下查询耗时从3秒降至1秒。实现告警分级、格式化通知,支持电话和群通知等多渠道告警。
- 获得百度国际化团队2023 Q2团队效率提升奖。
一站式可观测平台 - 项目负责人 (微博)
2021.06 - 2023.03
构建了业界领先的「一站式可观测平台」,基于OpenTelemetry生态系统和高性能ClickHouse存储引擎,实现了Trace、Metric、Logging的完整可观测性闭环。平台集成了实时Dashboard、智能日志分析、分布式链路追踪、多维度告警和服务质量报表等核心功能,显著提升了研发团队的问题诊断效率,实现了故障恢复时间(MTTR)的大幅降低,为服务质量保障提供了强有力的技术支撑。
主要工作:
- 作为项目负责人,主导完成了整个可观测平台从0到1的调研、设计和开发工作。基于OpenTelemetry生态系统,设计实现了支持多语言、多框架的遥测数据收集方案。
- 通过平台的落地实施,显著提升了会员团队的服务质量:优化了性能瓶颈,降低了平均故障恢复时间(MTTR),使会员团队服务可用性较前一年提升一个数量级。
- 项目获得广泛认可,从部门级成功推广至全公司范围使用。基于该项目的技术实践,受邀在GopherChina 2022大会进行技术分享。
- 设计开发了完整的可观测性解决方案,包括:
- 基于PHP扩展实现的零侵入数据采集方案
- Go语言的框架级遥测集成方案
- 基于OTLP协议的高性能数据处理管道
- 基于ClickHouse的高性能数据存储与分析系统
- 一站式可观测平台
- 更多细节 微博增值团队可观测性探索与实践-实践
支付相关基础功能建设 - 核心开发者 (微博)
2020.03 - 2023.03
为微博会员及内容增值团队提供统一的支付、订单、营销、结算服务平台。该平台整合了支付渠道管理、订单生命周期管理、营销活动工具、数据统计分析和自动结算等核心功能,显著提升了业务开发效率。通过统一的接口和标准化的流程,有效解决了多业务线重复开发的问题,降低了维护成本,同时保证了数据的一致性和服务的稳定性。
- 主导建设统一博主结算系统,支持会员、V+会员、付费视频等多业务线快速接入。通过规范化结算流程、自动化对账和多级审核机制,将结算周期从T+7缩短至T+1,显著提升工作效率。
- 负责 IAP、微博支付等第三方支付系统的接入与集成工作。设计实现统一支付网关,支持多渠道支付路由、自动重试和交易对账,交易成功率提升5%。
- 负责群红包、优惠券等营销工具的开发及维护。设计了基于Redis的高并发红包分配算法,支持百万级用户同时抢红包场景。优化优惠券发放和核销链路,将营销活动配置上线时间从2天缩短至半小时。
V+会员 - 核心开发者 (微博)
2020.03 - 2023.03
V+是微博基于社交关系推出的大V专属会员服务。大V通过提供专属付费内容(如图片、照片、音乐、视频、问答等)吸引用户开通V+会员,从而获得收益,实现内容变现。
主要工作:
- 负责粉丝订阅关系、权益、支付相关开发与维护
- 负责博主创作工具相关开发与维护
- 负责博主结算相关开发与维护
低代码活动平台 - 后端项目负责人 (微博)
2019.10 - 2021.03
电商低代码活动平台,支持运营人员通过简单配置快速生成日常营销活动。该平台大幅提升了活动创建效率,同时降低了开发成本,帮助运营团队快速验证活动方案并提升营收。
主要工作:
- 通过将活动的展示方式、用户操作事件、任务策略和奖励机制等核心流程解耦,并基于配置化模板灵活组合,实现常规电商活动的自动生成。
- 提供完整的数据统计和分析面板,实现活动运营的闭环管理。
- 持续开发和优化新的活动玩法。
统一登录平台 - 项目负责人 (微博)
2019.11 - 2023.03
「统一登录平台」为增值技术部提供统一的登录认证服务。该项目旨在解决团队内多个管理后台系统各自维护登录模块而导致的重复开发和维护困难问题。平台采用SSO(单点登录)架构,支持账号密码登录,并无缝接入微博统一登录系统,提供完整的会话管理和权限控制功能。通过基于OAuth2.0协议的统一授权认证流程,显著提升了开发效率和系统安全性。
主要工作:
- 设计并实现了基于SSO的统一认证系统,通过整合微博统一登录实现一次登录、全局通行,大幅降低了各业务后台系统的开发和维护成本。
- 基于OAuth2.0协议构建了统一授权框架,支持授权码、密码、客户端凭证等多种授权模式,为团队内所有管理后台提供了标准化的授权流程。
统一告警平台 - 项目负责人 (微博)
2019.11 - 2023.03
「统一告警平台」拆解事件上报与告警策略。策略由后台统一配置,灵活修改。支持评级控制、信息聚合、告警风暴抑制、多通知渠道、统计等功能。
主要工作:
- 独立负责项目从0到1的调研、设计、开发,落地。
- 在电商团队落地,改造业务硬编码,帮助团队提升迅速发现问题能力。
🏫 校园经历
🐷 湘潭大学三翼⼯作室
2016.06 - 2018.09
- 负责校内服务统一开放平台建设。通过模拟登录教务系统、信息门户、统一登录等系统,提供统一API平台服务。日均调用量100万+。该平台被广泛应用于日活6000+的拱拱App以及其他三翼和第三方授权产品中。
- 负责2016年社团招新系统开发及校内失物招领平台ishare的产品开发
- 负责新版湘大查水表产品后端开发(基于校内系统,通过模拟登录获取数据,提供更人性化的交互与服务)
- 负责拱拱安卓App客户端及后端的开发维护,从1.1.1.20170826_Beta版本开始接手
🌐 校网络中心
- 校网络中心日常技术支持
- 参与湘潭大学教育信息化系统建设
🗣 演讲
🔭 开源社区贡献
📚 教育背景
湘潭大学
2015.09.01 ~ 2019.06.30
软件工程(本科)
➕ 更多信息
- 🏆 百度国际化团队-百度小赞 (2023.Q4 2024.Q2 2024.Q4)
- 🏆 百度国际化团队-团队效率提升奖-流量价值预估 (2024.Q1)
- 🏆 百度国际化团队-团队效率提升奖-监控系统2.0 (2023.Q2)
- 🏆 微博·21年度·优秀员工 (2022.01)
- 🏆 微博增值业务·21年中表彰·优秀员工 (2021.09)
- 🏆 微博增值技术部·19年度·最佳新人 (2020.01)