logo
logo
eBPF 零侵扰分布式追踪 3 分钟锁定 Java 程序 I/O 线程阻塞
I/O 线程阻塞是Java 程序经常出现的问题之一,此类故障发生时 Java 程序的请求、响应在 I/O 线程向操作系统 Socket Buffer 读/写过程中发生阻塞,由于在业务代码插桩无法观测到 I/O 线程的工作情况和性能表现,因而导致故障非常隐蔽和难以诊断定位。通过本篇案例您将了解到,某银行的开发工程师如何使用 eBPF 技术带来的零侵扰追踪能力,在某次分布式核心交易系统上线信创平台的非功能测试(性能压测)故障诊断中,用 3 分钟时间锁定 Java 程序 I/O 线程阻塞。
从部署到优化:富途证券的 DeepFlow 探索之旅
本文分享了富途证券引入基于 eBPF 的可观测性方案 DeepFlow,以应对传统 APM 所面临的诸如代码侵入性强和覆盖不全面等挑战的过程。在 TKE 超级节点等复杂场景的落地过程中,我们与社区密切合作,解决了多项兼容性和性能问题。通过 DeepFlow,我们快速定位了一个 DNS 解析引起的 MySQL 超时故障,验证了该方案的价值。未来,我们计划将内部观测平台和 DeepFlow 相结合,以持续拓展其应用场景并优化现有监控路径。
DeepFlow 大模型智能体 3 分钟定位 Java 程序 Hang 故障
Java 程序 Hang 是应用运维中经常遇到的故障类型,由于此类故障与操作系统调度、应用代码逻辑等均有复杂的相互催化关系,故障触发条件极难确定,因此也是故障诊断中最难啃的骨头之一。在此篇案例中您将看到,某银行在分布式核心系统“认证网关 Hang” 故障的诊断过程中,如何使用 DeepFlow 大模型智能体快速分析 Java 程序 CPU 持续剖析数据,在故障发生后 3 分钟内迅速定位出 Hang 的原因。
DeepFlow 最佳实践 —— NVIDIA GPU 指标数据集成及统一观测
在本篇实践案例中,将向您介绍如何在 DeepFlow 可观测性平台快速集成 NVIDIA GPU 指标数据,补充、丰富可观测性数据湖的信号种类,面向 AI 智算场景提供 GPU 指标与主机指标、应用调用指标的统一观测能力,提升 AI 智算应用的质量监控、故障诊断能力。
DeepFlow 最佳实践 —— Blackbox 拨测能力集成及统一观测
在本篇实践案例中,将向您介绍如何在 DeepFlow 可观测性平台快速集成 Prometheus Blackbox 拨测能力,补充、丰富可观测性数据湖的信号种类,一方面通过 HTTP/HTTPS/TCP/ICMP 等协议拨测快速发现业务异常,另一方面在业务异常的诊断过程中,对平台侧应用指标分析的同时,快速调阅拨测的指标数据,增强 IT 系统监控、诊断的全面性和工作效率。
DeepFlow 最佳实践 —— 主机指标数据集成及统一观测
在本篇实践案例中,将向您介绍如何在 DeepFlow 可观测性平台快速集成主机指标数据,补充、丰富可观测性数据湖的信号种类,在业务异常的诊断过程中,对应用指标监测、分析的同时,快速调阅主机指标数据,快速分析业务异常与主机指标的关联关系,增强 IT 系统监控、诊断的全面性和工作效率。
某金融科技公司 x DeepFlow:如何实现 SRE 99.9% 服务级别目标 (SLO)
某金融科技公司是一家位于新加坡全球领先的金融交易科技提供商,目前主要面临的挑战是确保交易系统的高可用性(99.9%)和低延迟(50ms)。为此,某金融科技公司引入了 DeepFlow 可观测性平台,实现零侵扰的全栈监控,快速定位和解决问题,显著提升了运维效率。通过构建 SRE 黄金指标视图,团队能够实时监控和分析服务运行状态,确保系统的高性能和可靠性。
DeepFlow 零侵扰数据能力构建 AIOps 的基石
用 AI 实现 Ops 来解决运维困境一直是 IT 界的梦想,大模型的出现让 AIOps 看起来近在咫尺,但深入分析历史我们会发现运维中的数据盲区、数据孤岛、数据关联、获取成本等问题是运维诊断难以模型化、AIOps 难以实现的根本原因。本篇文章总结了云杉网络 DeepFlow 解决方案负责人李飞在“智能可观测运维技术 MeetUp”的演讲内容,向您介绍 DeepFlow 可观测性平台如何通过 eBPF 技术带来的零侵扰、全栈采集能力消除数据盲区,通过 AutoTagging 技术带来的高性能数据统一标注能力消除数据孤岛,通过高质量的可观测性数据体系构建基于数据的运维能力,消灭运维中的猜测、直觉和灵感,打造 AIOps 落地应用的稳定基石,以及通过大模型智能体对 DeepFlow 可观测性数据分析取得的进展和效果。
企迈科技 x DeepFlow:爆发式增长业务背后的可观测性平台实践
企迈科技是数字化门店 SaaS 服务的领先者,通过全渠道连接门店与顾客,提升经营效率和竞争力。近几年业务规模迅速扩大,技术架构面临性能和稳定性挑战,促使企迈引入 DeepFlow 作为可观测性平台,通过 eBPF 技术实现零侵扰的数据采集和分析。DeepFlow 帮助企迈优化性能、快速定位问题,并通过全栈调用链追踪和持续性能剖析提升服务质量。未来,企迈计划进一步融合 eBPF 数据与其他监控数据,构建全栈一体化平台,并加强与 DeepFlow 社区合作,推动可观测性技术进步。
AutoProfiling - 新增 Off-CPU 持续剖析并支持 AI 智能体分析
v6.5 新特性解读:企业版支持 Off-CPU 持续剖析,用于排查业务性能不达预期但 CPU 用量却不高的问题。另外,v6.5 中也增加了 Stella (DeepFlow 的 AI 智能体)对持续剖析数据的分析能力。
Exporter - 新增 Kafka,增强 Prometheus 和 OpenTelemetry
v6.5 新特性解读:新增 Kafka Exporter,增强 Prometheus Remote Write 和 OpenTelemetry Exporter。
AutoTagging - 更强大、更实时的标签自动注入能力
v6.5 新特性解读:AutoTagging 的能力和实时性大幅提升。
28