李倩2023-02-28Reads: 应用异常时,基本可以分为服务访问不通和服务响应慢两个大类。其中服务响应慢的问题定位非常棘手,很多无头案。应用团队有日志和追踪,对于自认为的不可能不合理的事情都会甩给基础设施团队,又由于基础设施团队现有的监控数据缺乏应用的观测视角,通常成为一切「不是我的问题」超自然现象的终极背锅侠,其中以网络团队尤为严重。Network实践案例
李倩2023-02-08Reads: 故障发生在2023春节前两天,DeepFlow 团队内部访问工单系统出现问题,影响了所有北京区的同事,这篇文章将详细记录如何利用 DeepFlow 定位到对这次问题根因(网关 MSS 误变更导致报文大于 MTU,大数据报文被丢弃)。实践案例
林嘉炜2022-12-29Reads: 基于 DeepFlow 构建 Redis 的可观测 Dashboard,实时监控 Redis 服务的网络状态、吞吐量、异常和错误,实现应用无盲点可观测,快速定位异常原因和排障。AutoTracingGrafanaRedis
李倩2022-12-23Reads: K8s 让应用发布更加快速安全,让应用部署也更加灵活,但在带来这些便利性的同时,也给应用排障增加了 K8s 平台层面的复杂度,本篇文章将以常见的服务异常入手,来详细拆解 K8s 服务访问方式,以及如何利用现有的可观测体系来对 k8s 平台和应用服务进行快速排障。实践案例
振宇2022-12-08Reads: Grafana 是目前最广泛使用的数据可视化软件之一,DeepFlow 中已有大量基于 Grafana Dashboard 解决的可观测性场景的实战分享。这些场景都是基于 DeepFlow Grafana 插件提供的查询能力来构建的。DeepFlow 社区致力于基于开源生态构建一个完整的可观测性平台,而终端呈现和数据的可视化呈现是其中的重要一环。本文对当前 DeepFlow 提供的 Grafana 插件做一个简单介绍,抛砖引玉,希望大家能了解并创造更多的 DeepFlow 可观测性生态应用,也希望能让大家掌握如何开发一套完整的 Grafana Plugin。Grafana
李倩, 嘉炜2022-11-15Reads: 我们基于 DeepFlow 构建了对一个高效、可配置、无侵入、面向应用的 DNS 监控面板,可监控 DNS 服务的网络异常、吞吐、时延,以及访问日志,以快速定位性能瓶颈和排查故障原因NetworkGrafanaDNS实践案例
毛一枫2022-11-04Reads: 当项目中存在一些大型编译项目时,由于机器性能不足,导致研发花费大量时间等待构建,浪费生命,本文带你了解 DeepFlow 如何使用阿里云 ECI Spot 弹性实例打造低成本高性能无限并发的 Gitlab Runner。CI
宋建昌2022-11-01Reads: Github Action 让托管在 Github 中的项目 CI 流程变得很方便,但 Github 默认提供的 2C7G 的 Runner 配置太低,跑一些大型项目编译任务会非常慢,本文是 DeepFlow 使用公有云高配廉价 Spot 实例加速 Action 的探索,经历了一系列踩坑之后,最终我们找到了解决性能、成本、ARM 等全部需求的理想方案,希望对你有用。CI
陈晨2022-10-26Reads: 虚拟化和容器化让应用的部署环境和运行环境变得复杂起来,系统的复杂度呈指数级增长。在**垂直领域**下各个可观测性开源产品的**侧重点也是不同**,那打通这些产品之间的联系,来构建自己的可观测性平台是一件比较复杂的事情。直播实录AutoTagging
林嘉炜2022-10-24Reads: 我们基于 DeepFlow 构建了一个高效的、无侵入的 MySQL 可观测 Dashboard,可实时监控网络时延、吞吐、异常状况,并快速定位有性能问题的 SQL,快速定位性能瓶颈和排查故障原因。AutoTracingGrafanaMySQLSQL Database