Ecobee通过PagerDuty改善团队健康和生产力



客户信息

ecobee成立于2007年,是一家加拿大家庭自动化公司,致力于为住宅和商业应用构建具有Wi-Fi功能的恒温器,以帮助用户最大程度地提高舒适度,减少碳足迹并节省资金。这款易于使用的产品的幕后花絮是关键任务应用程序和服务的持续部署,区域分布的基础架构以及自我修复服务器集群,这些集群可为全球客户群维护和保持服务在线。
ecobee技术副总裁Jordan Christensen负责公司平台的基础架构,包括自动化,自我修复以及端到端服务交付和可用性。他解释说:“我团队的总体任务是建立可靠的容错基础架构,而PagerDuty确实是我们用来测量和监视这种可靠性的关键平台。”

应用需求

由于ecobee的首要产品负责控制数百万个住宅和商业建筑中的温度,因此其服务必须始终在线并可供用户使用。轻微的故障或应用程序故障可能会导致收入损失,因此,提前解决潜在事件并在影响客户之前对其进行响应很重要。

为了向用户提供最佳的客户体验,ecobee需要从积极和预防的角度进行事件管理。为此,其工程团队需要一个平台,以便能够在ecobee的整个基础架构和服务中实现实时可见性。

应用效果

1、使用Terraform的基础架构即代码

Jordan的平台团队在很大程度上依靠PagerDuty的Terraform集成将其PagerDuty实例作为代码构建到更大的基础架构中。通过将PagerDuty内置到Terraform中,团队可以更好地了解其基础结构的实时运行状况,并使对呼叫轮换和时间表的全部可见性成为现实,因为所有这些都被定义为Terraform环境中的代码。

这项技术使团队能够削减通话管理的手动工作,并在维持通话轮换和不同应用程序和服务之间的时间表方面为自动化创造了机会。乔丹解释说:“将PagerDuty作为代码而不是不同的接口嵌入到基础结构中,使其成为基础结构的中心部分,而不是作为辅助服务而停止。” 这种改进的可见性和在ecobee的代码库中操纵代码的能力使他的团队能够在不可避免的事件发生时真正了解基础架构的健康状况。在这种集成的帮助下,ecobee团队在正常运行时间和可用性方面正逐步朝着四个9s努力。

2、高度重视团队健康

在整个工程组织以及其他主要业务部门和利益相关者中实施PagerDuty的过程中,Jordan指出,领导层已经能够将重点放在团队健康,工作与生活之间的平衡上,并为初级工程师中的成长创造机会。Jordan解释说:“有了PagerDuty,员工感到放心,因为他们知道可以将问题上报给高级开发人员以提供指导并逐步解决问题。” 较小的事件通常会变成学习机会,这会提高组织的士气和团队健康度。

“如果我们没有PagerDuty,那么作为一家公司来执行适当的事件管理和响应将非常困难。”
–技术副总裁Jordan Christensen

3、PagerDuty的好处

借助PagerDuty,ecobee能够主动地协作处理事件,并在即将发生的事件范围内全面启用该功能。乔丹回忆说:“这些洞察力是针对性的,针对性的,而不是通用的。” 在PagerDuty中集中来自每个容器,服务器,应用程序和微服务的所有信号,使他的团队能够轻松地诊断问题并在问题影响客户之前自动召集合适的人员进行补救。

乔丹的团队已经从PagerDuty看到了一些好处,包括:

(1)在整个事件管理生命周期中,增强了工程团队与其他关键利益相关者之间的可见性和沟通.

(2)自动响应过程,减少了人工工作,提高了生产率和工作与生活之间的平衡。

(3)实行问责制和全方位服务所有权的团队有权做出更好的改变

(4)为初级工程师创建安全的空间,以便他们升级事件并在他们认为需要指导时直接与高级工程师合作,从而改善了团队的健康状况

未来期望

Ecobee计划在更大的组织范围内继续使用和扩展PagerDuty。具体来说,工程团队希望学习更好地利用PagerDuty现代事件响应,以便他们可以为特定服务实现响应播放,并在响应操作中自动执行某些任务。这些团队还计划利用PagerDuty的Slack集成来集中通信,并在发生重大事件时改善团队之间的协作。

此外,ecobee希望在其PagerDuty实例中正式化善后扩展,以便将整个事件生命周期集中到一个平台上。Jordan的团队还希望利用PagerDuty REST API的全部功能来鼓励自动化,并在整个组织的其余部分提高业务效率。乔丹解释说:“我们甚至还没有开始探索使用PagerDuty可以真正完成的工作的表面。”