Netflix的云端效率优化
在Netflix,我们依赖亚马逊网络服务(AWS)来满足我们的云计算基础设施需求,包括计算、存储和网络等,以构建并运行我们喜爱的流媒体平台。我们的生态系统使得工程团队能够大规模地运行应用程序和服务,结合使用开源和专有解决方案。反过来,我们的自助服务平台允许团队更高效地创建和部署工作负载,有时甚至是定制的工作负载。这种多样化的技术环境从各种基础设施实体中生成了大量且丰富的数据,数据工程师和分析师合作利用这些数据为工程组织提供可操作的见解,形成一个持续反馈循环,最终提升业务表现。
数据是关键
我们团队——平台数据科学工程(Platform DSE),致力于帮助我们的工程合作伙伴理解他们正在使用的资源、这些资源的使用效率以及与资源使用相关的成本。我们希望下游用户能够基于我们的数据集做出成本意识决策。
为了以可扩展的方式解决众多分析需求,我们开发了一个两部分的解决方案:
- 基础平台数据(FPD):这一组件为所有平台数据提供了一个集中化的数据层,具有统一的数据模型和标准化的数据处理方法。
- 云效率分析(CEA):建立在FPD之上,该组件提供了时间序列效率指标的分析数据层,适用于各种商业应用场景。
基础平台数据(FPD)
我们与不同的平台数据提供商合作,获取各自平台的库存、所有权和使用情况数据。例如,在Spark平台上应用此框架时,FPD通过与生产者签订数据合同确保数据质量和可靠性;这些合同使团队能够利用共同的数据模型进行所有权管理。标准化的数据模型和处理方式促进了规模性和一致性。
云效率分析(CEA 数据)
一旦基础数据准备就绪,CEA就会消费库存、所有权和使用数据,并应用适当的业务逻辑来产生不同粒度的成本和所有权归属。CEA中的数据模型方法强调分隔和透明性;我们希望下游用户能够理解为什么某些资源会出现在他们的名字或组织下,以及这些成本是如何计算出来的。这种方法的另一个好处是在引入新的或变化的业务逻辑时能够快速调整。
展望未来
展望未来,我们计划继续将更多平台纳入FPD和CEA,争取在未来一年内实现几乎全面的成本洞察覆盖。长远来看,我们打算将FPD扩展到其他业务领域,如安全性和可用性。我们还计划通过预测分析和机器学习来优化使用并检测成本异常,采取更加主动的方法。
最终目标是让我们的工程组织能够在构建和维护众多服务时做出效率意识决策,从而使我们能够享受Netflix作为流媒体服务带来的便利。