跳转至

Lab4

在本次实验中,我们将从 Ray(计算相关)和 Ceph(存储相关)中二选一进行部署、测试、分析、评价等各项工作

  • 选定一个与选题对应的计算类/存储类测试任务(1 分)。Ceph 自带测试模块,可以直接使用。Ray 需要自行设计测试过程,可以参考其自带少部分样例。亦可选择其他第三方测试工具。
  • 拟定一份计算类/存储类对应的性能指标列表(不少于 5 个指标,如延迟、IOPS 等),根据测试任务,从中选择至少两个指标进行后续测试,并说明所选指标的合理性(1 分)。
  • 完成单机版部署并进行性能测试(5 分)。
  • 基于已有部署进行分析,进行测试和优化(2 分)。优化以 Ray 或 Ceph 本身的配置参数修改为主,不必修改底层系统环境,但需给出相应分析。提供截图说明单机优化后性能较初始部署提高 20%(1 分)。
  • 完成分布式部署并进行性能测试(1 分)。
  • 基于 Docker 完成分布式部署并进行性能测试(1 分)。
  • 将撰写的相关报告发布到公开媒体,如 CSDN、知乎或是自己的博客、channel(1 分)。

实验要求与 DDL

本次实验以大作业分组为单位完成,每组提交一份部署说明文档,一份性能测试和分析文档(若有优化设计更好),并给出有数据支撑的优缺点评价,无需提交代码,文档文件命名不限制

本次实验满分 12 分。所获总分如果高于 12 分,将被截断为 12 分。

此次实验截至时间为 7 月 3 日 23:59。

相关资料

Ray 的相关介绍:https://zhuanlan.zhihu.com/p/399209343

Ray 是伯克利大学 RISELab 研发的分布式计算系统,我愿称之为“AI 时代的 Spark”。

按照官方文档的说法:

Ray provides a simple, universal API for building distributed a>pplications.

为什么说 Ray 是一个简单高效的分布式计算引擎呢?它主要有以下的特点:

  • 提供一种能够构建、运行分布式应用程序的 simple primitives;
  • 从单机扩展到平行,几乎不需要改代码;
  • 拥有良好的生态,能够在 core Ray 上构建复杂的应用程序。

我们说 Ray 能够让开发者轻松的构建分布式变成,靠的是两样法宝(计算原语):

  • Task:一个无状态的计算任务(函数表示)。Ray 允许异步执行任意函数。这些“remote function”(Task)的开销非常低,可以在毫秒内执行,并且可以自动向集群添加节点并调度任务,非常适合扩展计算密集型应用程序和服务。
  • Actor:一个有状态的计算任务(类表示)。Actor 模型是一个强大的异步编程范例(支持微服务),可以在本地和远程无缝工作。Actor 本质上是一个有状态的 Worker(或 service)。当一个新的 Actor 被实例化时,就创建一个新的 Worker,并将该 Actor 的方法调度到这个特定的 Worker,也可以对 Worker 的状态进行访问和修改。

Ceph 的相关介绍:https://github.com/OSH-2021/osh-2021.github.io/tree/main/lab-4

Ceph 是 Dr. Sage Weil 在其博士毕业论文中设计的开源分布式存储文件系统,经过不断地发展,更多新的特性被加入到当中来。14 年 Ceph 被 Redhat 公司收购,如今已经被广泛用作后端存储系统为上层应用提供支持。该系统被期望设计为没有单点故障的完全分布式存储系统,使数据能容错和无缝的复制,可扩展至 EB 水平(EB, PB, TB, GB)。Ceph 摒弃了传统的集中式元数据寻址方案,取而代之是使用 CRUSH(Controlled Replication Under Scalable Hashing)算法进行数据寻址操作,CRUSH 在一致性哈希基础上很好地实现了容灾隔离,机架感知。扩展性强,理论上支持上千个存储节点。Ceph 支持对象存储,块存储和文件存储,支持自定义接口,多语言驱动,同时其去中心化的设计实现了高可扩展性,副本数量灵活控制实现在不同场景下的高可用性。其基本组件如下:

Ceph 架构