【daft框架】和ray分布式计算的结合运行自定义函数

张开发

• 2026/4/17 17:35:36 • 15 分钟阅读

分享文章

daft的框架主要分成python和raft两部分daft在ray上如何运行udf采用分布式执行框架Client 端: RemoteFlotillaRunner 负责把物理计划切成任务分发到各个节点Worker 端: 每个 Ray 节点上只跑一个 RaySwordfishActor内部调度: Actor 内部有任务队列根据 UDF 声明的资源 (num_gpus/num_cpus) 调度任务具体流程步骤1 ray.init()连接 Ray 集群这一步就是 Ray 本身的逻辑和 Daft 无关Daft 复用你已经初始化好的 Ray不需要自己重新初始化步骤2 daft.set_runner_ray()这一步才是 Daft 启动 Actor 的地方def set_runner_ray():# → 创建 RemoteFlotillaRunner# → 在每个 Ray 节点上启动一个 RaySwordfishActor# → 这些 Actors 启动好之后就一直运行等待任务# Daft 在 set_runner_ray 的时候在每个 Ray 节点启动一个 Actorray.remoteclassRaySwordfishActor:def__init__(self):# 这里启动好一直活着self.task_queue...self.resource_scheduler...self.instantiated_udfs{}# 缓存已经实例化的 UDF关键点: 此时只启动了一个空的 RaySwordfishActor 每个节点Actor 只是个空壳里面还没有任何 UDF。步骤3 UDF 定义与注册阶段daft.func(num_gpus0.5,concurrency2)defmy_udf(image):returnmodel.predict(image)dfdf.with_column(prediction,my_udf(col(image)))在 Python 层定义 UDF发生了什么:daft.func/daft.cls 将你的函数/类包装成 Daft 内部的 UDF 对象资源配置num_gpus/num_cpus/ray_options被存在 UDF 对象里UDF 信息被注册到 Daft 的函数注册表。不申请资源不启动任何东西只是保存信息步骤4 查询规划阶段当执行 df.collect()resultdf.collect()发生了什么:Daft 从逻辑计划 → 优化 → 生成物理执行计划物理计划会把计算切分成多个任务块每个任务块处理一批数据Flotilla 调度器知道哪些 UDF 需要什么资源任务提交与调度物理计划生成后Flotilla 把任务发给各个节点的 RaySwordfishActor:Client → RemoteFlotillaRunner → 分推任务 → 各个 RaySwordfishActor调度逻辑:Daft 会根据每个 UDF 声明的资源需求num_gpus/num_cpus做内部调度concurrencyN 决定同一个 Actor 里最多同时跑几个该 UDF 的任务对于 GPU: 如果你声明 num_gpus0.5同一个 Actor 可以并行跑 2 个共享同一块 GPU这是 Daft 比原生 Ray 好的地方步骤5. UDF 执行当 RaySwordfishActor 收到一个 UDF 任务反序列化: 从任务描述中拿到 UDF 和输入数据实例化: 如果是类 UDFdaft.cls实例化你的类只实例化一次复用实例执行: 调用你的 UDF 处理输入 batch序列化: 把输出结果序列化传回给下游或者 client关键优化:UDF 实例复用: 相同 UDF 只实例化一次不会每个任务都新建节省初始化开销比如模型只加载一次到 GPU批处理: Daft 会把数据攒成批再给你的 UDF提升利用率内存管理: 大批次会自动拆分避免 OOM核心代码位置Flotilla 入口: daft/runners/flotilla.py → RemoteFlotillaRunnerSwordfish Actor: daft/runners/swordfish/actor.py → RaySwordfishActorUDF v2 实现: daft/udf/udf_v2.pyShuffle 实现: src/daft-shuffles/ (Rust)

【daft框架】和ray分布式计算的结合运行自定义函数

最新文章

Squeel高级查询技巧：复杂SQL条件的简单Ruby实现

Python-for-Android架构解析：跨平台Python应用编译原理与性能对比

高效显微图像拼接工具核心原理深度解析：MIST专业级应用实战指南

Linux音频驱动调试实战：遇到无声/杂音？先学会排查这5个关键点（ALSA/ASoC篇）

终极backward-cpp故障排除手册：解决C++堆栈跟踪集成问题的10个实用技巧

Windows多机MPI集群搭建避坑全记录：从账户同步到防火墙配置（基于MPICH2）

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

TortoiseGit与Gerrit完美配合：Windows下的代码Review避坑指南

2026年，探秘天津正规建筑资质企业背后，究竟藏着怎样的名声密码？

新房线上推广究竟该怎么做？

光伏逆变器高效转换的秘密：耐高温PCB技术解析

破解macOS游戏输入壁垒：360Controller逆向工程的技术探索

【无标题】性价比高的台州一站式装修哪家实力强

从理论到硅片：二值化CNN在FPGA上的高效部署实践

24C16A 24C16B串行电可擦除可编程只读存储器电气特性

镜像视界”政企楼宇无感管控技术方案/镜像视界/政企楼宇无感管控：访客 / 员工无感通行，越界 / 滞留 / 聚集智能预警

微软不支持C开发Win32原因剖析，及C语言在系统开发中的优势

ARKV：4倍显存缩减+97%精度保留，长上下文推理内存优化新标杆，小白程序员必备收藏！

深入解析HTTP/2二进制分帧层：帧、流与多路复用的奥秘

【daft框架】和ray分布式计算的结合运行自定义函数

最新文章

Squeel高级查询技巧：复杂SQL条件的简单Ruby实现

Python-for-Android架构解析：跨平台Python应用编译原理与性能对比

高效显微图像拼接工具核心原理深度解析：MIST专业级应用实战指南

Linux音频驱动调试实战：遇到无声/杂音？先学会排查这5个关键点（ALSA/ASoC篇）

终极backward-cpp故障排除手册：解决C++堆栈跟踪集成问题的10个实用技巧

Windows多机MPI集群搭建避坑全记录：从账户同步到防火墙配置（基于MPICH2）

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南