BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

张开发

• 2026/4/16 19:58:15 • 15 分钟阅读

分享文章

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

一个大规模、多模态语音文本动作情绪的对话手势数据集任务是speech text → gesture数据集包含四种模态multi-modalspeech语音、text文本、motion3D动作emotion情绪1 Speech语音原始音频waveform可以提取mel-spectrogrampitch/energy作用控制 gesture 的节奏什么时候动2 Text文本例如This is very important作用控制 gesture 的语义做什么动作3 Motion最关键动作是3D人体骨架序列通常表示为 T × J × 3 或 T × J × 64 Emotion情绪如情绪影响happy动作更大sad动作更小angry动作更快动作数据是怎么来的BEAT 使用Motion Capture动捕演员戴传感器一边说话一边做手势得到语音 3D动作完全对齐数据集的3个关键特点1 多说话人style差异数据包含30 speakers不同人的手势频率、风格不同模型可以学习个性化 gesture2 情绪标注很多旧数据集没有作用emotion → gesture style3 多模态对齐最重要BEAT 的核心价值speech、text、motion、emotion完全时间对齐对训练模型至关重要frame-levelalignment 帧数据格式一段数据大概是audio: waveform、text: transcript、motion: T × J × 3或6、emotion: label如时间: 2秒↓audio: this cup is nicetext: [this, cup, is, nice]motion:frame1 → jointsframe2 → joints...emotion: neutral评估指标论文里会用1️⃣ MPJPEMean Per Joint Position Error计算预测关节位置 vs GT2️⃣ FGDFrechet Gesture Distance类似Frechet Inception Distance衡量生成动作 vs 真实动作分布waveform波形最原始的音频信号时域信号直观理解空气震动 → 麦克风 → 数字信号waveform数学形式waveform 是一个一维序列x(t)离散后[x1, x2, x3, ..., xN]如[0.1, 0.3, -0.2, -0.5, 0.0, ...]它不是“音频格式”概念含义.wav / .mp3文件格式waveform文件里的“内容”信号.wav 文件 → 解码 → waveform类比CV语音waveform、视觉原始像素RGB图像mel-spectrogram 声音的“频率分布图”类似图像核心思想声音不仅有“强弱”还有低频低音、高频高音mel-spectrogram 就是时间 × 频率的二维表示T 时间帧× F频率通道生成流程waveform↓STFT短时傅里叶变换↓spectrogram频谱图↓mel filter人耳感知↓mel-spectrogram为什么叫 “mel”mel 是一种符合人耳感知的频率尺度人耳对低频更敏感类比语音视觉waveformraw pixelsmel-spectrogramfeature map / image 所以mel-spectrogram ≈ 可以直接喂 CNN / Transformerpitch 音高声音“高还是低”1️⃣ 直观例子声音pitch男声低女声高唱歌高音高2️⃣ 数学含义pitch ≈ 基频fundamental frequencyf0单位Hz3️⃣ 在语音中的作用pitch 影响语调intonation、情绪、强调如really? 不同 pitch上升 → 疑问平 → 陈述4️⃣ 在 gesture 中的作用pitch ↑ → 手势更强调energy 声音的“响度”强弱1️⃣ 直观理解声音energy大声高小声低2️⃣ 数学定义通常是energy ∑ x(t)^2也就是信号强度3️⃣ 在语音中的作用energy 表示强调、重音、情绪强度4️⃣ 在 gesture 中的作用energy ↑ → 动作幅度更大

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

最新文章

用Modbus Poll调试你的STM32 Modbus设备：从连接配置到数据帧分析全流程

用YOLOv8/YOLOv5/YOLO11搞定海洋垃圾检测：从数据集制作到PyQt5界面部署的保姆级教程

职场心理复盘：“冒名顶替综合征”——为什么拿到头部大厂 Offer，你依然觉得自己是个“骗子”？

CANopen | 对象字典OD实战 - 通过SDO配置节点心跳与PDO映射

AutoSar Com模块实战：从零配置一个‘手机控车’的周期事件帧信号（含状态机设计）

外卖点餐|基于springboot + vue外卖点餐系统(源码+数据库+文档)

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

PHP源码开发用台式机还是笔记本更合适_硬件选型对比【方法】

从零到一：基于STM32与AI-WB2的物联网系统板开发实战

SD模型管理终极手册：如何用CivitAI资源打造你的专属Stable Diffusion模型库

2025届最火的十大AI写作方案实测分析

告别硬编码！用STM32F407+双向链表实现可无限扩展的菜单系统（附完整工程）

拆解Lpa分层审核评分表的四大评分模块，Lpa分层审核评分表如何解决审核流于形式与问题整改难闭环

Hive 数据表全流程操作指南：从创建到管理

UUV Simulator终极指南：构建高保真水下机器人仿真平台

深度剖析：Java 并发三大量难题 —— 死锁、活锁、饥饿全解

怎么修改jpg创建时间和日期？6个实操方法，新手秒上手

计算机毕业设计：Python渔业资源数据可视化分析大屏 Flask框架数据分析可视化数据大屏大数据机器学习深度学习（建议收藏）✅

别再怕堆叠失败！手把手教你用H3C交换机搞定IRF+BFD+链路聚合（附排错清单）

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

最新文章

用Modbus Poll调试你的STM32 Modbus设备：从连接配置到数据帧分析全流程

用YOLOv8/YOLOv5/YOLO11搞定海洋垃圾检测：从数据集制作到PyQt5界面部署的保姆级教程

职场心理复盘：“冒名顶替综合征”——为什么拿到头部大厂 Offer，你依然觉得自己是个“骗子”？

CANopen | 对象字典OD实战 - 通过SDO配置节点心跳与PDO映射

AutoSar Com模块实战：从零配置一个‘手机控车’的周期事件帧信号（含状态机设计）

外卖点餐|基于springboot + vue外卖点餐系统(源码+数据库+文档)

推荐文章

PyCharm社区版+Anaconda环境配置全攻略（避坑指南+清华镜像加速）

企业架构实战：从BA到TA的4A架构全解析（附华为架构图参考）

ESP-Bootstrap：面向ESP32/ESP8266的嵌入式Web固件基础架构

实战 | 从模仿学习到强化学习：自动驾驶轨迹规划的范式演进与代码实现

基于计算机视觉的路口交通密度估计

一文搞懂 Python 的 GIL（全局解释器锁）

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南