BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

张开发
2026/4/16 19:58:15 15 分钟阅读

分享文章

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
一个大规模、多模态语音文本动作情绪的对话手势数据集任务是speech text → gesture数据集包含四种模态multi-modalspeech语音、text文本、motion3D动作emotion情绪1 Speech语音原始音频waveform可以提取mel-spectrogrampitch/energy作用控制 gesture 的节奏什么时候动2 Text文本例如This is very important作用控制 gesture 的语义做什么动作3 Motion最关键动作是3D人体骨架序列通常表示为 T × J × 3 或 T × J × 64 Emotion情绪如情绪影响happy动作更大sad动作更小angry动作更快动作数据是怎么来的BEAT 使用Motion Capture动捕演员戴传感器一边说话一边做手势得到语音 3D动作完全对齐数据集的3个关键特点1 多说话人style差异数据包含30 speakers不同人的手势频率、风格不同模型可以学习个性化 gesture2 情绪标注很多旧数据集没有作用emotion → gesture style3 多模态对齐最重要BEAT 的核心价值speech、text、motion、emotion完全时间对齐对训练模型至关重要frame-levelalignment 帧数据格式一段数据大概是audio: waveform、text: transcript、motion: T × J × 3或6、emotion: label如时间: 2秒↓audio: this cup is nicetext: [this, cup, is, nice]motion:frame1 → jointsframe2 → joints...emotion: neutral评估指标论文里会用1️⃣ MPJPEMean Per Joint Position Error计算预测关节位置 vs GT2️⃣ FGDFrechet Gesture Distance类似Frechet Inception Distance衡量生成动作 vs 真实动作分布waveform波形 最原始的音频信号时域信号直观理解空气震动 → 麦克风 → 数字信号waveform数学形式waveform 是一个一维序列x(t)离散后[x1, x2, x3, ..., xN]如[0.1, 0.3, -0.2, -0.5, 0.0, ...]它不是“音频格式”概念含义.wav / .mp3文件格式waveform文件里的“内容”信号.wav 文件 → 解码 → waveform类比CV语音waveform、视觉原始像素RGB图像mel-spectrogram 声音的“频率分布图”类似图像核心思想声音不仅有“强弱”还有低频低音、高频高音mel-spectrogram 就是时间 × 频率 的二维表示T 时间帧× F频率通道生成流程waveform↓STFT短时傅里叶变换↓spectrogram频谱图↓mel filter人耳感知↓mel-spectrogram为什么叫 “mel”mel 是一种符合人耳感知的频率尺度人耳对低频更敏感类比语音视觉waveformraw pixelsmel-spectrogramfeature map / image 所以mel-spectrogram ≈ 可以直接喂 CNN / Transformerpitch 音高声音“高还是低”1️⃣ 直观例子声音pitch男声低女声高唱歌高音高2️⃣ 数学含义pitch ≈ 基频fundamental frequencyf0单位Hz3️⃣ 在语音中的作用pitch 影响语调intonation、情绪、强调如really? 不同 pitch上升 → 疑问平 → 陈述4️⃣ 在 gesture 中的作用pitch ↑ → 手势更强调energy 声音的“响度”强弱1️⃣ 直观理解声音energy大声高小声低2️⃣ 数学定义通常是energy ∑ x(t)^2也就是信号强度3️⃣ 在语音中的作用energy 表示强调、重音、情绪强度4️⃣ 在 gesture 中的作用energy ↑ → 动作幅度更大

更多文章