栏目分类

Work X中文网

你的位置:Bloktopia中文网 > Work X中文网 > 深度解析腾讯Follow

深度解析腾讯Follow

发布日期:2025-01-03 19:22    点击次数:168
2024年3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。2024年6月7日,腾讯混元团队联合中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”。只需要输入一张人物图片和一段动作视频,该模型就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。2024年6月14日,腾讯混元联合港科大、...

2024年3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。2024年6月7日,腾讯混元团队联合中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”。只需要输入一张人物图片和一段动作视频,该模型就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。2024年6月14日,腾讯混元联合港科大、清华大学联合推出肖像动画生成框架“Follow Your Emoji”,可以通过人脸骨架信息生成任意风格的脸部动画,一键创建“表情包”。基于算法革新和数据积累,「Follow Your Emoji」可以支持对脸部进行精细化的控制,包括眉毛,眼珠,翻白眼等细节,动物表情包也可以轻松“拿捏”。Follow-Your-Click点击图片某个部位,然后给定一定的提示词,图片中选中的内容就可以按照提示词要求进行动作。dancing(跳舞)Launch(发射)Sad(伤心)用户交互:用户点击图像上的特定位置选择需要动画化的对象区域,然后提供一个简短的动作提示,如“摇动身体”或“微笑”,来指定所选区域应执行的动作。图像分割:利用SAM(SegmentAnything)工具,将用户的点击转化为可动画化的高质量对象掩码。随机遮罩策略:在训练过程中,随机遮罩输入图像的一部分,以提高模型学习时间相关性的能力,显著提升视频生成质量。运动增强模块:设计了一个运动增强模块,通过交义注意力层来增强模型对简短动作提示的响应,使模型更好地执行指定动作。光流运动幅度控制:通过计算光流的平均幅度并将其投影到位置嵌入中,框架能够精确控制单个对象的运动速度,确保运动强度的一致性。视频生成:在推理阶段,结合用户点击的位置和动作提示,生成一系列连贯的动画帧,同时保持输入图像的其余部分静止。Follow-Your-Pose-v2Follow-Your-Pose-v2具有四个主要亮点:在更短的推理时间内,支持多人视频动作生成。具备强大的泛化能力,能够生成高质量视频,不受年龄、服装、人种、背景杂乱程度和动作复杂程度的限制。可以使用日常生活照片(包括抓拍)和视频进行模型训练和生成,无需费力寻找高质量的图片或视频。面对单张图片上多个人物相互遮挡的问题,能够生成具有正确前后关系的遮挡画面,确保多人“合舞”动作的顺利完成。它的出现主要用来解决“更复杂场景”可能遇到的视频生成问题:多个角色动画多角色身体遮挡、背景畸变等一致性问题传统方法下的训练数据集要求高(不易获取且成本高)在动作驱动图片生成视频的任务中,通常需要精心筛选高质量、具有稳定背景和时间一致性的训练数据。这不仅成本高昂,还限制了训练集的规模,从而限制了模型在泛化能力上的提升。该框架引入了“光流指导器(Optical Flow Guider)”,它是独特的,因为它能够利用背景光流信息,使模型能够在大量低质量数据上进行训练并收敛。具体来说,光流指导器的作用是分析和预测帧间像素级的运动,从而为模型提供背景的稳定性。这意味着即使在相机抖动或背景不稳定的情况下,也能生成稳定的背景动画。该框架通过整合多条件引导器(Multi-condition Guiders),有效解决了模型对图片上蕴含的空间信息理解能力有限的问题,具体表现在前景和后景的区分不清晰,导致生成视频背景的畸变和人物动作的不准确等现象。这些问题在复杂场景下尤为突出,如多角色动画和身体遮挡问题。其中,“推理图指导器”(Reference Pose Guider)是该框架中特有的一种引导器,它能够引入图片中的人物空间信息,从而赋予模型更强的动作跟随能力。模型特有的“深度图指导器”(Depth Guider)引入了多人物的深度图信息,增强了模型对于多角色的空间位置关系的理解和生成能力。该模型具备较强的泛化能力,无论输入人物是什么年龄、服装,背景如何杂乱,动作视频的动作如何复杂,都能生成出高质量的视频。Follow Your EmojiFollow Your Emoji不仅支持单个表情多肖像的生成,也支持单个肖像多表情的生成。近年来,扩散模型超越了传统的生成对抗网络(GAN)方法,在生成能力上表现更好。一些技术利用强大的扩散模型生成高质量的视频和图像。然而,这些基础模型在动画化过程中无法有效地保留参考肖像的身份特征,也无法准确地建模目标表情。这导致生成的视频结果出现失真和不现实的伪影,特别是在不常见领域的肖像动画化中,如卡通、雕塑和动物。解决这些问题是肖像动画任务的主要挑战之一。扩散模型框架:基于StableDiffusion的深度学习模型,用于生成高质量图像和视频内容。表情感知标志点:使用MediaPipe等工具提取视频中的3D关键点,并投影到2D平面,生成关注表情变化的标志点,如眼睛和嘴巴区域,实现精确的表情同步。面部精细损失函数:引入新的损失函数,通过面部和表情遮罩区域的差异,帮助模型在训练过程中更好地捕捉和表达微妙的表情变化。多风格适应性:框架能适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能实现自然的动画效果。渐进式生成策略:采用从粗糙到精细的生成策略,先生成关键帧,再通过插值生成中间帧,保持动画连贯性和稳定性。时间注意力机制:在UNet网络中加入时间注意力层,确保动画帧之间的时间一致性和动态连贯性。研究团队构建了高质量的表情训练数据集,包含18种夸张表情和115位主体的20分钟视频,采用渐进式生成策略,实现高保真度和稳定性的长期动画合成。关注我~,带你学习AI,了解AI

上一篇:没有了
下一篇:conda与jupyternotebookkernel核环境不一致的问题解决
TOP