聚色网-柚木提娜ed2k 国产神级AI登场!高启强化身罗翔,蔡徐坤变Rap之王,还跟Sora联动|唱片|网红|陈奕迅|张国荣|rap|音乐专辑|视频文献|罗翔(法学家)
你的位置:聚色网 > 哥也色地址 > 柚木提娜ed2k 国产神级AI登场!高启强化身罗翔,蔡徐坤变Rap之王,还跟Sora联动|唱片|网红|陈奕迅|张国荣|rap|音乐专辑|视频文献|罗翔(法学家)
柚木提娜ed2k 国产神级AI登场!高启强化身罗翔,蔡徐坤变Rap之王,还跟Sora联动|唱片|网红|陈奕迅|张国荣|rap|音乐专辑|视频文献|罗翔(法学家)
发布日期:2024-09-25 04:10    点击次数:160

柚木提娜ed2k 国产神级AI登场!高启强化身罗翔,蔡徐坤变Rap之王,还跟Sora联动|唱片|网红|陈奕迅|张国荣|rap|音乐专辑|视频文献|罗翔(法学家)

  智东西(公众号:zhidxcom)作家 香草编订 心缘柚木提娜ed2k

  开局一张图,后期不错全靠AI了!

  智东西2月29日报说念,继视频生成模子Sora横空出世、语音克隆创企ElevenLabs用AI为Sora演示视频配音接踵爆火全网后,国产AI模子又在视频生成鸿沟整了个大事!

  只用输入一张图+一段音频,就能让像片里的东说念主物动起来并启齿语言:比如让张国荣翻唱陈奕迅的歌,让高启强用罗翔的声息讲普法课,把蔡徐坤变成“Rap之王”,还跟Sora生成的超传神东京街头散播女子视频玩起了联动。

  //oss.zhidx.com/uploads/2024/02/65e0075707816_65e0075703590_65e0075703565_song_sora.mp4

  ▲EMO生成的Sora东京街头散播女子唱歌的视频

  这是阿里通义实验室团队亮出的新绝活——肖像视频生成框架EMO(Emote Portrait Alive)。

开心影视

  用单张像片+淘气语速的东说念主声息频,EMO就能凭证音频时长,生成对适时长的视频,并保持变装身份的一致性,让像片里的东说念主物启齿语言唱歌,语言涵盖平凡话、粤语、日语、韩语、英语等,况兼容貌天然、声画同步,头部姿势也很活泼,细节处理紧密到连头发丝都会随之徬徨。

  别的不说,对AI视频评释、AI动漫制作、短视频制作、让逝去东说念主物回生等应用场景而言,这但是妥妥的出产力器具!

  恶果多以伪乱真呢?比如输入一张高启强的像片和厚大法考莳植音频,这位黑帮大佬就能立马化身罗翔,沾沾自喜地为你讲起法来。

  //oss.zhidx.com/uploads/2024/02/65df5dcfa3334_65df5dcf9b7df_65df5dcf9b7ba_talk_gqq.mp4

  ▲EMO生成高启强化身罗翔普法的视频

  让蔡徐坤唱姆爷的快嘴Rap,EMO也能松驰拿握,嘴型匹配度强到离谱。

  //oss.zhidx.com/uploads/2024/02/65df13b2872c8_65df13b283a23_65df13b2839fc_song_cxk.mp4

  ▲EMO生成蔡徐坤演绎好意思国说唱歌手埃米纳姆《Rap God》的视频

  天然细看之下,东说念主物容貌还作念不到百分百天然,但能完结这样畅通、发扬力传神的图片动弹态视频恶果,依然是卓著强的AI进化。这个会动会语言的像片,不再是哈利波特魔法天下的专属。

  这样强的音频驱动视频恶果,是何如作念到的?

  当今该姿色还未开源代码,咱们仅能从姿色简介和论文中一有计划竟。

  姿色主页:https://humanaigc.github.io/emote-portrait-alive/

  论文地址:https://arxiv.org/abs/2402.17485

  一、AI“回生”赫本、张国荣,中英日韩语都能拿握

  EMO复旧不同语言的歌曲输入,能直不雅地识别音频中的调子变化,从而生成动态的、容貌丰富的肖像。

  你不错让奥黛丽·赫本演唱一曲英国歌手艾德·希兰的《Perfect》,跟着歌曲旋律,她会作念出挑眉、蹙眉等渺小的容貌变化。

  //oss.zhidx.com/uploads/2024/02/65df13704db51_65df137049a35_65df137049a0f_赫本16_9_x264.mp4

  第二条唱歌的演示视频由一个绘画模子ChilloutMix绘图的女孩来示范,她生动地饰演了一首陶喆的《Melody》,音频来自艺东说念主宁艺卓翻唱的版块。在唱到一些高音部分时,她甚而还会作念出皱鼻子等发力的容貌。

  //oss.zhidx.com/uploads/2024/02/65df131913937_65df13190fcf8_65df13190fcd0_song_melody.mp4

  除了平凡话,粤语歌也能松驰对上口型。底下这条演示视频是张国荣翻唱陈奕迅的《无要求》,音频来源于汇集,亦然由AI生成的。

  //oss.zhidx.com/uploads/2024/02/65df130dac3b7_65df130da87d1_65df130da87ab_song_zgr.mp4

  二次元作风的东说念主像也能动起来。比如,你不错让动画《陡立的巨东说念主》中的变装Ymir Fritz躬行演唱动画片尾曲《衝撃》。与真东说念主和三维东说念主物比拟,她的容貌按捺更千里稳一些。

  //oss.zhidx.com/uploads/2024/02/65e006954a139_65e0069546249_65e0069545f93_song_call_silence.mp4

  在翻唱Kpop名曲《SOLO》时,这位AI生成的女孩十分插足,脸上的详尽线条也会跟着口型变化而变化。

  //oss.zhidx.com/uploads/2024/02/65e0069f51731_65e0069f4de5d_65e0069f4de33_song_solo.mp4

  唱到动情处,AI生成的蒙娜丽莎还会闭上双眼,仿佛千里浸在音乐中。

  //oss.zhidx.com/uploads/2024/02/65e006a5f3d31_65e006a5f056b_65e006a5f0530_song_mola.mp4

  如若想听Rap,小李子不错用还没发福的脸为你演绎埃米纳姆的《GODZILLA》。天然中间偶尔会出现“翻冷眼”等错误,但总体拟合进度如故很高的。

  //oss.zhidx.com/uploads/2024/02/65df1354b3f03_65df1354b00a3_65df1354b007e_song_god.mp4

  在谈话任务上,EMO相通能为变装注入传神的动作和神情。

  举例这条蒙娜丽莎讲话的视频,开始一清嗓子,阿谁神韵就立马拿不休了。天然蒙娜丽莎莫得眉毛,但EMO如故让她的眉骨部位跟着语调作念出不同容貌,连双下巴都灵动了起来。

  //oss.zhidx.com/uploads/2024/02/65df671e90f04_65df671e88ad9_65df671e88ab1_talk_mola.mp4

  底下这条Ymir Fritz语言视频中的音频来自游戏《尼尔:机械纪元》。AI生成二次元头像,再输进EMO让其启齿语言,如若褂讪性再高一些,冒失能胜利造成责任流,用在游戏或动画制作中。

  //oss.zhidx.com/uploads/2024/02/65df69a1490d8_65df69a144cd9_65df69a144cb4_talk_yomir.mp4

  EMO扩大了不同文化配景下东说念主物塑造的可能性,举例你不错看到高启强讲法,也不错看到经典电影变装懦夫饰演《蝙蝠侠:暗澹骑士》中的台词。

  //oss.zhidx.com/uploads/2024/02/65df672229b84_65df672225b27_65df672225af9_talk_jocker.mp4

  EMO还让Sora生成视频中的女子胜利化身OpenAI CTO米拉·穆拉蒂。

  //oss.zhidx.com/uploads/2024/02/65e0070bc2c98_65e0070bbeb4c_65e0070bbeb20_talk_sora.mp4

  归并段采访裁剪,白色面具不错由赫本本东说念主来重现,也能由AI生成的《底特律:成为东说念主类》游戏变装克洛伊(Chloe)来展示。

  //oss.zhidx.com/uploads/2024/02/65e006ca61c02_65e006ca5d61a_65e006ca5d5e2_talk_hb.mp4

  //oss.zhidx.com/uploads/2024/02/65e006c5850f7_65e006c580a55_65e006c580a27_talk_kara.mp4

  终末一个演示视频,EMO让一个AI生成的女生饰演了不同口吻的几句话,她展现出丰富的容貌:撇嘴无奈、挑眉惊怖,还有窘态而不失仪貌的浅笑。不外终末在作念一些较为夸张的容貌时,其面部出现一些失真。

  //oss.zhidx.com/uploads/2024/02/65e006ee6e6cc_65e006ee6adca_65e006ee6ada5_talk_emotion.mp4

  总的来看,EMO框架完结了面部容貌、头部姿势的丰富性和天然性,天然偶然也会出现翻冷眼、口型对不准等异常,但尽善尽好意思,举座恶果十分惊艳。

  二、EMO时候解读:基于褂讪扩散模子,两种驻防力机制交叉实施

  EMO框架提供了一种新颖的要领,禁受胜利从音频到视频的合成方式,不需要复杂的3D模子或面部标记,即可生成富足发扬力的视频。

  ▲EMO责任经过(图源:论文)

  为了确立一个新的语言头像框架,作家残暴一种诈欺扩散模子生成才调的要领,该要领摒弃了中间示意或复杂预处理,简化了创建具有高度视觉和心境保真度的肖像视频的过程。

  EMO禁受褂讪扩散(Stable Diffusion,SD)模子当作基础框架,它的上风在于既能镌汰计较资本,又能保持较高的视觉保真度。

  EMO框架主要分为两个阶段,举座责任经过如下图所示:

  ▲EMO举座框架(图源:论文)

  第一个阶段名为帧编码(Frames Encoding),诈欺ReferenceNet从参考图像和默契帧中索求特征,旨在保持视频中变装的一致性。

  第二个阶段是扩散处理(Diffusion Process),云锻真金不怕火的音频编码器处理音频镶嵌,面部区域掩码与多帧噪声相结合,用来为止面部图像的生成,随后诈欺骨干汇集(Backbone Network)进行去噪。

  骨干汇集具有与SD 1.5雷同的UNet结构,其中交叉实施了两种状态的驻防力机制:参考驻防力(Reference-Attention)和音频驻防力(Audio-Attention)。这两种机制在潜在编码和语音特征之间交叉实施,永别用于保持东说念主物身份和调换东说念主物动作。此外,时序模块(Temporal Modules)用于操控时辰维度和诊疗默契速率。

  参考驻防层中,ReferenceNet具有与骨干汇集交流的结构,用于从输入图像中索求瞩目特征。标的变装的图像被输入ReferenceNet,以索求自驻防层输出的参考特征图。由于ReferenceNet主要用于处理单个图像,因此不含骨干汇鸠集的时辰层。

  语音中的发音和语调是生成肖像默契的主要驱动信号。在音频驻防层,从输入音频中索求出的特征通过预锻真金不怕火的语音识别模子Wav2vec进行勾通,获得每一帧的音频示意镶嵌。为了计较默契受畴昔/往常音频片断的影响,举例语言前的张嘴和吸气,作家通过串联隔壁帧的特征来界说每个生成帧的语音特征。

  大大都模子都会在预锻真金不怕火的文本到图像架构中插入时序搀杂层,以促进对连气儿视频帧之间时辰关联的连气儿和编码。受文生视频框架AnimateDiff架构观点的启发,EMO将自关爱时序层应用于帧内特征。具体来说,EMO将输入特征图重构,在时序维度上进行自我关爱,以有用捕捉视频的动态推行,时序层被插入骨干汇集的每个分辨率层。

  在视频时长方面,受一些要领禁受前一个片断完了的帧当作后续生成开动帧的启发,EMO禁受了前一个生成片断的终末n个帧,称之为“默契帧”(Motion frames),将其输入参考汇集,以预索求多分辨率默契特征图。在骨干汇集的去噪过程中,EMO会将时序层输入与预索求的默契特征图进行合并,从而有用确保不同片断之间的一致性。

  值得驻防的是,天然骨干汇集可能会反复屡次对噪声帧进行去噪处理,但标的图像和默契帧只需勾通一次并输入参考汇集。因此,索求的特征会在通盘这个词过程中重迭使用,确保推理过程中的计较时辰不会大幅增多。

  为了锻真金不怕火模子,作家构建了一个普遍而各样化的音视频数据集,网罗了逾越250小时的视频素材和逾越1.5亿张图像,涵盖多种语言的演讲、电影、影视裁剪及陈赞饰演,此外还补充了大型户外高分辨率视听数据集HDTF和高质地的视频东说念主脸数据集VFHQ的推行。

  在与同类型要领DreamTalk、SadTalker、Wav2Lip等的比较中,EMO在FID、FVD、E-FID等3个方针上发扬最好,它们永别揣度视频质地、单帧质地和面部容貌生动度。

  

  ▲EMO与其他肖像视频生成要领的定量比较(图源:论文)

  不及方面,作家称一是与不依赖于扩散模子的要领比拟,EMO更耗时;其次,由于模子锻真金不怕火过程中莫得使用任何明确的为止信号来为止变装的默契,可能会导请安外中生成其他体魄部位,从而在视频中产生伪影。

  三、4个月连发6个姿色,阿里全场地布局AI视频

  近期,阿里连接围攻AI视频赛说念,短短4个月内连发至少6个新型样。比起Sora等主攻视频生成长度和质地的模子,阿里团队的姿色似乎更看重于算法在不同视频生澄净象上的具体应用。本年1月,通义千问上线了“全民舞王”,凭借“戎马俑跳科目三”出圈了一把。

  1、I2VGen-XL:图像+翰墨生成高质地视频

  该算法发布于2023年11月8日,诈欺静态图像当作关节携带状态来确保输入数据的对皆,代码和模子已开源。I2VGen-XL由两个阶段构成,一是基础阶段,通过使用两个分层编码器保证连贯的语义并保留输入图像的推行;二是细化阶段,通过合并出奇的简漫笔底本增强视频的细节,并将分辨率进步到1280×720。

  姿色主页:https://i2vgen-xl.github.io/

  2、AnimateAnyone:一张图让任何变装舞蹈

  AnimateAnyone发布于2023年11月29日,能够通过变装像片生成受姿势序列为止的动画视频,“全民舞王”功能背后用到的时候恰是这一算法。

  据论文先容,AnimateAnyone亦然基于SD基础模子,同期引入了ReferenceNet来保持细节特征的一致性,Pose Guider来为止变装的动作,以及Temporal-Attention来保证视频帧之间的平滑过渡。

  姿色主页:https://humanaigc.github.io/animate-anyone/

  3、DreaMoving:一张图让变装在职意地点舞蹈

  DreaMoving发布于2023年12月9日,是一个基于SD的可控视频生成框架,用于生成高质地的定制东说念主物视频。它在AnimateAnyone的基础上,增多了对文本输入的复旧,通过输入一张图像和一段刻画翰墨,能够生成标的东说念主物一稔不同衣物在不同配景上舞蹈的视频。

  姿色主页:https://dreamoving.github.io/dreamoving/

  4、DreamTalk:EMO前身?跨作风生谚语言肖像

  2023年12月16日,阿里与清华大学、华中科技大学等汇注发布了DreamTalk,与EMO一样针对富足发扬力的头像生成。DreamTalk由三个关节组件构成:降噪汇集、作风感知唇部民众和作风展望器,永别用于合成一致的由音频驱动的面部默契、携带唇部同步和语言作风,以及胜利从音频展望标的容貌。

  相较于DreamTalk给出的演示,不错看出在2个多月的时辰内,EMO在时候上完结了巨大的打破。

  姿色主页:https://dreamtalk-project.github.io/

  5、TF-T2V:使用无文本视频扩大文本到视频生成

  2023年12月26日,阿里发布了TF-T2V,它不错胜利使用无文本视频学习,推广了现存的视频生成时候,其背后的基欢跃趣是将文本解码过程与时辰建模过程分开。代码和模子已公开。

  姿色主页:https://tf-t2v.github.io

  6、Motionshop:使用3D模子替换视频变装

  Motionshop发布于本年1月16日,是一个用3D模子替换视频中变装的框架。该框架由两部分构成,永别是用于索求开垦配景视频序列的视频处理管说念,以及用于生成头像视频序列的姿势策动和渲染管说念。据称,通过并行两条管线并使用高性能后光跟踪渲染器TIDE,通盘这个词过程不错在几分钟内完成。

  姿色主页:https://aigc3d.github.io/motionshop/

  结语:AI视频赛说念骄贵更多新玩法

  在AI视频这个赛说念上,阿里别有肺肠,从头玩法、新状态上开发了不少意思的姿色,这也给国内其他玩家提供了一条新念念路:不一定非要死磕AI生成的视频时长或分辨率等参数,从应用的角度登程也能让东说念主目前一亮。

  当今,这些姿色大多还处于“期货”阶段,暂未灵通代码或试用进口。不外不错料意象的是,EMO等姿色一朝落地产物,在影视、游戏、外交媒体等行业都前景繁花。

  它不错用于创建变装动画和捏造演员,为游戏变装创建动态容貌和动作,镌汰资本并进步创作活泼性;或者像“戎马俑跳科目三”一样刷屏短视频平台,为创作家提供新形态的创作方式。

  任何时候都有两面性,EMO、Sora等AI视频生成算法也带来对于诡秘、版权和伦理的新商讨。如若眼见不再为实,咱们该若何分辨真正和捏造?AI电信诈欺、AI贬低等都是可能存在的风险。

  畴昔咱们期待看到更多像“全民舞王”一样好玩的应用落地,让AI视频赛说念百花皆放。跟着这类音频驱动图像的AI器具走向普及柚木提娜ed2k,推行创作和文娱产业将迎来全新可能。



相关资讯