目前市面上有一种需求非常大的aigc商业落地应用,利用 AI 技术来复活已故亲人的短视频玩法。
通过AI复活技术,可以让已故亲人的形象再次出现在视频中,并且能够与他们进行对话和互动。这种技术可以给人带来心理上的慰藉,让人感觉亲人并没有离开,同时也可以帮助人们缓解对亲人离世的悲伤和思念。
下面将手把手讲讲涉及的工具和软件,以及附带教程。
想要制作这样的视频,首先捋一下技术点,先把需要的视频结构列出来,
第一步,需要做的事把亲友的图像做出来,这时就要用到AI绘画工具,其中最出名的是:Midjourney,StableDiffusion。
第二步,声音克隆,既然有声音,就涉及到声音克隆的技术,目前比较好的声音克隆工具有:Bert-VITS2-Extra-Fix,GPT-SoVITS(推荐),剪映(内测资格),还有去年风靡全球的AI孙燕姿声音克隆工具:so-vits-svc,不过这个工具克隆条件相对苛刻,需要一个小时的干声才能完美复刻声音。
第三步,虚拟人口播,目前主流的AI虚拟人工具也有很多,相对成熟和出名的是:HeyGen,SadTalker,当然那些视频剪辑工具,如:剪映,必剪那些工具也有虚拟人功能,不过效果智能勉强过关。
以下是AI软件工具的基本介绍及教程:
图像生成:
1. Midjourney
Midjourney是一款AI绘画工具,使用户只需输入想到的文字,就能通过人工智能产出相对应的图片,Midjourney V6是Midjourney的最新版本,它在图像生成方面表现出了强大的能力。与之前的版本相比,V6对于画面真实性的理解更加透彻,无论是在细节的处理上,还是对于提示词的敏感,相比V5.2都有着前所未有的提升。
https://heehel.com/aigc/midjourney-jiaocheng.html
2. StableDiffusion
Stable Diffusion是一款基于深度学习的AI绘画软件。它利用深度学习模型进行图像转换,可以生成高质量、令人印象深刻的绘画作品。这款软件在设计师和数字艺术家中备受欢迎,因为它提供了一种全新的创作方式,在自动化生成图像方面,如年终报告封面、商业广告宣传海报等,具有广泛的应用,大大提高了用户的工作效率。
https://heehel.com/aigc/stablediffusion-easyphoto-cg.html
BERT-VITS2是一种基于BERT和VITS2的语言模型,由华为Noah’s Ark实验室开发。这种模型结合了BERT的预训练和VITS2的微调,可以用于各种自然语言处理任务,如文本分类、命名实体识别、情感分析等。
相比传统的BERT模型,BERT-VITS2在多个任务上都取得了更好的性能表现。它采用了VITS2的微调方法,即在预训练后使用少量的标注数据进行微调,以提高模型在特定任务上的性能。此外,BERT-VITS2还引入了一些新技术,如动态掩码和多任务学习,以进一步提高模型的性能。
以下是教程(官网和网盘下载)
https://heehel.com/aigc/bert-vits2-yenaifa.html
2. GPT-SoVITS(推荐)
GPT-SoVITS是一个开源的语音转换框架,它结合了SoVITS(语音合成模块)和GPT(文本生成模块),旨在实现语音克隆和文本到语音的转换功能。这个项目由RVC-Boss和Rcell共同开发,被称为“最强大中文声音克隆项目”。GPT-SoVITS支持零样本和少样本的语音克隆,以及跨语言的文本到语音转换,具有数据量少、质量高、灵活性强、易用性高等优点。
https://heehel.com/aigc/copy-sound.html
以下是教程(官网和网盘下载)
3. 剪映(内测资格)
剪映上线了一个新功能,“克隆音色”。用户在添加文本时,可以在 “文本朗读” 功能中点击 “我的” 选项,就能看到这个新功能。
https://heehel.com/aigc/so-vits-svc-sound-tool.html
HeyGen是AI视频翻译工具。支持300多种声音、50多种语言,不仅可以准确卡点,音色与讲母语时候的音色类似,甚至连口型都能对上。HeyGen的前身,是一款名为“Movio”的AI视频翻译平台,背后所依靠的模型是其自家的多模态内容生成引擎“Surreal Engine”。
这是一款令人惊叹的AI视频翻译工具,仅需短短5分钟,用户即可在手机上打造一个逼真的虚拟分身。HeyGen的这一最新创新标志着他们在多模态内容生成领域的持续引领地位,为用户提供了一种前所未有的、定制化的数字创作体验。选择一个模型,输入文本,就能让模型里面的人物按照你输入的文本说话,口型一致面部表情生动。
https://heehel.com/aigc/heygen-jiaocheng.html
2. SadTalker
SadTalker是一个由西安交通大学、腾讯AI实验室、蚂蚁集团联合开发的AI人工智能开源项目,其旨在通过AI学习真实的3D运动系数来支持风格化的音频驱动的单图像说话面部动画。简而言之,它能够将一张静态的肖像图片和一段音频融合,通过AI生成一个逼真的说话头像视频,仿佛让一张照片变得“会说话”,有一种很不明觉厉的视觉效果。
https://heehel.com/aigc/sadtalker.html
原文链接:https://blog.csdn.net/heehelcom/article/details/136767186?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851505316800182792969%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851505316800182792969&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-2-136767186-null-null.nonecase&utm_term=AI%E5%A4%B4%E5%83%8F