大模型&AIGC - 图像方向
Large Model Image&Video Generation

授课老师:
开课时间:
上课时间:
总长:
学费:
赵二可,Henry Wilson
2023年10月21日
每周六 早上9:00-12:00
四个月
高级研讨班:RMB 5800
综合实战班:RMB 8800
Offer直达班:RMB 13800
* 高级研讨班包括:本方向所有内容。
* 综合实战班包括:本方向所有内容,一个辅修方向(从其他两个方向中选择,与主修同学享有同等待遇,录播长期有效),硬件support( 亚马逊美国服务器的32核CPU服务器集群 + GPU费用课程组cover 60%)
* Offer直达班包括:综合实战班所有权益,外加2个月算法机试强化训练,2次简历修改,2次模拟面试。参加4次由字节,阿里巴巴,百度,华为,微软,Google,Meta,Amazon等技术面试官在线分享招聘进展,用人需求与人才技能模型
总体介绍:
生成式图像/视频已经成为一个热门和前沿的研究领域,它引领了计算机视觉和艺术的新浪潮。该课程旨在深化对生成式图像/视频的理解,通过学习最新的技术和模型来培养实际技能。内容将涵盖GAN,Diffusion Models和多模态等多维度方法,提供一个全面而深入的学习体验。
GAN(生成对抗网络)介绍
在这一部分,我们将深入探讨生成对抗网络(GAN)的世界。该部分包括GAN的基本原理和工作方式,以及如何用GAN创建令人惊叹的生成式艺术和复杂的数据模型。学员将学会如何实现和训练GAN,以及如何使用它们来生成高质量的图像/视频。完成这一部分后,学员将能够理解GAN的强大功能,并有能力使用它们来实现创意项目。
Diffusion Models(扩散模型)介绍
Diffusion Models是一种基于概率的方法,用于生成数据样本。这一部分将介绍Diffusion Models的基本理论和实践应用,探索这一领域的发展历程以及如何创建高质量的图像等应用。通过学习Diffusion Models,学员将能够掌握一种强大的工具来改进和优化生成项目。
视觉生成与大模型的结合
课程的最后一部分将探讨多模态方法和与LLM(大型语言模型)的结合。这里将深入探讨如何将文本和视觉数据结合在一起,创建跨媒体应用。学员将学习如何利用LLM来增强生成式图像和视频的创建,打开一个全新的创意领域。完成这一部分后,学员将掌握多模态方法的核心概念,并能够开发出具有深度和复杂性的生成项目。
课程大纲:
第一周. 生成式AI与CV基础 I:
AGI与CV基础知识 I
CV 应用简介与项目“范式”
生成式AI与CV的结合
第二周. 生成式AI与CV基础 II: 深度学习与CV
CNN与CV
Transformer与CV
Transformer的发展:seq2seq、attention、Transformer模块与整体结构
Transformer在CV中的应用于发展:ViT, Swin-Transformer等
第三周. GAN 的理论与发展 I:想法、公式、推导与代码
判别器 (Discriminator)/ 生成器 (Generator)
GAN 公式详解;KL 散度 (Divergence) / JS 散度
GAN 公式推导;最优判别器
GAN 代码; 原始代码理解
GAN 存在的问题;Mode Collapse / 难以训练等
发现 GAN 理论的问题;无法训练的最优判别器
对 GAN 问题的理解;错误的优化目标
第四周. GAN 的理论与发展 II:原始 GAN 问题的解决
WGAN: 尝试解决 GAN 的问题;WGAN 公式详解
Wasserstein 距离;Lipschitz Constraint
WGAN 代码;WGAN-GP: WGAN 的进阶版本
梯度惩罚 (GradientPenalty);WGAN-GP
第五周. GAN 的应用 I: 黑白图像着色
基础网络架构;网络架构进阶;基于 GAN 的方法
Tricky Losses ;Perceptual Loss + tv Loss
GAN 的进阶发展;训练框架 ;条件(Conditional)GAN: 引入条件输入
AC-GAN: 辅助分类器;Pix2Pix: 引入 PatchGAN;Cycle-GAN: 非成对数据与 Consistency Loss
第六周. GAN 的应用 II:视频矫正与最新成果
视频矫正: 光流原理 光流应用
DragGAN: GAN 的最新成果
项目一: 基于GAN的图像矫正实战
在这个项目中,我们将利用所学的 GAN 相关知识,进行静态图片与动态视频的矫正工作。基于生成对抗网络(GAN)的图像矫正项目旨在通过训练一个生成模型来改善输入图像的质量、清晰度或其他视觉特征。GAN是一种深度学习模型,由生成器网络和判别器网络组成,它们相互博弈以提高生成模型的性能。 在图像矫正项目中,生成器网络负责生成矫正后的图像,而判别器网络则负责判断生成的图像是否真实。通过不断迭代训练,生成器和判别器的性能逐渐提升,最终生成器能够生成高质量的矫正图像。
第七周. 扩散理论(diffusion model)与模型
扩散理论: GAN 的遗留问题: 生成路径无保障;扩散理论与路径保障
diffusion 与生成模型: diffusion model 的数学基础 ;diffusion model 与生成模型关系
GAN 的遗留问题: 生成路径无保障 diffusion model 代码
diffusion model代码剖析讲解
第八周. 扩散模型的发展 I: 采样速度的提升
DDIM: DDIM 的推导;DDIM 的实现 DPM Solver ++
DPM Solver ++: DPMSolver++的推导;DPMSolver++的实现
diffusion model 痛点 II:生成效果欠佳;资源的大量消耗 Latentdiffusionmodel
第九周. 扩散模型的发展 II:采样效果提升
betaschedule:linear → cosine → sigmoid
pred noise → pred 𝑥0 → pred 𝑣
snrweights (class) guided diffusion model
(class) guided diffusion model原理与实现
class-free guidance diffusion model 原理、实现与提升技巧
第十周. 生成模型与多模态
CLIP
DALL.E
Stable Diffusion (Latent Diffusion Model)
项目二:图像生成大项目:利用 Latent Diffusion Model进行基于文字描述的图像生成
LDM 是最新的生成式模型,其内容上的最大特点便是利用语言文字进行图像生成;同时在 技术上,也与 GAN 不同。具有训练相对简单,效果相对较好(当然,通过我们的讲解,GAN 技术同样也可以做到此点)的特点,因而目前热度较高。在这个背景下,我们将带领大家直 观感受 LDM 究竟是如何完成这点的。
第十一周: 数字人的基本概念和技术
GPT模型的使用;数字人的声音与交互; TTS技术简介:文本转语音技术的原理和应用; 如何让数字人"说话":接入TTS技术与用户进行声音交互; 创建一个数字人伙伴,使其能够回答问题并生成语音回应
第十二周:数字人的记忆和数据库
向量数据库简介:存储和检索信息的关键工具;如何存储和管理用户输入的信息:建立数字人的记忆;设计和实现一个向量数据库,用于数字人的记忆功能
第十三课:数字人的情感与表情
情感分析简介:理解文本中的情感和情绪;基于GPT的情感分析:生成数字人的情感表达’增加数字人伙伴的情感表情,使其看起来更真实和有情感
第十四课:强化学习与数字人的自主性
强化学习算法和原理及其在数字人中的应用;数字人的自主性:如何让数字人伙伴自主决策; 实际应用:使用强化学习算法来训练数字人伙伴,使其更智能和自主地回应用户需求
第十五课:多模态AI与数字人的感知
如何整合多种感知方式,如视觉、听觉和文本;数字人的感知能力:如何使数字人可以理解和回应多种感知输入
项目三:数字人实践
实际案例:实现一个数字人伙伴,可以处理来自多种感知模式的输入,并做出相应的反应。该数字人部分涵盖了从基础的文本生成到声音交互、记忆、情感表达、强化学习以及多模态AI的复杂主题。这将使他们能够构建高度智能和多功能的数字人伙伴。