正在招生的课程：

GPT-4 工作坊

$400

约合 RMB 2800，

报名

正在授课的课程：

大模型与AIGC-文本

$850

约合 RMB 5800

报名结束

强化学习与智能决策

$850

约合 RMB 5800

报名结束

大模型与AIGC-图像

$850

约合 RMB 5800

报名结束

Back to Program List

大模型&AIGC - 图像方向

Large Model Image&Video Generation

授课老师：

开课时间：

上课时间：

总长：

学费：

赵二可，Henry Wilson

2023年10月21日

每周六早上9:00-12:00

四个月

高级研讨班：RMB 5800
综合实战班：RMB 8800
Offer直达班：RMB 13800

* 高级研讨班包括：本方向所有内容。

* 综合实战班包括：本方向所有内容，一个辅修方向（从其他两个方向中选择，与主修同学享有同等待遇，录播长期有效），硬件support（亚马逊美国服务器的32核CPU服务器集群 + GPU费用课程组cover 60%）

* Offer直达班包括：综合实战班所有权益，外加2个月算法机试强化训练，2次简历修改，2次模拟面试。参加4次由字节，阿里巴巴，百度，华为，微软，Google，Meta，Amazon等技术面试官在线分享招聘进展，用人需求与人才技能模型

总体介绍：

生成式图像/视频已经成为一个热门和前沿的研究领域，它引领了计算机视觉和艺术的新浪潮。该课程旨在深化对生成式图像/视频的理解，通过学习最新的技术和模型来培养实际技能。内容将涵盖GAN，Diffusion Models和多模态等多维度方法，提供一个全面而深入的学习体验。

GAN（生成对抗网络）介绍
在这一部分，我们将深入探讨生成对抗网络（GAN）的世界。该部分包括GAN的基本原理和工作方式，以及如何用GAN创建令人惊叹的生成式艺术和复杂的数据模型。学员将学会如何实现和训练GAN，以及如何使用它们来生成高质量的图像/视频。完成这一部分后，学员将能够理解GAN的强大功能，并有能力使用它们来实现创意项目。

Diffusion Models(扩散模型)介绍
Diffusion Models是一种基于概率的方法，用于生成数据样本。这一部分将介绍Diffusion Models的基本理论和实践应用，探索这一领域的发展历程以及如何创建高质量的图像等应用。通过学习Diffusion Models，学员将能够掌握一种强大的工具来改进和优化生成项目。

视觉生成与大模型的结合
课程的最后一部分将探讨多模态方法和与LLM（大型语言模型）的结合。这里将深入探讨如何将文本和视觉数据结合在一起，创建跨媒体应用。学员将学习如何利用LLM来增强生成式图像和视频的创建，打开一个全新的创意领域。完成这一部分后，学员将掌握多模态方法的核心概念，并能够开发出具有深度和复杂性的生成项目。

课程大纲：

第一周. 生成式AI与CV基础 I:

AGI与CV基础知识 I

CV 应用简介与项目“范式”

生成式AI与CV的结合

第二周. 生成式AI与CV基础 II: 深度学习与CV

CNN与CV

Transformer与CV

Transformer的发展:seq2seq、attention、Transformer模块与整体结构

Transformer在CV中的应用于发展:ViT, Swin-Transformer等

第三周. GAN 的理论与发展 I:想法、公式、推导与代码

判别器 (Discriminator)/ 生成器 (Generator)

GAN 公式详解；KL 散度 (Divergence) / JS 散度

GAN 公式推导;最优判别器

GAN 代码; 原始代码理解

GAN 存在的问题；Mode Collapse / 难以训练等

发现 GAN 理论的问题；无法训练的最优判别器

对 GAN 问题的理解；错误的优化目标

第四周. GAN 的理论与发展 II:原始 GAN 问题的解决

WGAN: 尝试解决 GAN 的问题；WGAN 公式详解

Wasserstein 距离；Lipschitz Constraint

WGAN 代码；WGAN-GP: WGAN 的进阶版本

梯度惩罚 (GradientPenalty)；WGAN-GP

第五周. GAN 的应用 I: 黑白图像着色

基础网络架构；网络架构进阶；基于 GAN 的方法

Tricky Losses ；Perceptual Loss + tv Loss

GAN 的进阶发展；训练框架；条件(Conditional)GAN: 引入条件输入

AC-GAN: 辅助分类器；Pix2Pix: 引入 PatchGAN；Cycle-GAN: 非成对数据与 Consistency Loss

第六周. GAN 的应用 II:视频矫正与最新成果

视频矫正: 光流原理光流应用

DragGAN: GAN 的最新成果

项目一：基于GAN的图像矫正实战

在这个项目中，我们将利用所学的 GAN 相关知识，进行静态图片与动态视频的矫正工作。基于生成对抗网络（GAN）的图像矫正项目旨在通过训练一个生成模型来改善输入图像的质量、清晰度或其他视觉特征。GAN是一种深度学习模型，由生成器网络和判别器网络组成，它们相互博弈以提高生成模型的性能。在图像矫正项目中，生成器网络负责生成矫正后的图像，而判别器网络则负责判断生成的图像是否真实。通过不断迭代训练，生成器和判别器的性能逐渐提升，最终生成器能够生成高质量的矫正图像。

第七周. 扩散理论(diffusion model)与模型

扩散理论: GAN 的遗留问题: 生成路径无保障；扩散理论与路径保障

diffusion 与生成模型: diffusion model 的数学基础；diffusion model 与生成模型关系

GAN 的遗留问题: 生成路径无保障 diffusion model 代码

diffusion model代码剖析讲解

第八周. 扩散模型的发展 I: 采样速度的提升

DDIM: DDIM 的推导；DDIM 的实现 DPM Solver ++

DPM Solver ++: DPMSolver++的推导；DPMSolver++的实现

diffusion model 痛点 II:生成效果欠佳；资源的大量消耗 Latentdiffusionmodel

第九周. 扩散模型的发展 II:采样效果提升

betaschedule:linear → cosine → sigmoid

pred noise → pred 𝑥0 → pred 𝑣

snrweights (class) guided diffusion model

(class) guided diffusion model原理与实现

class-free guidance diffusion model 原理、实现与提升技巧

第十周. 生成模型与多模态

CLIP

DALL.E

Stable Diffusion (Latent Diffusion Model)

项目二：图像生成大项目：利用 Latent Diffusion Model进行基于文字描述的图像生成

LDM 是最新的生成式模型，其内容上的最大特点便是利用语言文字进行图像生成;同时在技术上，也与 GAN 不同。具有训练相对简单，效果相对较好(当然，通过我们的讲解，GAN 技术同样也可以做到此点)的特点，因而目前热度较高。在这个背景下，我们将带领大家直观感受 LDM 究竟是如何完成这点的。

第十一周：数字人的基本概念和技术

GPT模型的使用;数字人的声音与交互; TTS技术简介：文本转语音技术的原理和应用; 如何让数字人"说话"：接入TTS技术与用户进行声音交互; 创建一个数字人伙伴，使其能够回答问题并生成语音回应

第十二周：数字人的记忆和数据库

向量数据库简介：存储和检索信息的关键工具;如何存储和管理用户输入的信息：建立数字人的记忆;设计和实现一个向量数据库，用于数字人的记忆功能

第十三课：数字人的情感与表情

情感分析简介：理解文本中的情感和情绪;基于GPT的情感分析：生成数字人的情感表达’增加数字人伙伴的情感表情，使其看起来更真实和有情感

第十四课：强化学习与数字人的自主性

强化学习算法和原理及其在数字人中的应用；数字人的自主性：如何让数字人伙伴自主决策；实际应用：使用强化学习算法来训练数字人伙伴，使其更智能和自主地回应用户需求

第十五课：多模态AI与数字人的感知

如何整合多种感知方式，如视觉、听觉和文本;数字人的感知能力：如何使数字人可以理解和回应多种感知输入

项目三：数字人实践

实际案例：实现一个数字人伙伴，可以处理来自多种感知模式的输入，并做出相应的反应。该数字人部分涵盖了从基础的文本生成到声音交互、记忆、情感表达、强化学习以及多模态AI的复杂主题。这将使他们能够构建高度智能和多功能的数字人伙伴。