top of page

正在招生的课程:

GPT-4 工作坊

$400

​约合 RMB 2800,

正在授课的课程:

大模型与AIGC-文本

$850

​约合 RMB 5800

报名结束

强化学习与智能决策

$850

​约合 RMB 5800

报名结束

大模型与AIGC-图像

$850

​约合 RMB 5800

报名结束

大模型&AIGC - 图像方向

Large Model Image&Video Generation

大模型&AIGC - 图像方向

​授课老师:

开课时间:

上课时间:

​总长:

​学费:

赵二可,Henry Wilson

2023年10月21日

每周六 早上9:00-12:00

四个月

高级研讨班:RMB 5800
综合实战班:RMB 8800
Offer直达班:RMB 13800

* 高级研讨班包括:本方向所有内容。

* 综合实战班包括:本方向所有内容,一个辅修方向(从其他两个方向中选择,与主修同学享有同等待遇,录播长期有效),硬件support( 亚马逊美国服务器的32核CPU服务器集群 + GPU费用课程组cover 60%)

* Offer直达班包括:综合实战班所有权益,外加2个月算法机试强化训练,2次简历修改,2次模拟面试。参加4次由字节,阿里巴巴,百度,华为,微软,Google,Meta,Amazon等技术面试官在线分享招聘进展,用人需求与人才技能模型

总体介绍:

生成式图像/视频已经成为一个热门和前沿的研究领域,它引领了计算机视觉和艺术的新浪潮。该课程旨在深化对生成式图像/视频的理解,通过学习最新的技术和模型来培养实际技能。内容将涵盖GAN,Diffusion Models和多模态等多维度方法,提供一个全面而深入的学习体验。

GAN(生成对抗网络)介绍
在这一部分,我们将深入探讨生成对抗网络(GAN)的世界。该部分包括GAN的基本原理和工作方式,以及如何用GAN创建令人惊叹的生成式艺术和复杂的数据模型。学员将学会如何实现和训练GAN,以及如何使用它们来生成高质量的图像/视频。完成这一部分后,学员将能够理解GAN的强大功能,并有能力使用它们来实现创意项目。

Diffusion Models(扩散模型)介绍
Diffusion Models是一种基于概率的方法,用于生成数据样本。这一部分将介绍Diffusion Models的基本理论和实践应用,探索这一领域的发展历程以及如何创建高质量的图像等应用。通过学习Diffusion Models,学员将能够掌握一种强大的工具来改进和优化生成项目。

视觉生成与大模型的结合
课程的最后一部分将探讨多模态方法和与LLM(大型语言模型)的结合。这里将深入探讨如何将文本和视觉数据结合在一起,创建跨媒体应用。学员将学习如何利用LLM来增强生成式图像和视频的创建,打开一个全新的创意领域。完成这一部分后,学员将掌握多模态方法的核心概念,并能够开发出具有深度和复杂性的生成项目。

课程大纲:

第一周. 生成式AI与CV基础 I:   

AGI与CV基础知识 I   

CV 应用简介与项目“范式”  

生成式AI与CV的结合   


第二周. 生成式AI与CV基础 II: 深度学习与CV   

CNN与CV  

Transformer与CV  

Transformer的发展:seq2seq、attention、Transformer模块与整体结构   

Transformer在CV中的应用于发展:ViT, Swin-Transformer等  


第三周. GAN 的理论与发展 I:想法、公式、推导与代码   

判别器 (Discriminator)/ 生成器 (Generator)   

GAN 公式详解;KL 散度 (Divergence) / JS 散度   

GAN 公式推导;最优判别器   

GAN 代码; 原始代码理解   

GAN 存在的问题;Mode Collapse / 难以训练等   

发现 GAN 理论的问题;无法训练的最优判别器   

对 GAN 问题的理解;错误的优化目标  


第四周. GAN 的理论与发展 II:原始 GAN 问题的解决   

WGAN: 尝试解决 GAN 的问题;WGAN 公式详解  

Wasserstein 距离;Lipschitz Constraint   

WGAN 代码;WGAN-GP: WGAN 的进阶版本   

梯度惩罚 (GradientPenalty);WGAN-GP   


第五周. GAN 的应用 I: 黑白图像着色   

基础网络架构;网络架构进阶;基于 GAN 的方法   

Tricky Losses ;Perceptual Loss + tv Loss   

GAN 的进阶发展;训练框架 ;条件(Conditional)GAN: 引入条件输入   

AC-GAN: 辅助分类器;Pix2Pix: 引入 PatchGAN;Cycle-GAN: 非成对数据与 Consistency Loss   

第六周. GAN 的应用 II:视频矫正与最新成果   

视频矫正: 光流原理 光流应用  

DragGAN: GAN 的最新成果      


项目一: 基于GAN的图像矫正实战     

在这个项目中,我们将利用所学的 GAN 相关知识,进行静态图片与动态视频的矫正工作。基于生成对抗网络(GAN)的图像矫正项目旨在通过训练一个生成模型来改善输入图像的质量、清晰度或其他视觉特征。GAN是一种深度学习模型,由生成器网络和判别器网络组成,它们相互博弈以提高生成模型的性能。     在图像矫正项目中,生成器网络负责生成矫正后的图像,而判别器网络则负责判断生成的图像是否真实。通过不断迭代训练,生成器和判别器的性能逐渐提升,最终生成器能够生成高质量的矫正图像。        


第七周. 扩散理论(diffusion model)与模型   

扩散理论: GAN 的遗留问题: 生成路径无保障;扩散理论与路径保障   

diffusion 与生成模型: diffusion model 的数学基础 ;diffusion model 与生成模型关系   

GAN 的遗留问题: 生成路径无保障 diffusion model 代码  

diffusion model代码剖析讲解  


第八周. 扩散模型的发展 I: 采样速度的提升   

DDIM: DDIM 的推导;DDIM 的实现 DPM Solver ++

DPM Solver ++: DPMSolver++的推导;DPMSolver++的实现   

diffusion model 痛点 II:生成效果欠佳;资源的大量消耗  Latentdiffusionmodel   


第九周. 扩散模型的发展 II:采样效果提升  

betaschedule:linear → cosine → sigmoid  

pred noise → pred 𝑥0 → pred 𝑣  

snrweights (class) guided diffusion model  

 (class) guided diffusion model原理与实现  

class-free guidance diffusion model 原理、实现与提升技巧   


第十周. 生成模型与多模态   

CLIP   

DALL.E  

Stable Diffusion (Latent Diffusion Model)     


项目二:图像生成大项目:利用 Latent Diffusion Model进行基于文字描述的图像生成  


  

LDM 是最新的生成式模型,其内容上的最大特点便是利用语言文字进行图像生成;同时在 技术上,也与 GAN 不同。具有训练相对简单,效果相对较好(当然,通过我们的讲解,GAN 技术同样也可以做到此点)的特点,因而目前热度较高。在这个背景下,我们将带领大家直 观感受 LDM 究竟是如何完成这点的。         


第十一周: 数字人的基本概念和技术  

GPT模型的使用;数字人的声音与交互; TTS技术简介:文本转语音技术的原理和应用; 如何让数字人"说话":接入TTS技术与用户进行声音交互; 创建一个数字人伙伴,使其能够回答问题并生成语音回应  


第十二周:数字人的记忆和数据库  

向量数据库简介:存储和检索信息的关键工具;如何存储和管理用户输入的信息:建立数字人的记忆;设计和实现一个向量数据库,用于数字人的记忆功能  


第十三课:数字人的情感与表情  

情感分析简介:理解文本中的情感和情绪;基于GPT的情感分析:生成数字人的情感表达’增加数字人伙伴的情感表情,使其看起来更真实和有情感  


第十四课:强化学习与数字人的自主性  

强化学习算法和原理及其在数字人中的应用;数字人的自主性:如何让数字人伙伴自主决策; 实际应用:使用强化学习算法来训练数字人伙伴,使其更智能和自主地回应用户需求  


第十五课:多模态AI与数字人的感知  

如何整合多种感知方式,如视觉、听觉和文本;数字人的感知能力:如何使数字人可以理解和回应多种感知输入     


项目三:数字人实践     

实际案例:实现一个数字人伙伴,可以处理来自多种感知模式的输入,并做出相应的反应。该数字人部分涵盖了从基础的文本生成到声音交互、记忆、情感表达、强化学习以及多模态AI的复杂主题。这将使他们能够构建高度智能和多功能的数字人伙伴。


© 2023 Advanced Learning. 北京明诠科技工作室91110108MA7DE5KRX7. All rights reserved.

bottom of page