Skip to content

predict VIDEO #10

@fzd9752

Description

@fzd9752

目的:??(不知道和公司发展有什么关系,也不知道做出来能干什么……)

zdx:序列预测是智能非常重要的能力,对于AI非常重要,完全符合公司目标通用智能,做出了能增强现有神经网络的智能。
具体场景:大家一起想!避障,其他车辆意图的预测,torcs游戏验证?机器人自己动作的预测,常识学习。
原型验证ok,完善中再继续找应用的场景和产品的具体完善。


目标:搭建一个视频生成网络
要求:pix2pix 框架,基于GAN技术

:以上为主观因素


基本结构:

G:简易 3D_UNET 网络,初步大小64 x 64,目标大小 128 x 128
D:C3D 类似结构判别器

效果: 输入10帧视频,输出5帧视频


预计时间:总用时 8 周

  • 网络基础搭建 4 周:
    • W1: 论文清单论文和相关代码
    • W2 - W3: 简单主体结构G D搭建
    • W4: 试训练,看能否收敛
  • 网络调试:2周 确认网络有潜力后进一步增加复杂度
    • W5: 扩增网络
    • W6: 大数据及测试,pipeline顺畅
  • Demo 训练 + 测试: 2周
    • W7: 训练,调bug
    • W8: 测试目标数据集

15 号最新更新:
按张总的意思,换 Pytorch 框架,基于 pix2pix 原始代码修改修改。参考如下:

pix2pix pytorch 源代码:
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

一些 pytorch 3D 应用的实例:
https://github.com/shiba24/3d-unet
https://github.com/kenshohara/video-classification-3d-cnn-pytorch
https://github.com/kenshohara/3D-ResNets-PyTorch

pytorch 官方 Document:
http://pytorch.org/docs/master/nn.html
关键 operatoin:
3D deconvolution - torch.nn.ConvTranspose3d
3D convolution - torch.nn.Conv3d
3D maxpooling - torch.nn.MaxPool3d
3D dropout - torch.nn.Dropout3d

Keras 实现 已取消

计划注意:

  1. 计划列出的是最低时间,因为进度原因可能推迟

可能失败原因

  • 1. 因为现有目标数据集不符合pix2pix coniditional gan 分布的原理,生成图像可能无法毫无价值
  • 2. 3D convolution 耗费内存增大,最终模型以我们现有条件可能跑不起来
  • 3. 技术能力不足,耦合失败
  • 4. 公司调整方向,放弃

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions