百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

MimicMotion模型构建指南

yuyutoo 2025-02-15 01:47 1 浏览 0 评论

一、介绍

MimicMotion (运动模仿)是具有置信感知姿势指导的高质量人体运动视频生成模型。它可以在任何运动引导下生成任意长度的高质量视频。目前它支持以 576x1024 分辨率生成最多 72 帧的视频。

二、特点

首先,通过置信度感知姿态引导,可以实现时间平滑度,从而通过大规模训练数据增强模型鲁棒性。

其次,基于姿态置信度的区域损失放大显著缓解了图像的失真。

最后,针对长而流畅的视频生成,该文提出一种渐进式潜融合策略。通过这种方式,能以可接受的资源消耗生成任意长度的视频。

简而言之:就是通过一张静态照片和一段视频,实现静态照片人物模仿视频中人物动作的模型。

三、构建

VRAM要求和运行时间:

对于 35 秒的演示视频,72 帧模型需要16GB 显存 (4060ti),并在4090GPU上20分钟内能完成。

16 帧 U-Net 型号的最低显存要求为 8GB;但是VAE 解码器需要 16GB。您可以选择在 CPU 上运行 VAE 解码器。

环境推荐:python 3+ with torch 2.x 使用 Nvidia V100 GPU(显卡3090及以上也行)进行验证。

1. 环境搭建

(1)更新软件包

apt-get update

(2)安装所需命令及依赖

apt-get install sudo
sudo apt-get install -y git wget curl bzip2 build-essential ca-certificates gcc

(3)从github仓库克隆项目

git clone https://github.com/Tencent/MimicMotion.git
cd MimicMotion
mkdir models

(4)安装conda

下面需要使用Anaconda或Mimiconda创建虚拟环境,可以输入 conda --version进行检测,如果已安装请跳过该步。下面是Mimiconda的安装过程:

  • 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
  • 运行安装脚本
bash Miniconda3-latest-Linux-x86_64.sh
  • 遵循安装提示并初始化

按 Enter 键查看许可证条款,阅读完毕后输入 yes 接受条款,安装完成后,脚本会询问是否初始化 Conda 环境,输入 yes 并按 Enter 键。

  • 运行 source ~/.bashrc命令激活 Conda环境
  • 再次输入 conda --version命令来验证时候安装成功,如果出现类似 conda 4.10.3这样的输出就成功了。

(5)创建虚拟环境

安装好conda之后,输入下面命令构建项目环境:

conda env create -f environment.yaml
conda activate mimicmotion

如果 conda 版本较老则使用下面命令开启

source activate mimicmotion

2. 下载模型文件

(1)下载预训练模型:dwpose

DWPose 是一个用于姿势估计的模型,具有出色的姿势检测和估计能力,适用于姿势识别和估计任务。输入下面命令进行下载:

mkdir -p models/DWPose
wget https://huggingface.co/yzd-v/DWPose/resolve/main/yolox_l.onnx?download=true -O models/DWPose/yolox_l.onnx
wget https://huggingface.co/yzd-v/DWPose/resolve/main/dw-ll_ucoco_384.onnx?download=true -O models/DWPose/dw-ll_ucoco_384.onnx

若无法访问"hugging face"则可通过"魔搭社区"手动下载模型,放到models/DWPose文件夹中

路径如下:MimicMotion/models/DWPose

(2)从Huggingface下载 MimicMotion 的预训练检查点

wget -P models/ https://huggingface.co/ixaac/MimicMotion/resolve/main/MimicMotion_1-1.pth

可通过"魔搭社区"手动下载MimicMotion_1-1.pth,放到models文件夹中

(3)SVD 模型stabilityai/stable-video-diffusion-img2vid-xt-1-1将自动下载。

也可"魔搭社区"手动下载文件,放置在stabilityai文件夹下(没有就在MimicMotion文件夹下创一个)

最终下载的模型文件目录结构应如下:

MimicMotion
	├── models
	│	├── DWPose
	│	│   ├── dw-ll_ucoco_384.onnx
	│	│   └── yolox_l.onnx
	│	└── MimicMotion_1-1.pth
	└── stability
		└── stable-video-diffusion-img2vid-xt-1-1

3. 进行推理

python inference.py --inference_config configs/test.yaml

提示:如果您的 GPU 内存有限,请尝试设置 env 。PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256

本项目官方并未自带ui界面,因此无需开放端口,需要自行在进行推理前后手动存取图片、视频。

但是本人为该项目提供ui界面,如果需要请看下面的步骤:

4. 添加UI界面

(1)在MimicMotion文件夹下创建一个 gradio_app.py文件,将下面的代码复制到里面:

import os
import argparse
import logging
import math
from omegaconf import OmegaConf
from datetime import datetime
from pathlib import Path
import numpy as np
import gradio as gr
import torch
from mimicmotion.utils.loader import create_pipeline
from mimicmotion.utils.utils import save_to_mp4
from inference import preprocess, run_pipeline


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

#-----------------------------------------------------------------------

def run_MimicMotion(
	ref_image_path,
	ref_video_path,
	num_frames,
	resolution,
	frames_overlap,
	num_inference_steps,
	noise_aug_strength,
	guidance_scale,
	sample_stride,
	fps,
	seed,
	use_fp16,
):
	if use_fp16:
		torch.set_default_dtype(torch.float16)

	infer_config = OmegaConf.create({
		'base_model_path': 'stability/stable-video-diffusion-img2vid-xt-1-1',
		'ckpt_path': 'models/MimicMotion.pth',
		'test_case': [
            {
                'ref_video_path': ref_video_path,
                'ref_image_path': ref_image_path,
                'num_frames': num_frames,
                'resolution': resolution,
                'frames_overlap': frames_overlap,
                'num_inference_steps': num_inference_steps,
                'noise_aug_strength': noise_aug_strength,
                'guidance_scale': guidance_scale,
                'sample_stride': sample_stride,
                'fps': fps,
                'seed': seed,
            },
        ],
	})

	pipeline = create_pipeline(infer_config, device)

	for task in infer_config.test_case:
		# Pre-process data
		pose_pixels, image_pixels = preprocess(
			task.ref_video_path, task.ref_image_path, 
			resolution=task.resolution, sample_stride=task.sample_stride
		)

		# Run MimicMotion pipeline
		_video_frames = run_pipeline(
			pipeline, 
			image_pixels, pose_pixels, 
			device, task
		)
		################################### save results to output folder. ###########################################
		now_str = datetime.now().strftime('%Y-%m-%d_%H-%M-%S')
		output_dir = os.path.dirname(os.path.abspath(__file__))
		output_dir = os.path.join(output_dir, 'outputs')
		if not os.path.exists(output_dir):
			os.mkdir(output_dir)
		filename = os.path.splitext(os.path.basename(task.ref_image_path))[0]
		path_out_vid = os.path.join(output_dir, f'{filename}_{now_str}.mp4')
		print(f'Video will be saved to: {path_out_vid}')
		save_to_mp4(_video_frames, path_out_vid, fps=task.fps)
		print('OK !')

	return path_out_vid
#-----------------------------------------------------------------------

with gr.Blocks() as demo:
	with gr.Row():
		gr.Markdown("""
			

MimicMotion:利用置信度感知姿势引导生成高质量人体运动视频

""") with gr.Row(): with gr.Column(): gr_ref_img = gr.Image(label='参考图片', type='filepath') gr_ref_vid = gr.Video(label='参考视频') with gr.Column(): gr_out_vid = gr.Video(label='生成结果', interactive=False) with gr.Accordion(label='参数设置'): gr_num_frames = gr.Number(label='总帧数', value=16) gr_resolution = gr.Number(label='分辨率', value=576) gr_frames_overlap = gr.Number(label='重叠帧数', value=6) gr_infer_steps = gr.Number(label='推理步数', value=25) gr_noise_aug_strength = gr.Number(label='噪声强度', value=0.0) gr_guidance_scale = gr.Number(label='引导系数', value=2.0) gr_sample_stride = gr.Number(label='采样步长', value=2) gr_fps = gr.Number(label='帧率', value=15) gr_seed = gr.Number(label='种子', value=42) gr_use_fp16 = gr.Checkbox(label='使用float16', value=True) gr_btn = gr.Button(value='生成视频') gr_btn.click( fn=run_MimicMotion, inputs=[ gr_ref_img, gr_ref_vid, gr_num_frames, gr_resolution, gr_frames_overlap, gr_infer_steps, gr_noise_aug_strength, gr_guidance_scale, gr_sample_stride, gr_fps, gr_seed, gr_use_fp16, ], outputs=gr_out_vid, ) demo.launch()

(2)根据自己的实际路径更改文件中 infer_config的 base_model_path和 ckpt_path的路径(如果严格按照步骤走的话就不用改)

(3)通过UI脚本启动模型:

cd MimicMotion/
python gradio_app.py

四、网页演示

运行成功后获取访问链接,进入webUI界面后操作如下:

相关推荐

史上最全的浏览器兼容性问题和解决方案

微信ID:WEB_wysj(点击关注)◎◎◎◎◎◎◎◎◎一┳═┻︻▄(页底留言开放,欢迎来吐槽)●●●...

平面设计基础知识_平面设计基础知识实验收获与总结
平面设计基础知识_平面设计基础知识实验收获与总结

CSS构造颜色,背景与图像1.使用span更好的控制文本中局部区域的文本:文本;2.使用display属性提供区块转变:display:inline(是内联的...

2025-02-21 16:01 yuyutoo

写作排版简单三步就行-工具篇_作文排版模板

和我们工作中日常word排版内部交流不同,这篇教程介绍的写作排版主要是用于“微信公众号、头条号”网络展示。写作展现的是我的思考,排版是让写作在网格上更好地展现。在写作上花费时间是有累积复利优势的,在排...

写一个2048的游戏_2048小游戏功能实现

1.创建HTML文件1.打开一个文本编辑器,例如Notepad++、SublimeText、VisualStudioCode等。2.将以下HTML代码复制并粘贴到文本编辑器中:html...

今天你穿“短袖”了吗?青岛最高23℃!接下来几天气温更刺激……

  最近的天气暖和得让很多小伙伴们喊“热”!!!  昨天的气温到底升得有多高呢?你家有没有榜上有名?...

CSS不规则卡片,纯CSS制作优惠券样式,CSS实现锯齿样式

之前也有写过CSS优惠券样式《CSS3径向渐变实现优惠券波浪造型》,这次再来温习一遍,并且将更为详细的讲解,从布局到具体样式说明,最后定义CSS变量,自定义主题颜色。布局...

柠檬科技肖勃飞:大数据风控助力信用社会建设

...

你的自我界限够强大吗?_你的自我界限够强大吗英文

我的结果:A、该设立新的界限...

行内元素与块级元素,以及区别_行内元素和块级元素有什么区别?

行内元素与块级元素首先,CSS规范规定,每个元素都有display属性,确定该元素的类型,每个元素都有默认的display值,分别为块级(block)、行内(inline)。块级元素:(以下列举比较常...

让“成都速度”跑得潇潇洒洒,地上地下共享轨交繁华
让“成都速度”跑得潇潇洒洒,地上地下共享轨交繁华

去年的两会期间,习近平总书记在参加人大会议四川代表团审议时,对治蜀兴川提出了明确要求,指明了前行方向,并带来了“祝四川人民的生活越来越安逸”的美好祝福。又是一年...

2025-02-21 16:00 yuyutoo

今年国家综合性消防救援队伍计划招录消防员15000名

记者24日从应急管理部获悉,国家综合性消防救援队伍2023年消防员招录工作已正式启动。今年共计划招录消防员15000名,其中高校应届毕业生5000名、退役士兵5000名、社会青年5000名。本次招录的...

一起盘点最新 Chrome v133 的5大主流特性 ?

1.CSS的高级attr()方法CSSattr()函数是CSSLevel5中用于检索DOM元素的属性值并将其用于CSS属性值,类似于var()函数替换自定义属性值的方式。...

竞走团体世锦赛5月太仓举行 世界冠军杨家玉担任形象大使

style="text-align:center;"data-mce-style="text-align:...

学物理能做什么?_学物理能做什么 卢昌海

作者:曹则贤中国科学院物理研究所原标题:《物理学:ASourceofPowerforMan》在2006年中央电视台《对话》栏目的某期节目中,主持人问过我一个的问题:“学物理的人,如果日后不...

你不知道的关于这只眯眼兔的6个小秘密
你不知道的关于这只眯眼兔的6个小秘密

在你们忙着给熊本君做表情包的时候,要知道,最先在网络上引起轰动的可是这只脸上只有两条缝的兔子——兔斯基。今年,它更是迎来了自己的10岁生日。①关于德艺双馨“老艺...

2025-02-21 16:00 yuyutoo

取消回复欢迎 发表评论: