如何开始使用Cosmos：从安装到生成第一个物理世界视频完整指南-二趣网

如何开始使用Cosmos：从安装到生成第一个物理世界视频完整指南

【免费下载链接】CosmosNVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.项目地址: https://gitcode.com/GitHub_Trending/cosmos7/Cosmos

NVIDIA Cosmos是一个革命性的物理世界生成AI平台，专为机器人、自动驾驶汽车和智能基础设施等物理AI应用而设计。这个强大的世界基础模型平台让开发者能够快速构建高质量的物理世界模拟视频，无论是从文本描述生成还是基于现有视频进行扩展。🚀

在本指南中，我将带你从零开始，一步步完成Cosmos的安装配置，并生成你的第一个物理世界视频。无论你是AI开发者、研究人员还是对世界生成技术感兴趣的爱好者，这篇完整教程都将为你提供实用的操作指导。

📦 准备工作与环境配置

系统要求

在开始之前，请确保你的系统满足以下要求：

操作系统：Ubuntu 20.04、22.04或24.04（目前仅支持Ubuntu系统）
GPU：NVIDIA GPU（建议显存至少24GB以上）
Docker：已安装NVIDIA Container Toolkit
存储空间：至少50GB可用空间用于模型下载

快速安装步骤

克隆仓库

git clone https://gitcode.com/GitHub_Trending/cosmos7/Cosmos cd Cosmos

构建Docker镜像
```
docker build -t cosmos .
```

运行Docker容器

docker run -d --name cosmos_container --gpus all --ipc=host -it -v $(pwd):/workspace cosmos docker attach cosmos_container

完成以上步骤后，你就进入了Cosmos的开发环境！🎉

🔑 获取模型与权限配置

Hugging Face访问权限

Cosmos模型托管在Hugging Face平台，你需要：

在Hugging Face官网创建访问令牌
设置令牌权限为"Read"（默认是"Fine-grained"）
登录Hugging Face：
```
huggingface-cli login
```
访问Mistral AI的Pixtral-12B模型页面，点击"Agree and access repository"获取权限

下载预训练模型

Cosmos提供了多种模型供选择，包括Text2World和Video2World两种主要类型：

# 下载7B和14B的Text2World与Video2World模型 PYTHONPATH=$(pwd) python cosmos1/scripts/download_diffusion.py \ --model_sizes 7B 14B \ --model_types Text2World Video2World

下载完成后，你将在checkpoints/目录中看到完整的模型文件结构。

🎬 生成你的第一个物理世界视频

从文本生成世界（Text2World）

这是最简单的入门方式，只需一个文本描述就能生成视频：

PROMPT="一个优雅的人形机器人站在一个巨大的仓库中，周围是整齐堆放在工业货架上的纸箱。机器人的金属身体在明亮均匀的灯光下闪闪发光，突出了其未来主义设计和复杂的关节。蓝色的光芒从其胸部散发出来，增添了先进科技的感觉。" # 使用7B模型生成视频 PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --prompt "$PROMPT" \ --offload_prompt_upsampler \ --video_save_name 我的第一个Cosmos视频

从视频生成世界（Video2World）

如果你有现有的视频或图片，可以基于它们生成扩展内容：

# 基于图片生成视频 PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/video2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Video2World \ --input_image_or_video_path cosmos1/models/diffusion/assets/v1p0/video2world_input0.jpg \ --num_input_frames 1 \ --video_save_name 视频生成示例 \ --offload_prompt_upsampler

⚙️ 高级配置与优化技巧

GPU内存优化策略

对于不同显存容量的GPU，Cosmos提供了多种卸载策略：

GPU类型	推荐卸载策略	显存使用
RTX 3090/4090 (24GB)	完全卸载所有模型	~24GB
H100 (80GB)	仅卸载提示上采样器	~74GB
A100 (40GB)	卸载提示上采样器+安全护栏	~57GB

低显存GPU配置示例：

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --prompt "$PROMPT" \ --offload_tokenizer \ --offload_diffusion_transformer \ --offload_text_encoder_model \ --offload_prompt_upsampler \ --offload_guardrail_models

批量生成视频

Cosmos支持批量生成，大大提高工作效率：

# 批量生成Text2World视频 PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --batch_input_path cosmos1/models/diffusion/assets/v1p0/batch_inputs/text2world.jsonl \ --video_save_folder outputs/批量生成结果 \ --offload_prompt_upsampler

🎯 提示词优化技巧

高质量提示词要素

详细描述单一场景：专注于一个场景，避免不必要的镜头切换
控制描述长度：建议120词左右，过长可能影响质量
避免复杂相机控制：当前版本对相机控制指令支持有限
使用丰富的形容词：增加视觉细节的描述

启用/禁用提示上采样器

启用（默认）：自动扩展简短提示，生成更详细的描述
禁用：使用原始提示词，保持创作意图不变

# 禁用提示上采样器 --disable_prompt_upsampler

🔧 模型家族与选择指南

Cosmos提供了丰富的模型选择，满足不同需求：

扩散模型（Diffusion）

Cosmos-1.0-Diffusion-7B-Text2World：文本到世界生成，轻量级
Cosmos-1.0-Diffusion-14B-Text2World：文本到世界生成，高质量
Cosmos-1.0-Diffusion-7B-Video2World：视频+文本到世界生成
Cosmos-1.0-Diffusion-14B-Video2World：视频+文本到世界生成，高质量

自回归模型（Autoregressive）

Cosmos-1.0-Autoregressive-4B：未来世界生成
Cosmos-1.0-Autoregressive-12B：未来世界生成，高质量

🛡️ 安全特性与限制

内置安全护栏

Cosmos集成了强大的安全系统，确保生成内容的安全性：

人脸检测与模糊：生成的人脸会自动模糊处理
内容安全过滤：防止生成不当内容
不可禁用：安全功能是强制启用的

视频规格限制

帧数：固定121帧
分辨率：支持多种宽高比（1:1、4:3、16:9等）
帧率：12-40fps可调

🚀 进阶应用与后训练

后训练自定义模型

如果你需要针对特定应用场景优化模型，可以使用后训练功能：

# 参考后训练文档 # cosmos1/models/POST_TRAINING.md

多GPU推理

对于大型模型或批量处理，Cosmos支持多GPU加速：

# 多GPU推理配置 # cosmos1/models/diffusion/nemo/inference/README.md

📊 性能指标与最佳实践

推理时间参考

7B模型：单视频约380秒
14B模型：单视频约590秒

输出质量优化

使用高质量提示词：详细、具体的描述
选择合适的模型大小：14B模型质量更高但速度较慢
调整扩散步数：更多步数通常意味着更高质量
实验不同宽高比：找到最适合你场景的比例

🎉 开始你的Cosmos之旅

现在你已经掌握了Cosmos的核心使用方法！🎊 从简单的文本描述开始，逐步尝试更复杂的视频生成任务。记住：

从简单开始：先用7B模型熟悉流程
逐步优化：尝试不同的提示词和参数
利用批量处理：提高工作效率
关注社区：分享经验，学习最佳实践

Cosmos的强大功能正在改变物理AI的开发方式。无论是为机器人训练创建仿真环境，还是为自动驾驶系统生成测试场景，这个开源平台都能为你提供强大的支持。

立即开始你的物理世界生成之旅，探索AI创造无限可能的未来！🌟

提示：更多技术细节和高级功能请参考官方文档：docs/official.md 和AI功能源码：plugins/ai/

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析