07 — AI Production Pipeline: Quy Trình Sản Xuất
File quan trọng nhất về mặt KỸ THUẬT. Định nghĩa toàn bộ workflow sản xuất AI animation.
1. Pipeline Tổng Quan
┌──────────────────────────────────────────────────────────────────────────┐
│ AI ANIMATION PIPELINE │
├──────────────────────────────────────────────────────────────────────────┤
│ │
│ PRE-PRODUCTION PRODUCTION POST-PRODUCTION │
│ ┌─────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ Script │ │ Image Gen │ │ Compositing │ │
│ │ Storyboard │───────→│ Animation │───────→│ Sound Design │ │
│ │ Concept Art │ │ Voice/Sound │ │ Music │ │
│ │ Animatic │ │ Assembly │ │ Color Grade │ │
│ └─────────────┘ └──────────────┘ │ Final Edit │ │
│ └──────────────┘ │
│ │
│ DURATION: ~3-4 tháng ~5-8 tháng ~2-3 tháng │
└──────────────────────────────────────────────────────────────────────────┘
Tổng thời gian ước tính: 10-15 tháng (tùy quy mô team & tần suất iteration)
2. Workflow Từng Bước (Per Scene)
Scene Script
│
▼
Storyboard (frame-by-frame layout)
│
▼
AI Background Generation ←──── Art Direction + Prompt Template
│
▼
AI Character Generation ←──── Character Reference Sheet
│
▼
AI Animation / Motion ←──── Keyframe reference
│
▼
Compositing (layer character + background)
│
▼
Lip Sync + Voice Acting
│
▼
Sound Effects + Music
│
▼
Final Cut per Scene
│
▼
Quality Review ──→ Pass? → Next Scene
Fail? → Fix + Re-review
Liệt kê TẤT CẢ tools được sử dụng và mục đích cụ thể.
Nguyên tắc chọn tool: Linh hoạt kết hợp. Không lock-in 1 tool — chọn tool phù hợp nhất cho từng loại shot.
3.1 Image Generation
| Tool | Mục đích | Điểm mạnh | Điểm yếu | Chi phí ước tính |
|---|
| Midjourney v7 | Concept art, background, mood/atmosphere reference | Aesthetic tốt nhất, chất lượng cinematic vượt trội, cộng đồng prompt lớn | Ít control chính xác (không có ControlNet), khó giữ consistency character, chỉ dùng qua Discord/Web | $10-60/tháng (Basic→Pro) |
| Stable Diffusion XL / 3.5 (local) | Character consistency, batch generation, ControlNet pipeline | Control cao nhất (ControlNet, IP-Adapter, LoRA training), miễn phí, chạy local → privacy, hệ sinh thái plugin khổng lồ | Setup phức tạp, cần GPU mạnh, chất lượng mặc định thấp hơn MJ | Miễn phí (cần GPU ~$1,500-3,000) |
| DALL-E 3.5 | Storyboard nhanh, concept exploration, text trong ảnh | Hiểu prompt ngữ nghĩa tốt nhất, render text chính xác trong ảnh, tích hợp ChatGPT | Ít style control, không hỗ trợ ControlNet/LoRA, output ít “cinematic” | $20/tháng (qua ChatGPT Plus) |
| Flux 2 (Black Forest Labs) | Background chi tiết, hero shots, ảnh cần text | Chất lượng ngang MJ, render text xuất sắc, open-source (có thể self-host), nhanh | Community nhỏ hơn MJ, ít preset style, cần VRAM cao khi self-host | Miễn phí (self-host) hoặc $10-50/tháng (API) |
| Ideogram 2.0 | Typography trong ảnh, poster, title card, UI element | Render text/typography tốt nhất, style đa dạng | Chất lượng chung thấp hơn MJ/Flux cho non-text content | Miễn phí (giới hạn) → $8-20/tháng |
| Adobe Firefly 3 | Touch-up, inpainting, extend canvas, chỉnh sửa ảnh có sẵn | Tích hợp Photoshop/Illustrator, generative fill tốt, thương mại an toàn (IP clean) | Chất lượng generation thuần kém hơn, cần Adobe subscription | $22.99/tháng (Photoshop) |
Chiến lược kết hợp Image Gen:
- Concept & Mood: Midjourney → nhanh, đẹp, khám phá style
- Character chính: Stable Diffusion + LoRA training → consistency tuyệt đối
- Background production: Flux 2 hoặc Midjourney → tùy yêu cầu text/chi tiết
- Touch-up & fix: Adobe Firefly (Photoshop) → inpainting, extend, chỉnh sửa pixel
- Storyboard nhanh: DALL-E 3.5 → prompt tự nhiên, ra kết quả nhanh
3.2 Video / Animation Generation
| Tool | Mục đích | Điểm mạnh | Điểm yếu | Chi phí |
|---|
| Kling 3.0 (Kuaishou) | Animation chính — character motion, action scenes | Giá trị tốt nhất, native 4K, motion tự nhiên, 1080p lên đến 2 phút/clip, image-to-video tốt | Đôi khi mất chi tiết nhỏ, character consistency giữa các clip chưa hoàn hảo | ~$10/tháng (rất rẻ so với chất lượng) |
| Runway Gen-4.5 | Hero shots, cảnh cần creative control cao | Creative control tốt nhất (motion brush, camera control), chất lượng cinematic, multi-modal input (text+image+video) | Đắt nhất, credit hết nhanh, clip ngắn (5-10s mặc định) | $12-499/tháng (Std→Unlimited) |
| Sora 2 (OpenAI) | Long-form scenes, narrative shots, cảnh có nhiều nhân vật | Tốt nhất cho narrative/kể chuyện, clip dài lên đến 20s, hiểu ngữ cảnh câu chuyện, multi-character tốt | API access hạn chế, đắt khi scale, đôi khi physics không chính xác | $20-200/tháng (ChatGPT Plus→Pro) |
| Veo 3.1 (Google DeepMind) | Cảnh cinematic có audio, VFX-heavy shots | Audio-native (sinh ra video + audio đồng bộ), cinematic chất lượng cao, hiểu vật lý tốt | Đắt, access qua Google AI Studio, ít control so với Runway | $0.15/giây ($9/phút video) |
| Pika 2.0 | Quick iterations, motion test, cảnh đơn giản | Dễ dùng nhất, nhanh, giao diện trực quan, giá rẻ cho prototyping | Chất lượng thấp hơn cho production-grade, clip ngắn | Từ $8/tháng |
| Luma Dream Machine 1.6 | Transition shots, camera movement, dreamy scenes | Nhanh nhất (generation time), camera motion mượt, giá tốt | Chất lượng nhân vật không bằng Kling/Runway, detail hạn chế | $29.99/tháng (Standard) |
| Wan 2.6 (Alibaba) | Batch generation local, character animation (via ComfyUI), prototype | Open-source HOÀN TOÀN, chạy local (1 GPU), tích hợp ComfyUI tuyệt vời, không giới hạn generation | Cần GPU mạnh, chất lượng thấp hơn commercial tools, cần technical setup | Miễn phí (cần GPU) |
Chiến lược kết hợp Video Gen:
- Hero/key emotional scenes: Runway Gen-4.5 hoặc Veo 3.1 → max quality
- Narrative/long-form: Sora 2 → hiểu ngữ cảnh câu chuyện
- Production chính (bulk scenes): Kling 3.0 → chất lượng/giá tốt nhất
- Quick test & prototype: Pika 2.0 → iterate nhanh trước khi render final
- Batch local processing: Wan 2.6 + ComfyUI → không giới hạn, chạy song song
- Transition/camera: Luma Dream Machine → motion mượt
3.3 Audio / Voice
| Tool | Mục đích | Điểm mạnh | Điểm yếu | Chi phí |
|---|
| ElevenLabs | Voice acting chính cho tất cả nhân vật, narration, voice cloning | Chất lượng voice AI tốt nhất, 30+ ngôn ngữ (có tiếng Việt), voice cloning từ sample, emotion control, đọc tự nhiên | Đắt ở volume lớn (phim 105’ = rất nhiều dialog), cần quản lý credit cẩn thận | $5-330/tháng (tùy usage) — ước tính cần plan Scale $99/tháng+ |
| Suno v4.5 | Original soundtrack, theme song, background music | Tạo nhạc full-length tốt nhất, nhiều thể loại, chất lượng production-ready, có lyrics generation | Ít control chi tiết (tempo, arrangement), khó đạt chính xác emotional cue theo scene | $10-30/tháng (Pro→Premier) |
| Udio | Nhạc nền cần control chi tiết, cinematic score | Control tốt hơn Suno cho producers, chất lượng audio cao, genre flexibility | Giao diện phức tạp hơn, learning curve | $10-30/tháng |
| AIVA | Cinematic orchestral score, instrumental background | Tốt nhất cho nhạc cinematic/orchestral, sở hữu bản quyền (plan Pro), xuất MIDI để chỉnh | Chỉ instrumental (không có vocals), ít linh hoạt thể loại non-classical | €11-33/tháng (Std→Pro) — Pro có full copyright |
| Bark (Suno) | SFX generation, ambient sound, voice prototype nhanh | Open-source hoàn toàn, sinh SFX + voice + music, chạy local | Chất lượng voice thấp hơn ElevenLabs nhiều, không stable cho production voice | Miễn phí |
| ElevenLabs Sound Effects | SFX chuyên dụng — tiếng bước chân, gió, mưa, động vật | Chất lượng SFX AI tốt, tích hợp cùng ecosystem ElevenLabs | Thư viện SFX chưa bằng traditional SFX libraries | Bao gồm trong plan ElevenLabs |
| Freesound / Epidemic Sound | SFX bổ sung, ambient, foley sounds | Thư viện khổng lồ, chất lượng production-proven, license rõ ràng | Không phải AI-generated (manual search), phí subscription | Freesound: miễn phí / Epidemic: $15/tháng |
Chiến lược kết hợp Audio:
- Voice acting: ElevenLabs → clone voice cho từng nhân vật, maintain consistency toàn bộ phim
- Main score/theme: AIVA → cinematic orchestral, sở hữu bản quyền
- Background music: Suno v4.5 + Udio → linh hoạt thể loại, fill gaps
- SFX: ElevenLabs SFX + Freesound → kết hợp AI + traditional library
- Prototype/scratch: Bark (local) → test nhanh trước khi dùng credits ElevenLabs
3.4 Editing / Compositing
| Tool | Mục đích | Chi tiết |
|---|
| DaVinci Resolve (Studio) | Color grading, final edit, export master | Tool color grading tốt nhất (miễn phí bản cơ bản). Dùng cho: final color grade toàn bộ phim, conform edit, export DCP/ProRes. Fairlight cho audio mixing. Fusion cho compositing đơn giản. |
| After Effects | Compositing, VFX, motion graphics | Layer character lên background, thêm particle/lighting effects, camera shake, chuyển cảnh đặc biệt, title sequence animation. Dùng nhiều nhất trong production pipeline. |
| Premiere Pro | Assembly edit, rough cut, timeline management | Assembly tất cả scenes theo timeline, rough cut review, export cho team review. Tích hợp tốt với After Effects (Dynamic Link). |
| ComfyUI | Custom AI workflow hub — trung tâm pipeline AI | Tool quan trọng nhất trong pipeline. Node-based workflow cho: batch image generation (SD + ControlNet), character consistency pipeline (IP-Adapter + LoRA), video generation (tích hợp Wan 2.6), upscaling, face fix. Đã được dùng trong Netflix productions (100K+ assets). Chạy local, tự động hóa hoàn toàn. |
| Topaz Video AI | Upscale, frame interpolation, denoising | Upscale từ 1080p → 4K, tăng framerate (24→48/60fps cho slow-mo), denoise AI-generated artifacts. Batch processing hàng ngàn clips. |
| Nuke (Foundry) | Compositing nâng cao (nếu cần) | Cho các shot VFX phức tạp mà After Effects không đủ. Rotoscoping, keying, 3D compositing. Tùy chọn — chỉ dùng nếu pipeline yêu cầu. |
| Tool | Mục đích | Chi tiết |
|---|
| Figma | Layout, UI, storyboard template, design system | Storyboard template, color palette reference, character turnaround layout, team collaboration |
| Photoshop | Touch-up chi tiết, inpainting, photo editing | Fix AI artifacts, composite layers thủ công, texture work, matte painting touch-up |
| Blender | 3D camera reference, layout, motion reference | 3D camera moves cho complex shots, 3D layout blocking, motion reference cho AI animation input |
| Frame.io | Review & feedback collaboration | Team review video từng scene, timestamp comments, approval workflow, client review |
| Notion / Google Docs | Quản lý project, script, notes | Script management, scene tracking, task assignment, meeting notes |
| Boords / Storyboarder | Storyboard digital | Vẽ storyboard nhanh, export frames, timing animatic |
| RVC / So-VITS-SVC | Voice conversion (nếu cần) | Clone giọng diễn viên thật sang AI voice, fine-tune giọng nhân vật |
| Descript | Audio/video editing bằng text | Chỉnh dialog dễ (xóa từ = xóa audio), podcast-style editing, transcript |
4. Workflow Chi Tiết Từng Giai Đoạn
4.1 Storyboard → Animatic
| Bước | Mô tả | Tool | Output |
|---|
| 1 | Vẽ storyboard frames từ script | DALL-E 3.5 (rough sketch) + Figma/Boords (layout) | PNG frames theo sequence |
| 2 | Timing mỗi frame theo dialog/action | Premiere Pro (timeline) hoặc Boords (timing) | Timing sheet (frame × duration) |
| 3 | Assembly animatic — ghép frames theo timing | Premiere Pro | Video animatic thô (MP4) |
| 4 | Thêm temp audio (scratch voice + temp music) | ElevenLabs (temp voice) + Suno (temp music) | Animatic có audio draft |
| 5 | Review & adjust — team xem và feedback | Frame.io (review) → chỉnh lại timing/frames | Animatic final — locked |
4.2 Background Generation
| Bước | Mô tả | Tool | Output |
|---|
| 1 | Viết prompt từ art direction + scene description | Manual (theo prompt template trong 05-art-direction.md) | Prompt text file |
| 2 | Batch generate backgrounds theo location group | Midjourney (mood/aesthetic) + Flux 2 (detail/text) + SD/ComfyUI (batch local) | Raw images (10-20 options/BG) |
| 3 | Select best, curate, note chỉnh sửa | Manual curation — chọn 1-2 best/scene | Selected images |
| 4 | Upscale + fix artifacts + extend canvas | Topaz Video AI (upscale) + Photoshop/Firefly (inpaint, extend) | Final backgrounds (4K, clean) |
| 5 | Organize — đặt tên theo convention, sort by scene | File management (fcv_bg_s###_sh##_v##.png) | Named + organized BG files |
4.3 Character Animation
| Bước | Mô tả | Tool | Output |
|---|
| 1 | Chuẩn bị character reference input | Reference sheet từ 06-character-design.md + LoRA/IP-Adapter model | Input images + trained model |
| 2 | Generate keyframes (poses chính) | ComfyUI + SD (ControlNet + IP-Adapter) hoặc Midjourney (hero pose) | Key poses (PNG, consistent style) |
| 3 | Generate motion / in-betweens | Kling 3.0 (production bulk) + Runway (hero shots) + Wan 2.6 (batch local) | Video clips (2-10s/clip) |
| 4 | Fix inconsistencies — face, clothing, color | Photoshop (frame-by-frame touch-up) + ComfyUI (face fix workflow) + Topaz (denoise) | Clean clips |
| 5 | Composite character trên background | After Effects (layer + mask + lighting match) | Scene clip (character + BG merged) |
4.4 Audio Production
| Bước | Mô tả | Tool | Output |
|---|
| 1 | Generate / record voice acting | ElevenLabs (primary — cloned voice per character) + diễn viên thật (nếu budget cho phép) | Voice tracks (WAV, per character per scene) |
| 2 | Lip sync — đồng bộ miệng với voice | Wan 2.6 / Kling (AI lip sync) + After Effects (manual adjust) | Synced video clips |
| 3 | Generate SFX cho từng scene | ElevenLabs SFX + Bark (prototype) + Freesound (library) | SFX tracks (WAV, per event) |
| 4 | Compose / select music per scene | AIVA (cinematic score) + Suno (songs/themes) + Udio (detail work) | Music tracks (WAV/MP3, per act/scene) |
| 5 | Audio mix — balance voice + SFX + music | DaVinci Resolve Fairlight hoặc Adobe Audition | Final audio mix (stereo + 5.1 nếu cần) |
5. File Naming Convention
5.1 Quy tắc đặt tên
[PROJECT]_[TYPE]_[SCENE]_[SHOT]_[VERSION].[EXT]
VD:
fcv_bg_s001_sh01_v03.png ← Background, scene 1, shot 1, version 3
fcv_char_s001_sh01_v02.png ← Character, scene 1, shot 1, version 2
fcv_anim_s001_sh01_v01.mp4 ← Animation clip
fcv_audio_s001_dialog_v01.wav ← Audio dialog
fcv_comp_s001_sh01_v01.mp4 ← Composited final
5.2 Type codes
| Code | Nghĩa |
|---|
bg | Background |
char | Character |
anim | Animation clip |
audio | Audio |
sfx | Sound effects |
music | Music |
comp | Composite |
edit | Edit cut |
ref | Reference |
sb | Storyboard |
6. Batch Processing Strategy
Phim 105’ ≈ 2,500-3,500 shots. KHÔNG THỂ làm từng shot một.
6.1 Batch workflow
Group scenes by:
1. Location (same background → batch generate BG)
2. Character combo (same characters → batch generate)
3. Lighting condition (day/night → batch with same settings)
4. Complexity level (simple → complex)
6.2 Priority order
| Priority | Loại cảnh | Lý do |
|---|
| 1 | Key emotional scenes | Define visual benchmark |
| 2 | Action/complex scenes | Longest production time |
| 3 | Dialog scenes | Medium complexity |
| 4 | Transition/simple | Fastest to produce |
| Batch Task | Tool | Ước tính throughput |
|---|
| Background generation (batch) | ComfyUI + SD (local) | 50-100 backgrounds/ngày (1 GPU) |
| Background generation (cloud) | Midjourney / Flux API | 200+ backgrounds/ngày |
| Character keyframes (batch) | ComfyUI + IP-Adapter pipeline | 30-60 keyframes/ngày |
| Video generation (batch) | Kling API / Wan local | 20-50 clips/ngày |
| Voice generation (batch) | ElevenLabs API | Toàn bộ dialog 1 act/ngày |
| Upscale (batch) | Topaz Video AI | 100+ clips/ngày |
7. Version Control & Backup
| Gì | Ở đâu | Tần suất | Chi tiết |
|---|
| Documents (.md, script) | GitHub (private repo) | Mỗi thay đổi (commit) | Branch per phase, PR review cho script changes |
| Image assets (BG, character, concept) | Google Drive hoặc Dropbox Business | Mỗi version mới | Folder structure mirror file naming convention |
| Video clips (animation, comp) | Google Drive hoặc NAS (Synology) | Daily sync | Raw + approved folders riêng |
| Project files (AE, Premiere, DaVinci) | NAS (local network) + cloud backup | Daily | Auto-backup bằng Synology Drive |
| Final renders (master files) | NAS + Backblaze B2 (offsite) | Mỗi render mới | 3-2-1 backup rule: 3 copies, 2 media, 1 offsite |
| AI model files (LoRA, checkpoints) | Git LFS hoặc Hugging Face (private) | Mỗi training run | Version tag theo character + date |
Backup Strategy — 3-2-1 Rule:
- 3 bản copy của mọi asset quan trọng
- 2 loại media khác nhau (NAS + cloud)
- 1 bản offsite (Backblaze B2 ~$5/TB/tháng)
8. Hardware / Infrastructure
8.1 Local Setup
| Thiết bị | Specs đề xuất | Mục đích | Chi phí ước tính |
|---|
| Workstation GPU chính | RTX 4090 24GB VRAM / RTX 5090 32GB, RAM 64GB+, SSD 2TB NVMe | ComfyUI pipeline, SD generation, Wan local, LoRA training | $3,000-5,000 (GPU) + $2,000-3,000 (system) |
| Workstation editing | Mac Studio M4 Max hoặc PC i9 + RTX 4080 + 64GB RAM | After Effects, Premiere, DaVinci Resolve, Photoshop | $3,000-5,000 |
| NAS Storage | Synology DS923+ (4-bay) + 4×8TB HDD (RAID 5) = 24TB usable | Central asset storage, auto-backup, team file sharing | $1,500-2,000 |
| Monitor | 4K IPS color-accurate (DCI-P3 ≥95%) — BenQ/ASUS ProArt | Color grading, quality review | $500-800/màn |
8.2 Cloud GPU (cho batch generation / burst workload)
| Service | Specs | Mục đích | Chi phí ước tính |
|---|
| RunPod | A100 80GB hoặc H100 | Batch generation lớn (SD, Wan), LoRA training nhiều characters | $1.5-4/giờ → ~$200-600/tháng (tùy usage) |
| Vast.ai | RTX 4090 / A6000 | Batch generation giá rẻ hơn RunPod, long-running jobs | $0.3-1/giờ → ~$100-300/tháng |
| Google Colab Pro+ | A100 40GB | Prototype, test workflow, nhẹ | $50/tháng |
| Replicate | Serverless GPU | API call cho Flux, SD — pay-per-use, không cần setup | Pay-per-run (~$0.01-0.05/generation) |
8.3 Cloud Storage
| Service | Mục đích | Chi phí |
|---|
| Google Drive Business | Team file sharing, daily sync | $12/user/tháng (2TB) |
| Backblaze B2 | Offsite backup (3-2-1 rule) | $5/TB/tháng |
| Hugging Face (private) | AI model versioning (LoRA, checkpoints) | Miễn phí (private repos) |
8.4 Tổng chi phí infrastructure ước tính
| Hạng mục | One-time | Monthly |
|---|
| Hardware (workstations + NAS + monitors) | $10,000-15,000 | — |
| Cloud GPU | — | $300-900/tháng |
| AI tool subscriptions (tất cả tools mục 3) | — | $400-800/tháng |
| Cloud storage + backup | — | $50-100/tháng |
| TỔNG | $10,000-15,000 | $750-1,800/tháng |
Lưu ý: Chi phí monthly sẽ peak trong giai đoạn Production (5-8 tháng) khi dùng nhiều AI generation nhất. Pre-production và Post-production sẽ thấp hơn đáng kể.