🐘 Film Con Voi

07 — AI Production Pipeline: Quy Trình Sản Xuất

File quan trọng nhất về mặt KỸ THUẬT. Định nghĩa toàn bộ workflow sản xuất AI animation.


1. Pipeline Tổng Quan

┌──────────────────────────────────────────────────────────────────────────┐
│                        AI ANIMATION PIPELINE                             │
├──────────────────────────────────────────────────────────────────────────┤
│                                                                          │
│  PRE-PRODUCTION          PRODUCTION              POST-PRODUCTION         │
│  ┌─────────────┐        ┌──────────────┐        ┌──────────────┐        │
│  │ Script       │        │ Image Gen    │        │ Compositing  │        │
│  │ Storyboard   │───────→│ Animation    │───────→│ Sound Design │        │
│  │ Concept Art  │        │ Voice/Sound  │        │ Music        │        │
│  │ Animatic     │        │ Assembly     │        │ Color Grade  │        │
│  └─────────────┘        └──────────────┘        │ Final Edit   │        │
│                                                  └──────────────┘        │
│                                                                          │
│  DURATION: ~3-4 tháng    ~5-8 tháng              ~2-3 tháng             │
└──────────────────────────────────────────────────────────────────────────┘

Tổng thời gian ước tính: 10-15 tháng (tùy quy mô team & tần suất iteration)


2. Workflow Từng Bước (Per Scene)

Scene Script


Storyboard (frame-by-frame layout)


AI Background Generation ←──── Art Direction + Prompt Template


AI Character Generation ←──── Character Reference Sheet


AI Animation / Motion ←──── Keyframe reference


Compositing (layer character + background)


Lip Sync + Voice Acting


Sound Effects + Music


Final Cut per Scene


Quality Review ──→ Pass? → Next Scene
                   Fail? → Fix + Re-review

3. AI Tools Matrix

Liệt kê TẤT CẢ tools được sử dụng và mục đích cụ thể. Nguyên tắc chọn tool: Linh hoạt kết hợp. Không lock-in 1 tool — chọn tool phù hợp nhất cho từng loại shot.

3.1 Image Generation

ToolMục đíchĐiểm mạnhĐiểm yếuChi phí ước tính
Midjourney v7Concept art, background, mood/atmosphere referenceAesthetic tốt nhất, chất lượng cinematic vượt trội, cộng đồng prompt lớnÍt control chính xác (không có ControlNet), khó giữ consistency character, chỉ dùng qua Discord/Web$10-60/tháng (Basic→Pro)
Stable Diffusion XL / 3.5 (local)Character consistency, batch generation, ControlNet pipelineControl cao nhất (ControlNet, IP-Adapter, LoRA training), miễn phí, chạy local → privacy, hệ sinh thái plugin khổng lồSetup phức tạp, cần GPU mạnh, chất lượng mặc định thấp hơn MJMiễn phí (cần GPU ~$1,500-3,000)
DALL-E 3.5Storyboard nhanh, concept exploration, text trong ảnhHiểu prompt ngữ nghĩa tốt nhất, render text chính xác trong ảnh, tích hợp ChatGPTÍt style control, không hỗ trợ ControlNet/LoRA, output ít “cinematic”$20/tháng (qua ChatGPT Plus)
Flux 2 (Black Forest Labs)Background chi tiết, hero shots, ảnh cần textChất lượng ngang MJ, render text xuất sắc, open-source (có thể self-host), nhanhCommunity nhỏ hơn MJ, ít preset style, cần VRAM cao khi self-hostMiễn phí (self-host) hoặc $10-50/tháng (API)
Ideogram 2.0Typography trong ảnh, poster, title card, UI elementRender text/typography tốt nhất, style đa dạngChất lượng chung thấp hơn MJ/Flux cho non-text contentMiễn phí (giới hạn) → $8-20/tháng
Adobe Firefly 3Touch-up, inpainting, extend canvas, chỉnh sửa ảnh có sẵnTích hợp Photoshop/Illustrator, generative fill tốt, thương mại an toàn (IP clean)Chất lượng generation thuần kém hơn, cần Adobe subscription$22.99/tháng (Photoshop)

Chiến lược kết hợp Image Gen:

  • Concept & Mood: Midjourney → nhanh, đẹp, khám phá style
  • Character chính: Stable Diffusion + LoRA training → consistency tuyệt đối
  • Background production: Flux 2 hoặc Midjourney → tùy yêu cầu text/chi tiết
  • Touch-up & fix: Adobe Firefly (Photoshop) → inpainting, extend, chỉnh sửa pixel
  • Storyboard nhanh: DALL-E 3.5 → prompt tự nhiên, ra kết quả nhanh

3.2 Video / Animation Generation

ToolMục đíchĐiểm mạnhĐiểm yếuChi phí
Kling 3.0 (Kuaishou)Animation chính — character motion, action scenesGiá trị tốt nhất, native 4K, motion tự nhiên, 1080p lên đến 2 phút/clip, image-to-video tốtĐôi khi mất chi tiết nhỏ, character consistency giữa các clip chưa hoàn hảo~$10/tháng (rất rẻ so với chất lượng)
Runway Gen-4.5Hero shots, cảnh cần creative control caoCreative control tốt nhất (motion brush, camera control), chất lượng cinematic, multi-modal input (text+image+video)Đắt nhất, credit hết nhanh, clip ngắn (5-10s mặc định)$12-499/tháng (Std→Unlimited)
Sora 2 (OpenAI)Long-form scenes, narrative shots, cảnh có nhiều nhân vậtTốt nhất cho narrative/kể chuyện, clip dài lên đến 20s, hiểu ngữ cảnh câu chuyện, multi-character tốtAPI access hạn chế, đắt khi scale, đôi khi physics không chính xác$20-200/tháng (ChatGPT Plus→Pro)
Veo 3.1 (Google DeepMind)Cảnh cinematic có audio, VFX-heavy shotsAudio-native (sinh ra video + audio đồng bộ), cinematic chất lượng cao, hiểu vật lý tốtĐắt, access qua Google AI Studio, ít control so với Runway$0.15/giây ($9/phút video)
Pika 2.0Quick iterations, motion test, cảnh đơn giảnDễ dùng nhất, nhanh, giao diện trực quan, giá rẻ cho prototypingChất lượng thấp hơn cho production-grade, clip ngắnTừ $8/tháng
Luma Dream Machine 1.6Transition shots, camera movement, dreamy scenesNhanh nhất (generation time), camera motion mượt, giá tốtChất lượng nhân vật không bằng Kling/Runway, detail hạn chế$29.99/tháng (Standard)
Wan 2.6 (Alibaba)Batch generation local, character animation (via ComfyUI), prototypeOpen-source HOÀN TOÀN, chạy local (1 GPU), tích hợp ComfyUI tuyệt vời, không giới hạn generationCần GPU mạnh, chất lượng thấp hơn commercial tools, cần technical setupMiễn phí (cần GPU)

Chiến lược kết hợp Video Gen:

  • Hero/key emotional scenes: Runway Gen-4.5 hoặc Veo 3.1 → max quality
  • Narrative/long-form: Sora 2 → hiểu ngữ cảnh câu chuyện
  • Production chính (bulk scenes): Kling 3.0 → chất lượng/giá tốt nhất
  • Quick test & prototype: Pika 2.0 → iterate nhanh trước khi render final
  • Batch local processing: Wan 2.6 + ComfyUI → không giới hạn, chạy song song
  • Transition/camera: Luma Dream Machine → motion mượt

3.3 Audio / Voice

ToolMục đíchĐiểm mạnhĐiểm yếuChi phí
ElevenLabsVoice acting chính cho tất cả nhân vật, narration, voice cloningChất lượng voice AI tốt nhất, 30+ ngôn ngữ (có tiếng Việt), voice cloning từ sample, emotion control, đọc tự nhiênĐắt ở volume lớn (phim 105’ = rất nhiều dialog), cần quản lý credit cẩn thận$5-330/tháng (tùy usage) — ước tính cần plan Scale $99/tháng+
Suno v4.5Original soundtrack, theme song, background musicTạo nhạc full-length tốt nhất, nhiều thể loại, chất lượng production-ready, có lyrics generationÍt control chi tiết (tempo, arrangement), khó đạt chính xác emotional cue theo scene$10-30/tháng (Pro→Premier)
UdioNhạc nền cần control chi tiết, cinematic scoreControl tốt hơn Suno cho producers, chất lượng audio cao, genre flexibilityGiao diện phức tạp hơn, learning curve$10-30/tháng
AIVACinematic orchestral score, instrumental backgroundTốt nhất cho nhạc cinematic/orchestral, sở hữu bản quyền (plan Pro), xuất MIDI để chỉnhChỉ instrumental (không có vocals), ít linh hoạt thể loại non-classical€11-33/tháng (Std→Pro) — Pro có full copyright
Bark (Suno)SFX generation, ambient sound, voice prototype nhanhOpen-source hoàn toàn, sinh SFX + voice + music, chạy localChất lượng voice thấp hơn ElevenLabs nhiều, không stable cho production voiceMiễn phí
ElevenLabs Sound EffectsSFX chuyên dụng — tiếng bước chân, gió, mưa, động vậtChất lượng SFX AI tốt, tích hợp cùng ecosystem ElevenLabsThư viện SFX chưa bằng traditional SFX librariesBao gồm trong plan ElevenLabs
Freesound / Epidemic SoundSFX bổ sung, ambient, foley soundsThư viện khổng lồ, chất lượng production-proven, license rõ ràngKhông phải AI-generated (manual search), phí subscriptionFreesound: miễn phí / Epidemic: $15/tháng

Chiến lược kết hợp Audio:

  • Voice acting: ElevenLabs → clone voice cho từng nhân vật, maintain consistency toàn bộ phim
  • Main score/theme: AIVA → cinematic orchestral, sở hữu bản quyền
  • Background music: Suno v4.5 + Udio → linh hoạt thể loại, fill gaps
  • SFX: ElevenLabs SFX + Freesound → kết hợp AI + traditional library
  • Prototype/scratch: Bark (local) → test nhanh trước khi dùng credits ElevenLabs

3.4 Editing / Compositing

ToolMục đíchChi tiết
DaVinci Resolve (Studio)Color grading, final edit, export masterTool color grading tốt nhất (miễn phí bản cơ bản). Dùng cho: final color grade toàn bộ phim, conform edit, export DCP/ProRes. Fairlight cho audio mixing. Fusion cho compositing đơn giản.
After EffectsCompositing, VFX, motion graphicsLayer character lên background, thêm particle/lighting effects, camera shake, chuyển cảnh đặc biệt, title sequence animation. Dùng nhiều nhất trong production pipeline.
Premiere ProAssembly edit, rough cut, timeline managementAssembly tất cả scenes theo timeline, rough cut review, export cho team review. Tích hợp tốt với After Effects (Dynamic Link).
ComfyUICustom AI workflow hub — trung tâm pipeline AITool quan trọng nhất trong pipeline. Node-based workflow cho: batch image generation (SD + ControlNet), character consistency pipeline (IP-Adapter + LoRA), video generation (tích hợp Wan 2.6), upscaling, face fix. Đã được dùng trong Netflix productions (100K+ assets). Chạy local, tự động hóa hoàn toàn.
Topaz Video AIUpscale, frame interpolation, denoisingUpscale từ 1080p → 4K, tăng framerate (24→48/60fps cho slow-mo), denoise AI-generated artifacts. Batch processing hàng ngàn clips.
Nuke (Foundry)Compositing nâng cao (nếu cần)Cho các shot VFX phức tạp mà After Effects không đủ. Rotoscoping, keying, 3D compositing. Tùy chọn — chỉ dùng nếu pipeline yêu cầu.

3.5 Supporting Tools

ToolMục đíchChi tiết
FigmaLayout, UI, storyboard template, design systemStoryboard template, color palette reference, character turnaround layout, team collaboration
PhotoshopTouch-up chi tiết, inpainting, photo editingFix AI artifacts, composite layers thủ công, texture work, matte painting touch-up
Blender3D camera reference, layout, motion reference3D camera moves cho complex shots, 3D layout blocking, motion reference cho AI animation input
Frame.ioReview & feedback collaborationTeam review video từng scene, timestamp comments, approval workflow, client review
Notion / Google DocsQuản lý project, script, notesScript management, scene tracking, task assignment, meeting notes
Boords / StoryboarderStoryboard digitalVẽ storyboard nhanh, export frames, timing animatic
RVC / So-VITS-SVCVoice conversion (nếu cần)Clone giọng diễn viên thật sang AI voice, fine-tune giọng nhân vật
DescriptAudio/video editing bằng textChỉnh dialog dễ (xóa từ = xóa audio), podcast-style editing, transcript

4. Workflow Chi Tiết Từng Giai Đoạn

4.1 Storyboard → Animatic

BướcMô tảToolOutput
1Vẽ storyboard frames từ scriptDALL-E 3.5 (rough sketch) + Figma/Boords (layout)PNG frames theo sequence
2Timing mỗi frame theo dialog/actionPremiere Pro (timeline) hoặc Boords (timing)Timing sheet (frame × duration)
3Assembly animatic — ghép frames theo timingPremiere ProVideo animatic thô (MP4)
4Thêm temp audio (scratch voice + temp music)ElevenLabs (temp voice) + Suno (temp music)Animatic có audio draft
5Review & adjust — team xem và feedbackFrame.io (review) → chỉnh lại timing/framesAnimatic final — locked

4.2 Background Generation

BướcMô tảToolOutput
1Viết prompt từ art direction + scene descriptionManual (theo prompt template trong 05-art-direction.md)Prompt text file
2Batch generate backgrounds theo location groupMidjourney (mood/aesthetic) + Flux 2 (detail/text) + SD/ComfyUI (batch local)Raw images (10-20 options/BG)
3Select best, curate, note chỉnh sửaManual curation — chọn 1-2 best/sceneSelected images
4Upscale + fix artifacts + extend canvasTopaz Video AI (upscale) + Photoshop/Firefly (inpaint, extend)Final backgrounds (4K, clean)
5Organize — đặt tên theo convention, sort by sceneFile management (fcv_bg_s###_sh##_v##.png)Named + organized BG files

4.3 Character Animation

BướcMô tảToolOutput
1Chuẩn bị character reference inputReference sheet từ 06-character-design.md + LoRA/IP-Adapter modelInput images + trained model
2Generate keyframes (poses chính)ComfyUI + SD (ControlNet + IP-Adapter) hoặc Midjourney (hero pose)Key poses (PNG, consistent style)
3Generate motion / in-betweensKling 3.0 (production bulk) + Runway (hero shots) + Wan 2.6 (batch local)Video clips (2-10s/clip)
4Fix inconsistencies — face, clothing, colorPhotoshop (frame-by-frame touch-up) + ComfyUI (face fix workflow) + Topaz (denoise)Clean clips
5Composite character trên backgroundAfter Effects (layer + mask + lighting match)Scene clip (character + BG merged)

4.4 Audio Production

BướcMô tảToolOutput
1Generate / record voice actingElevenLabs (primary — cloned voice per character) + diễn viên thật (nếu budget cho phép)Voice tracks (WAV, per character per scene)
2Lip sync — đồng bộ miệng với voiceWan 2.6 / Kling (AI lip sync) + After Effects (manual adjust)Synced video clips
3Generate SFX cho từng sceneElevenLabs SFX + Bark (prototype) + Freesound (library)SFX tracks (WAV, per event)
4Compose / select music per sceneAIVA (cinematic score) + Suno (songs/themes) + Udio (detail work)Music tracks (WAV/MP3, per act/scene)
5Audio mix — balance voice + SFX + musicDaVinci Resolve Fairlight hoặc Adobe AuditionFinal audio mix (stereo + 5.1 nếu cần)

5. File Naming Convention

5.1 Quy tắc đặt tên

[PROJECT]_[TYPE]_[SCENE]_[SHOT]_[VERSION].[EXT]

VD:
fcv_bg_s001_sh01_v03.png       ← Background, scene 1, shot 1, version 3
fcv_char_s001_sh01_v02.png     ← Character, scene 1, shot 1, version 2
fcv_anim_s001_sh01_v01.mp4     ← Animation clip
fcv_audio_s001_dialog_v01.wav  ← Audio dialog
fcv_comp_s001_sh01_v01.mp4     ← Composited final

5.2 Type codes

CodeNghĩa
bgBackground
charCharacter
animAnimation clip
audioAudio
sfxSound effects
musicMusic
compComposite
editEdit cut
refReference
sbStoryboard

6. Batch Processing Strategy

Phim 105’ ≈ 2,500-3,500 shots. KHÔNG THỂ làm từng shot một.

6.1 Batch workflow

Group scenes by:
  1. Location (same background → batch generate BG)
  2. Character combo (same characters → batch generate)
  3. Lighting condition (day/night → batch with same settings)
  4. Complexity level (simple → complex)

6.2 Priority order

PriorityLoại cảnhLý do
1Key emotional scenesDefine visual benchmark
2Action/complex scenesLongest production time
3Dialog scenesMedium complexity
4Transition/simpleFastest to produce

6.3 Batch tools & automation

Batch TaskToolƯớc tính throughput
Background generation (batch)ComfyUI + SD (local)50-100 backgrounds/ngày (1 GPU)
Background generation (cloud)Midjourney / Flux API200+ backgrounds/ngày
Character keyframes (batch)ComfyUI + IP-Adapter pipeline30-60 keyframes/ngày
Video generation (batch)Kling API / Wan local20-50 clips/ngày
Voice generation (batch)ElevenLabs APIToàn bộ dialog 1 act/ngày
Upscale (batch)Topaz Video AI100+ clips/ngày

7. Version Control & Backup

Ở đâuTần suấtChi tiết
Documents (.md, script)GitHub (private repo)Mỗi thay đổi (commit)Branch per phase, PR review cho script changes
Image assets (BG, character, concept)Google Drive hoặc Dropbox BusinessMỗi version mớiFolder structure mirror file naming convention
Video clips (animation, comp)Google Drive hoặc NAS (Synology)Daily syncRaw + approved folders riêng
Project files (AE, Premiere, DaVinci)NAS (local network) + cloud backupDailyAuto-backup bằng Synology Drive
Final renders (master files)NAS + Backblaze B2 (offsite)Mỗi render mới3-2-1 backup rule: 3 copies, 2 media, 1 offsite
AI model files (LoRA, checkpoints)Git LFS hoặc Hugging Face (private)Mỗi training runVersion tag theo character + date

Backup Strategy — 3-2-1 Rule:

  • 3 bản copy của mọi asset quan trọng
  • 2 loại media khác nhau (NAS + cloud)
  • 1 bản offsite (Backblaze B2 ~$5/TB/tháng)

8. Hardware / Infrastructure

8.1 Local Setup

Thiết bịSpecs đề xuấtMục đíchChi phí ước tính
Workstation GPU chínhRTX 4090 24GB VRAM / RTX 5090 32GB, RAM 64GB+, SSD 2TB NVMeComfyUI pipeline, SD generation, Wan local, LoRA training$3,000-5,000 (GPU) + $2,000-3,000 (system)
Workstation editingMac Studio M4 Max hoặc PC i9 + RTX 4080 + 64GB RAMAfter Effects, Premiere, DaVinci Resolve, Photoshop$3,000-5,000
NAS StorageSynology DS923+ (4-bay) + 4×8TB HDD (RAID 5) = 24TB usableCentral asset storage, auto-backup, team file sharing$1,500-2,000
Monitor4K IPS color-accurate (DCI-P3 ≥95%) — BenQ/ASUS ProArtColor grading, quality review$500-800/màn

8.2 Cloud GPU (cho batch generation / burst workload)

ServiceSpecsMục đíchChi phí ước tính
RunPodA100 80GB hoặc H100Batch generation lớn (SD, Wan), LoRA training nhiều characters$1.5-4/giờ → ~$200-600/tháng (tùy usage)
Vast.aiRTX 4090 / A6000Batch generation giá rẻ hơn RunPod, long-running jobs$0.3-1/giờ → ~$100-300/tháng
Google Colab Pro+A100 40GBPrototype, test workflow, nhẹ$50/tháng
ReplicateServerless GPUAPI call cho Flux, SD — pay-per-use, không cần setupPay-per-run (~$0.01-0.05/generation)

8.3 Cloud Storage

ServiceMục đíchChi phí
Google Drive BusinessTeam file sharing, daily sync$12/user/tháng (2TB)
Backblaze B2Offsite backup (3-2-1 rule)$5/TB/tháng
Hugging Face (private)AI model versioning (LoRA, checkpoints)Miễn phí (private repos)

8.4 Tổng chi phí infrastructure ước tính

Hạng mụcOne-timeMonthly
Hardware (workstations + NAS + monitors)$10,000-15,000
Cloud GPU$300-900/tháng
AI tool subscriptions (tất cả tools mục 3)$400-800/tháng
Cloud storage + backup$50-100/tháng
TỔNG$10,000-15,000$750-1,800/tháng

Lưu ý: Chi phí monthly sẽ peak trong giai đoạn Production (5-8 tháng) khi dùng nhiều AI generation nhất. Pre-production và Post-production sẽ thấp hơn đáng kể.