svasdssvasds

อาลีบาบา เปิดตัว Wan2.2-S2V ปลุกภาพนิ่งให้พูด-ร้องเพลงได้

อาลีบาบา เปิดตัว Wan2.2-S2V ปลุกภาพนิ่งให้พูด-ร้องเพลงได้

อาลีบาบาเปิดตัว Wan2.2-S2V โมเดลโอเพ่นซอร์สล่าสุด สามารถเปลี่ยนภาพถ่ายบุคคลให้กลายเป็นวิดีโอ Digital Human คุณภาพสูงที่พูด ร้องเพลง และแสดงท่าทางได้อย่างสมจริง

SHORT CUT

  • Wan2.2-S2V เป็นโมเดลโอเพ่นซอร์สที่สามารถเปลี่ยนภาพนิ่ง 1 ภาพและไฟล์เสียง 1 ไฟล์ ให้กลายเป็นวิดีโออวทาร์คุณภาพสูงที่พูด, ร้องเพลง และแสดงท่าทางได้อย่างสมจริง
  • Wan2.2-S2V ใช้เทคนิคผสมผสานระหว่างคำสั่งข้อความเพื่อควบคุมการเคลื่อนไหวโดยรวม และใช้เสียงเพื่อสร้างการเคลื่อนไหวที่ละเอียดอ่อน นอกจากนี้ยังมีนวัตกรรมการบีบอัดเฟรมที่ช่วยให้สร้างวิดีโอยาวอย่างมีเสถียรภาพและลดต้นทุนการประมวลผล
  • Wan2.2-S2V รองรับการสร้างวิดีโอหลากหลายรูปแบบ ทั้งแนวตั้งและแนวนอน ในความละเอียด 480P และ 720P และพร้อมให้ดาวน์โหลดไปใช้งานได้แล้วบนแพลตฟอร์มโอเพ่นซอร์สชั้นนำ

อาลีบาบาเปิดตัว Wan2.2-S2V โมเดลโอเพ่นซอร์สล่าสุด สามารถเปลี่ยนภาพถ่ายบุคคลให้กลายเป็นวิดีโอ Digital Human คุณภาพสูงที่พูด ร้องเพลง และแสดงท่าทางได้อย่างสมจริง

อาลีบาบา เปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สล่าสุดที่ออกแบบมาสำหรับการสร้างวิดีโอมนุษย์ดิจิทัล (digital human video) ที่สามารถแปลงภาพถ่ายบุคคลให้กลายเป็นอวทาร์คุณภาพระดับภาพยนตร์ที่พูด ร้องเพลง และแสดงท่าทางได้ 

โมเดลนี้เป็นส่วนหนึ่งของ Wan2.2 ซึ่งเป็นชุดโมเดลการสร้างวิดีโอของอาลีบาบา โมเดลนี้สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงจากภาพภาพเดียวและคลิปเสียงหนึ่งคลิป

Wan2.2-S2V มอบความสามารถด้านการสร้างแอนิเมชันตัวละครที่หลากหลาย รองรับการสร้างวิดีโอได้หลายมุมมอง ทั้งแบบพอร์ตเทรต ครึ่งตัว และเต็มตัว อีกทั้งยังสามารถสร้างการเคลื่อนไหวของตัวละครและองค์ประกอบแวดล้อมแบบไดนามิกตามคำสั่งที่กำหนด ช่วยให้ครีเอเตอร์สามารถถ่ายทอดภาพได้อย่างแม่นยำ ตรงตามเรื่องราวและการออกแบบ

โมเดลนี้สามารถสร้างตัวละครที่แสดงได้เสมือนจริง ตั้งแต่บทสนทนาที่เป็นธรรมชาติ ไปจนถึงการแสดงดนตรี โดยอาศัยเทคโนโลยีแอนิเมชันที่ขับเคลื่อนด้วยเสียงที่มีประสิทธิภาพสูง และยังจัดการกับตัวละครหลายตัวภายในฉากได้อย่างราบรื่น

ครีเอเตอร์สามารถแปลงเสียงบันทึกให้เป็นภาพเคลื่อนไหวที่สมจริง รองรับอวทาร์ที่หลากหลาย ตั้งแต่การ์ตูนและสัตว์ ไปจนถึงตัวละครที่มีสไตล์เฉพาะตัว  

เทคโนโลยีนี้มอบความละเอียดของการแสดงผลที่ยืดหยุ่น ทั้ง 480P และ 720P เพื่อตอบโจทย์ความต้องการที่หลากหลายของคอนเทนต์ครีเอเตอร์มืออาชีพให้มั่นใจได้ว่าจะได้ภาพคุณภาพสูงที่ตรงตามมาตรฐานทางวิชาชีพและงานสร้างสรรค์ที่หลากหลาย จึงเหมาะอย่างยิ่งสำหรับคอนเทนต์บนสื่อโซเชียลและงานนำเสนอระดับมืออาชีพ 

นวัตกรรมทางเทคโนโลยีที่หลากหลาย

Wan2.2-S2V มีประสิทธิภาพเหนือแอนิเมชันแบบ talking-head ด้วยการผสมผสานการควบคุมการเคลื่อนไหวหลักในภาพรวมด้วยคำสั่งจากข้อความ และการเคลื่อนไหวเฉพาะจุดที่มีรายละเอียดสูงด้วยข้อมูลจากเสียงเข้าด้วยกัน ทำให้ตัวละครเคลื่อนไหวได้อย่างเป็นธรรมชาติและสื่ออารมณ์ได้อย่างลึกซึ้ง แม้ในสถานการณ์ที่ซับซ้อนและท้าทาย

เทคนิคการประมวลผลเฟรมที่เป็นนวัตกรรมของโมเดลนี้ เป็นอีกหนึ่งความล้ำหน้าสำคัญ เทคโนโลยีนี้ช่วยลดค่าใช้จ่ายในการประมวลผลได้อย่างมีนัยสำคัญ จากการบีบอัดเฟรมที่มีอยู่เดิมซึ่งมีความยาวแบบไม่จำกัดให้เป็นภาพแฝง (latent representation) ที่มีขนาดกะทัดรัดเพียงภาพเดียว ซึ่งช่วยให้สามารถสร้างวิดีโอยาวๆ ที่มีความเสถียรได้อย่างน่าทึ่ง เป็นการจัดการกับความท้าทายสำคัญในการผลิตคอนเทนต์แอนิเมชันที่ขยายเพิ่มเติม

ความสามารถที่ก้าวล้ำของโมเดลได้รับการยกระดับให้โดดเด่นยิ่งขึ้นด้วยกระบวนการเทรนที่ครอบคลุม ทีมวิจัยของอาลีบาบาได้สร้างชุดข้อมูลภาพและเสียงขนาดใหญ่ที่ออกแบบมาเพื่อรองรับการผลิตภาพยนตร์และรายการโทรทัศน์โดยเฉพาะ

Wan2.2-S2V ได้รับการเทรนด้วยความละเอียดหลายระดับ (multi-resolution) จึงสามารถรองรับการสร้างวิดีโอได้หลายรูปแบบอย่างยืดหยุ่น ไม่ว่าจะเป็นคอนเทนต์วิดีโอสั้นที่ถ่ายทำแบบแนวตั้ง ไปจนถึงงานผลิตภาพยนต์และรายการโทรทัศน์แบบเดิมที่ถ่ายทำเป็นแนวนอน 

Wan2.2-S2V พร้อมให้ดาวน์โหลดแล้วบน Hugging Face, GitHub และบน ModelScope ซึ่งเป็นคอมมิวนิตี้ด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์

นอกจากนี้ในฐานะผู้มีส่วนร่วมสำคัญต่อชุมชนโอเพ่นซอร์สระดับโลก อาลีบาบาได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 เมื่อเดือนกุมภาพันธ์ พ.ศ. 2568 และโมเดล Wan2.2 เมื่อเดือนกรกฎาคมที่ผ่านมา

ปัจจุบันโมเดลที่อยู่ใน Wan series มียอดดาวน์โหลดรวมกว่า 6.9 ล้านครั้งบน Hugging Face และ ModelScope

related