SHORT CUT
Hugging Face เปิดตัว SmolVLA โมเดล AI สำหรับหุ่นยนต์ขนาดเล็กแต่ทรงพลัง สามารถรันบน MacBook ได้ ตั้งเป้าปฎิวัติวงการพัฒนาหุ่นยนต์ขั้นสูง
Hugging Face แพลตฟอร์มพัฒนา AI ชื่อดัง ได้เปิดตัว SmolVLA โมเดลปัญญาประดิษฐ์แบบ open-source สำหรับวงการหุ่นยนต์ ที่มาพร้อมกับประสิทธิภาพที่น่าทึ่งแม้จะมีขนาดเล็ก
🚀 SmolVLA — feels like a BERT moment for robotics 🤖
— Xingdong Zuo (@XingdongZ) June 4, 2025
I tried it on the Koch Arm:
Inference on RTX 2050 (4GB), fine-tuned with just 31 demos, and matches/outperforms single-task baselines 🔥
Big thanks to @RemiCadene @danaubakirova @mustash97 @francesco__capu 🙌 pic.twitter.com/TiBkAZGwkM
โดย Hugging Face เคลมว่า SmolVLA สามารถทำงานได้ดีกว่าโมเดลขนาดใหญ่กว่ามาก ทั้งในสภาพแวดล้อมเสมือนจริงและโลกจริง ที่สำคัญคือมันมีขนาดเล็กพอที่จะรันบน GPU ระดับผู้บริโภคทั่วไป หรือแม้กระทั่งบน MacBook ได้
SmolVLA ซึ่งมีขนาดเพียง 450 ล้านพารามิเตอร์ (parameters) หรือ "weights" ซึ่งเป็นส่วนประกอบภายในของโมเดลที่ควบคุมพฤติกรรม
ได้รับการฝึกฝนจาก LeRobot Community Datasets ซึ่งเป็นชุดข้อมูลสำหรับหุ่นยนต์ที่แบ่งปันกันในชุมชนและมีใบอนุญาตที่เข้ากันได้บนแพลตฟอร์ม Hugging Face
เป้าหมายหลักของ SmolVLA คือการ "democratize" หรือทำให้ทุกคนเข้าถึงโมเดลประเภท vision-language-action (VLA) ได้ง่ายขึ้น
VLA คือโมเดลที่ช่วยให้หุ่นยนต์สามารถเข้าใจภาพ, ภาษาและการกระทำ ได้อย่างสอดคล้องกัน ซึ่งจะช่วยเร่งการวิจัยและพัฒนานำไปสู่ "generalist robotic agents" หรือหุ่นยนต์ที่มีความสามารถรอบด้าน สามารถทำงานได้หลากหลาย
SmolVLA ไม่ได้เป็นเพียงแค่โมเดลน้ำหนักเบาแต่มีความสามารถสูงเท่านั้น แต่ยังเป็น "วิธีการสำหรับการฝึกฝนและประเมินผลเทคโนโลยีหุ่นยนต์ทั่วไป" อีกด้วย นี่เป็นส่วนหนึ่งของความพยายามของ Hugging Face ในการสร้างระบบนิเวศของฮาร์ดแวร์และซอฟต์แวร์หุ่นยนต์ราคาประหยัด
หลังจากที่ปีที่แล้วได้เปิดตัว LeRobot ซึ่งเป็นคอลเลกชันของโมเดล ชุดข้อมูล และเครื่องมือสำหรับหุ่นยนต์ รวมถึงการเข้าซื้อกิจการ Pollen Robotics สตาร์ทอัพหุ่นยนต์จากฝรั่งเศส และการเปิดตัวระบบหุ่นยนต์ราคาไม่แพงหลายรายการ รวมถึงหุ่นยนต์ฮิวแมนนอยด์
หนึ่งในความน่าสนใจของ SmolVLA คือการรองรับ "asynchronous inference stack" ซึ่ง Hugging Face อธิบายว่าช่วยให้โมเดลสามารถแยกการประมวลผลการกระทำของหุ่นยนต์ออกจากการประมวลผลสิ่งที่มันมองเห็นและได้ยินได้
ด้วยการแยกส่วนนี้ ทำให้หุ่นยนต์สามารถตอบสนองได้รวดเร็วยิ่งขึ้นในสภาพแวดล้อมที่เปลี่ยนแปลงอย่างรวดเร็ว
ขณะนี้ SmolVLA เปิดให้ดาวน์โหลดแล้วบนแพลตฟอร์มของ Hugging Face และมีรายงานจากผู้ใช้งานบน X (เดิมคือ Twitter) ว่าได้นำโมเดลนี้ไปใช้ควบคุมแขนกลของบริษัทอื่นได้สำเร็จแล้ว
แน่นอนว่า Hugging Face ไม่ใช่ผู้เล่นเพียงรายเดียวในสมรภูมิหุ่นยนต์แบบเปิด (open robotics) ที่กำลังเติบโตนี้ บริษัทใหญ่อย่าง Nvidia ก็มีชุดเครื่องมือสำหรับหุ่นยนต์แบบเปิดเช่นกัน
ขณะที่สตาร์ทอัพอย่าง K-Scale Labs กำลังสร้างส่วนประกอบสำหรับสิ่งที่พวกเขาเรียกว่า "หุ่นยนต์ฮิวแมนนอยด์แบบโอเพนซอร์ส" นอกจากนี้ยังมีบริษัทที่น่าจับตามองอื่นๆ เช่น Dyna Robotics, Physical Intelligence (บริษัทที่ Jeff Bezos ให้การสนับสนุน) และ RLWRLD
การมาถึงของ SmolVLA จึงเป็นอีกก้าวสำคัญที่แสดงให้เห็นถึงทิศทางการพัฒนา AI และหุ่นยนต์ที่มุ่งเน้นการเข้าถึงได้ง่ายขึ้น ประสิทธิภาพสูงขึ้น และเปิดกว้างมากขึ้น ซึ่งน่าจะส่งผลให้เกิดนวัตกรรมและการประยุกต์ใช้หุ่นยนต์ในวงกว้างยิ่งขึ้นในอนาคต
ที่มา : TechCrunch, HuggingFace