SHORT CUT
DeepSeek ผู้พัฒนา AI จากจีน ถูกตั้งข้อสังเกตว่าอาจนำผลลัพธ์จาก Gemini ของ Google มาใช้ฝึกโมเดลล่าสุด R1-0528 หลังพบความคล้ายคลึงด้านภาษาและการคิด
วงการ AI กำลังจับตามอง DeepSeek แล็บปัญญาประดิษฐ์สัญชาติจีน ที่เพิ่งเปิดตัวโมเดล R1-0528 ซึ่งเป็นเวอร์ชันปรับปรุงของโมเดล AI ด้านการให้เหตุผล โดยทำคะแนนได้ดีเยี่ยมในหลายๆ เกณฑ์มาตรฐานด้านคณิตศาสตร์และการเขียนโค้ด
อย่างไรก็ตาม ประเด็นร้อนแรงเกิดขึ้นเมื่อมีผู้เชี่ยวชาญตั้งข้อสังเกตว่า DeepSeek อาจนำข้อมูลผลลัพธ์จากโมเดลตระกูล Gemini ของ Google มาใช้ในการฝึกฝน AI ตัวล่าสุดนี้ แม้ว่าทาง DeepSeek จะไม่ได้เปิดเผยแหล่งที่มาของข้อมูลที่ใช้ฝึกก็ตาม
แซม เพค นักพัฒนาจากเมลเบิร์น ผู้ออกแบบการประเมิน "ความฉลาดทางอารมณ์" สำหรับ AI ได้เผยแพร่สิ่งที่เขากล่าวอ้างว่าเป็นหลักฐาน โดยชี้ว่าโมเดล R1-0528 ของ DeepSeek มีแนวโน้มที่จะใช้คำและสำนวนที่คล้ายคลึงกับที่ Gemini 2.5 Pro ของ Google นิยมใช้
If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025
แม้ว่านี่อาจยังไม่ใช่หลักฐานที่ชัดเจนนัก แต่ก็สอดคล้องกับข้อสังเกตของนักพัฒนาอีกราย ที่ระบุว่า "ร่องรอยความคิด" ของโมเดล DeepSeek นั้น "อ่านแล้วเหมือนกับความคิดของ Gemini"
นี่ไม่ใช่ครั้งแรกที่ DeepSeek ถูกกล่าวหาในลักษณะนี้ ก่อนหน้านี้ในเดือนธันวาคม นักพัฒนาเคยสังเกตเห็นว่าโมเดล V3 ของ DeepSeek มักจะระบุตัวเองว่าเป็น ChatGPT ซึ่งเป็นแพลตฟอร์มแชตบอตของ OpenAI ทำให้เกิดข้อสงสัยว่าอาจมีการฝึกฝนจากบันทึกการสนทนาของ ChatGPT
นอกจากนี้ OpenAI ยังเคยให้ข้อมูลกับ Financial Times เมื่อต้นปีว่าพบหลักฐานที่เชื่อมโยง DeepSeek กับการใช้เทคนิค "Distillation" หรือการสกัดข้อมูลจากโมเดลขนาดใหญ่และมีความสามารถสูงกว่าเพื่อนำไปฝึก AI ของตนเอง
ทาง Bloomberg ยังรายงานด้วยว่า Microsoft ซึ่งเป็นพันธมิตรใกล้ชิดและผู้ลงทุนใน OpenAI ตรวจพบการลักลอบนำข้อมูลจำนวนมหาศาลออกไปผ่านบัญชีนักพัฒนา OpenAI ในช่วงปลายปี 2024 ซึ่ง OpenAI เชื่อว่าบัญชีเหล่านั้นมีความเกี่ยวข้องกับ DeepSeek
เทคนิคนี้ไม่ใช่เรื่องแปลกใหม่ แต่เงื่อนไขการให้บริการของ OpenAI ห้ามไม่ให้ลูกค้านำผลลัพธ์จากโมเดลของตนไปใช้สร้าง AI คู่แข่ง
อย่างไรก็ตาม ปัญหา "การปนเปื้อนของข้อมูล" จากเนื้อหาที่ AI สร้างขึ้นเอง ซึ่งแพร่หลายอยู่บนโลกออนไลน์ ทำให้การกรองข้อมูลผลลัพธ์จาก AI ออกจากชุดข้อมูลสำหรับฝึกฝนนั้นเป็นเรื่องยาก
นาธาน แลมเบิร์ต นักวิจัยจาก AI2 สถาบันวิจัย AI ไม่แสวงหาผลกำไร ให้ความเห็นว่าไม่ใช่เรื่องที่เป็นไปไม่ได้ที่ DeepSeek จะฝึกฝนโมเดลจากข้อมูลของ Gemini
If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.
— Nathan Lambert (@natolambert) June 3, 2025
"หากผมเป็น DeepSeek ผมจะสร้างข้อมูลสังเคราะห์จำนวนมหาศาลจากโมเดล API ที่ดีที่สุดอย่างแน่นอน" แลมเบิร์ตเขียนในโพสต์บน X "พวกเขามี GPU ไม่เพียงพอแต่มีเงินทุนเหลือเฟือ มันจึงเหมือนเป็นการเพิ่มประสิทธิภาพการประมวลผลให้พวกเขา"
เพื่อป้องกันปัญหาการ Distillation บริษัท AI ต่างๆ จึงเริ่มยกระดับมาตรการความปลอดภัย โดยในเดือนเมษายน OpenAI ได้กำหนดให้องค์กรต่างๆ ต้องผ่านกระบวนการยืนยันตัวตน (ID verification) เพื่อเข้าถึงโมเดลขั้นสูงบางตัว ซึ่งจีนไม่ได้อยู่ในรายชื่อประเทศที่รองรับ
ขณะที่ Google เพิ่งเริ่ม "สรุป" ร่องรอยความคิดที่สร้างโดยโมเดลผ่านแพลตฟอร์ม AI Studio เพื่อทำให้การนำไปฝึกโมเดลคู่แข่งทำได้ยากขึ้น เช่นเดียวกับ Anthropic ที่ประกาศในเดือนพฤษภาคมว่าจะเริ่มสรุปร่องรอยความคิดของโมเดลตนเองเพื่อปกป้องความได้เปรียบในการแข่งขัน
ที่มา : TechCrunch