svasdssvasds

DeepSeek ถูกกล่าวหา แอบใช้โมเดล Gemini ฝึก AI ชี้ตอบภาษาคล้ายกัน

DeepSeek ถูกกล่าวหา แอบใช้โมเดล Gemini ฝึก AI ชี้ตอบภาษาคล้ายกัน

DeepSeek ผู้พัฒนา AI จากจีน ถูกตั้งข้อสังเกตว่าอาจนำผลลัพธ์จาก Gemini ของ Google มาใช้ฝึกโมเดลล่าสุด R1-0528 หลังพบความคล้ายคลึงด้านภาษาและการคิด

SHORT CUT

  • DeepSeek ถูกนักวิจัยตั้งข้อสังเกตว่าอาจใช้ผลลัพธ์จาก Gemini ของ Google ในการฝึกโมเดล AI R1-0528 เนื่องจากความคล้ายคลึงของภาษาและรูปแบบการคิดที่แสดงออกมา
  • DeepSeek เคยถูกกล่าวหาว่าใช้ข้อมูลจาก OpenAI ในการฝึกโมเดลก่อนหน้านี้ และมีหลักฐานบ่งชี้ถึงการใช้เทคนิค Distillation ซึ่งผิดเงื่อนไขการให้บริการของ OpenAI
  • บริษัท AI ชั้นนำอย่าง Google, OpenAI และ Anthropic เริ่มใช้มาตรการที่เข้มงวดขึ้น เช่น การยืนยันตัวตนและการสรุปร่องรอยความคิดของโมเดล เพื่อป้องกันการลอกเลียนแบบและรักษาความได้เปรียบทางการแข่งขัน

DeepSeek ผู้พัฒนา AI จากจีน ถูกตั้งข้อสังเกตว่าอาจนำผลลัพธ์จาก Gemini ของ Google มาใช้ฝึกโมเดลล่าสุด R1-0528 หลังพบความคล้ายคลึงด้านภาษาและการคิด

วงการ AI กำลังจับตามอง DeepSeek แล็บปัญญาประดิษฐ์สัญชาติจีน ที่เพิ่งเปิดตัวโมเดล R1-0528 ซึ่งเป็นเวอร์ชันปรับปรุงของโมเดล AI ด้านการให้เหตุผล โดยทำคะแนนได้ดีเยี่ยมในหลายๆ เกณฑ์มาตรฐานด้านคณิตศาสตร์และการเขียนโค้ด

CREDIT : REUTERS

อย่างไรก็ตาม ประเด็นร้อนแรงเกิดขึ้นเมื่อมีผู้เชี่ยวชาญตั้งข้อสังเกตว่า DeepSeek อาจนำข้อมูลผลลัพธ์จากโมเดลตระกูล Gemini ของ Google มาใช้ในการฝึกฝน AI ตัวล่าสุดนี้ แม้ว่าทาง DeepSeek จะไม่ได้เปิดเผยแหล่งที่มาของข้อมูลที่ใช้ฝึกก็ตาม

แซม เพค นักพัฒนาจากเมลเบิร์น ผู้ออกแบบการประเมิน "ความฉลาดทางอารมณ์" สำหรับ AI ได้เผยแพร่สิ่งที่เขากล่าวอ้างว่าเป็นหลักฐาน โดยชี้ว่าโมเดล R1-0528 ของ DeepSeek มีแนวโน้มที่จะใช้คำและสำนวนที่คล้ายคลึงกับที่ Gemini 2.5 Pro ของ Google นิยมใช้

แม้ว่านี่อาจยังไม่ใช่หลักฐานที่ชัดเจนนัก แต่ก็สอดคล้องกับข้อสังเกตของนักพัฒนาอีกราย ที่ระบุว่า "ร่องรอยความคิด" ของโมเดล DeepSeek นั้น "อ่านแล้วเหมือนกับความคิดของ Gemini"

นี่ไม่ใช่ครั้งแรกที่ DeepSeek ถูกกล่าวหาในลักษณะนี้ ก่อนหน้านี้ในเดือนธันวาคม นักพัฒนาเคยสังเกตเห็นว่าโมเดล V3 ของ DeepSeek มักจะระบุตัวเองว่าเป็น ChatGPT ซึ่งเป็นแพลตฟอร์มแชตบอตของ OpenAI ทำให้เกิดข้อสงสัยว่าอาจมีการฝึกฝนจากบันทึกการสนทนาของ ChatGPT

นอกจากนี้ OpenAI ยังเคยให้ข้อมูลกับ Financial Times เมื่อต้นปีว่าพบหลักฐานที่เชื่อมโยง DeepSeek กับการใช้เทคนิค "Distillation" หรือการสกัดข้อมูลจากโมเดลขนาดใหญ่และมีความสามารถสูงกว่าเพื่อนำไปฝึก AI ของตนเอง

CREDIT : REUTERS

ทาง Bloomberg ยังรายงานด้วยว่า Microsoft ซึ่งเป็นพันธมิตรใกล้ชิดและผู้ลงทุนใน OpenAI ตรวจพบการลักลอบนำข้อมูลจำนวนมหาศาลออกไปผ่านบัญชีนักพัฒนา OpenAI ในช่วงปลายปี 2024 ซึ่ง OpenAI เชื่อว่าบัญชีเหล่านั้นมีความเกี่ยวข้องกับ DeepSeek

เทคนิคนี้ไม่ใช่เรื่องแปลกใหม่ แต่เงื่อนไขการให้บริการของ OpenAI ห้ามไม่ให้ลูกค้านำผลลัพธ์จากโมเดลของตนไปใช้สร้าง AI คู่แข่ง

อย่างไรก็ตาม ปัญหา "การปนเปื้อนของข้อมูล" จากเนื้อหาที่ AI สร้างขึ้นเอง ซึ่งแพร่หลายอยู่บนโลกออนไลน์ ทำให้การกรองข้อมูลผลลัพธ์จาก AI ออกจากชุดข้อมูลสำหรับฝึกฝนนั้นเป็นเรื่องยาก

นาธาน แลมเบิร์ต นักวิจัยจาก AI2 สถาบันวิจัย AI ไม่แสวงหาผลกำไร ให้ความเห็นว่าไม่ใช่เรื่องที่เป็นไปไม่ได้ที่ DeepSeek จะฝึกฝนโมเดลจากข้อมูลของ Gemini

"หากผมเป็น DeepSeek ผมจะสร้างข้อมูลสังเคราะห์จำนวนมหาศาลจากโมเดล API ที่ดีที่สุดอย่างแน่นอน" แลมเบิร์ตเขียนในโพสต์บน X "พวกเขามี GPU ไม่เพียงพอแต่มีเงินทุนเหลือเฟือ มันจึงเหมือนเป็นการเพิ่มประสิทธิภาพการประมวลผลให้พวกเขา"

เพื่อป้องกันปัญหาการ Distillation บริษัท AI ต่างๆ จึงเริ่มยกระดับมาตรการความปลอดภัย โดยในเดือนเมษายน OpenAI ได้กำหนดให้องค์กรต่างๆ ต้องผ่านกระบวนการยืนยันตัวตน (ID verification) เพื่อเข้าถึงโมเดลขั้นสูงบางตัว ซึ่งจีนไม่ได้อยู่ในรายชื่อประเทศที่รองรับ

ขณะที่ Google เพิ่งเริ่ม "สรุป" ร่องรอยความคิดที่สร้างโดยโมเดลผ่านแพลตฟอร์ม AI Studio เพื่อทำให้การนำไปฝึกโมเดลคู่แข่งทำได้ยากขึ้น เช่นเดียวกับ Anthropic ที่ประกาศในเดือนพฤษภาคมว่าจะเริ่มสรุปร่องรอยความคิดของโมเดลตนเองเพื่อปกป้องความได้เปรียบในการแข่งขัน

ที่มา : TechCrunch

related