
SHORT CUT
วิจัยฮาร์วาร์ดพบ AI วินิจฉัยเคสฉุกเฉินแม่นยำเทียบเท่าหมอ โดยเฉพาะช่วงคัดกรองที่ข้อมูลจำกัด แต่ผู้เชี่ยวชาญย้ำ 'ยังแทนมนุษย์ไม่ได้' เพราะต้องใช้การตัดสินใจในนาทีชีวิต
งานวิจัยใหม่เผยข้อมูลที่น่าทึ่ง เมื่อลองเอา AI (Large Language Models) ไปทดสอบกับเคสจริงในห้องฉุกเฉิน ผลปรากฏว่ามีโมเดลบางตัวที่สามารถวินิจฉัยโรคได้แม่นยำกว่าคุณหมอจริงๆ ในหลายสถานการณ์
งานวิจัยชิ้นนี้เพิ่งตีพิมพ์ในวารสาร Science เมื่อสัปดาห์ที่ผ่านมา โดยเป็นผลงานของทีมวิจัยจากคณะแพทยศาสตร์ มหาวิทยาลัยฮาร์วาร์ด (Harvard Medical School) ร่วมกับ ศูนย์การแพทย์เบธ อิสราเอล ดีคอนเนส (Beth Israel Deaconess Medical Center) ซึ่งทีมวิจัยชุดนี้ประกอบด้วยทั้งแพทย์และนักวิทยาศาสตร์คอมพิวเตอร์ พวกเขาตั้งใจออกแบบการทดสอบหลายรูปแบบ เพื่อเปรียบเทียบดูว่าโมเดล AI จากค่าย OpenAI จะทำผลงานได้ดีแค่ไหนเมื่อเทียบกับแพทย์ที่เป็นมนุษย์
ทีมวิจัยได้ทดสอบกับเคสจริงของผู้ป่วย 76 รายในห้องฉุกเฉิน โดยนำผลวินิจฉัยของอายุรแพทย์ระดับอาจารย์หมอ 2 ท่าน มาเปรียบเทียบกับผลที่ได้จากโมเดล o1 และ 4o ของ OpenAI เพื่อความเป็นธรรม ผลวินิจฉัยทั้งหมดจะถูกประเมินโดยแพทย์ผู้เชี่ยวชาญอีกชุดหนึ่งแบบ 'ไม่ระบุตัวตน' (Blind Test) เพื่อให้มั่นใจว่าผู้ตัดสินจะไม่รู้ว่าคำตอบนั้นมาจากมนุษย์หรือ AI
ผลการวิจัย ระบุว่า ในทุกช่วงจุดของกระบวนการวินิจฉัย โมเดล o1 มีประสิทธิภาพการทำงานที่ดีกว่าเล็กน้อย หรืออย่างน้อยก็เทียบเท่ากับแพทย์ผู้เชี่ยวชาญทั้ง 2 ท่านและโมเดล 4o พร้อมเสริมว่า ความแตกต่างดังกล่าวเห็นได้ชัดเป็นพิเศษที่กระบวนการคัดแยกผู้ป่วยเบื้องต้นในห้องฉุกเฉิน (Initial ER triage) ซึ่งเป็นจุดที่มีข้อมูลเกี่ยวกับผู้ป่วยน้อยที่สุดและเป็นช่วงที่มีความเร่งด่วนที่สุดในการตัดสินใจให้ถูกต้อง
อย่างไรก็ตาม ในข่าวประชาสัมพันธ์ของคณะแพทยศาสตร์ มหาวิทยาลัยฮาร์วาร์ดเกี่ยวกับงานวิจัยนี้ นักวิจัยเน้นย้ำว่าทีมวิจัยไม่ได้ปรับแต่งหรือเตรียมข้อมูลล่วงหน้าแต่อย่างใด โดยโมเดล AI จะได้รับข้อมูลชุดเดียวกันกับที่มีอยู่ในเวชระเบียนอิเล็กทรอนิกส์ของผู้ป่วย ณ เวลาที่มีการวินิจฉัยจริงในแต่ละครั้ง
ด้วยข้อมูลดังกล่าว โมเดล o1 สามารถให้การวินิจฉัยที่ถูกต้องหรือใกล้เคียงมากกับความจริงในระดับ 67% ของกรณีการคัดแยกผู้ป่วยเทียบกับแพทย์คนหนึ่งที่ให้การวินิจฉัยที่ถูกต้องหรือใกล้เคียง 55% และแพทย์อีกคนหนึ่งที่ให้การวินิจฉัยที่ถูกต้อง 50%
'อรชุน มันไร' (Arjun Manrai) หัวหน้าห้องปฏิบัติการด้าน AI ของคณะแพทย์ศาสตร์ มหาวิทยาลัยฮาร์วาร์ด และหนึ่งในผู้เขียนหลักของงานวิจัยกล่าวในข่าวประชาสัมพันธ์ว่า ได้ทดสอบโมเดล AI กับเกณฑ์มาตรฐานแทบทุกรูปแบบ และผลลัพธ์ที่ได้นั้นเหนือกว่าทั้งโมเดลรุ่นก่อนหน้า รวมถึงเกณฑ์มาตรฐานของแพทย์ของเรา
อย่างไรก็ตาม เพื่อความชัดเจน งานวิจัยไม่ได้อ้างว่า AI พร้อมที่จะตัดสินใจในสถานการณ์ความเป็นความตายในห้องฉุกเฉินจริง ๆ แล้ว แต่ระบุว่า ผลการศึกษาดังกล่าวแสดงให้เห็นถึงความจำเป็นเร่งด่วนสำหรับการการวิจัยแบบไปข้างหน้า (Prospective Trials) เพื่อประเมินเทคโนโลยีเหล่านี้ในสภาพแวดล้อมการดูแลผู้ป่วยในโลกแห่งความเป็นจริง
นักวิจัยยังตั้งข้อสังเกตอีกว่า การศึกษานี้ตรวจสอบเฉพาะประสิทธิภาพการทำงานของโมเดล AI เมื่อได้รับข้อมูลในรูปแบบที่เป็นเป็นข้อความเท่านั้น และการศึกษาที่มีอยู่ในปัจจุบันบ่งชี้ว่าโมเดลพื้นฐานในตอนนี้ยังมีข้อจำกัดมากกว่าเมื่อต้องให้เหตุผลกับข้อมูลที่ไม่ใช่ข้อความ
'อดัม ร็อดแมน' (Adam Rodman) แพทย์จากศูนย์การแพทย์เบธ อิสราเอลและหนึ่งในผู้เขียนหลักของงานวิจัย ให้สัมภาษณ์กับสำนักข่าวเดอะ การ์เดียน (The Guardian) โดยเตือนว่า ขณะนี้ยังไม่มีกรอบการกำกับดูแลความรับผิดชอบอย่างเป็นทางการเกี่ยวการวินิจฉัยด้วย AI และผู้ป่วยยังคงต้องการแพทย์ที่เป็นมนุษย์ในการเป็นผู้ชี้นำพวกเขาผ่านการตัดสินใจที่เกี่ยวข้องกับความเป็นความตาย รวมถึง การตัดสินใจเกี่ยวกับการรักษาที่ซับซ้อน
ในบทความเกี่ยวกับงานวิจัยนี้ 'คริสเตน แพนธากานี' (Kristen Panthagani) แพทย์เวชศาสตร์ฉุกเฉิน ระบุว่างานวิจัยชิ้นนี้ถือเป็นการศึกษาด้าน AI ที่น่าสนใจ แต่ถูกนำไปพาดหัวข่าวที่เกินความจริงไปอย่างมาก โดยเฉพาะอย่างยิ่งเนื่องจากเป็นการเปรียบเทียบการวินิจฉัยโดย AI กับการวินิจฉัยโดยแพทย์อายุรกรรม ไม่ใช่แพทย์เวชศาสตร์ฉุกเฉินโดยตรง
นอกจากนี้ยังระบุด้วยว่า ถ้าจะเปรียบเทียบเครื่องมือ AI กับความสามารถทางคลินิกของแพทย์ ก็ควรเริ่มจากการเปรียบเทียบกับแพทย์ที่ทำงานในสาขานั้นจริง ๆ พร้อมเสริมว่า คงไม่แปลกใจถ้า LLM สามารถเอาชนะแพทย์ผิวหนังในการสอบบอร์ดศัลยกรรมประสาทได้ แต่สิ่งนั้นไม่ได้ให้ข้อมูลที่มีประโยชน์มากนัก
แพทย์เวชศาสตร์ฉุกเฉิน รายนี้ ยังให้เหตุผลเพิ่มเติมว่า "ในฐานะแพทย์ห้องฉุกเฉินที่พบคนไข้เป็นครั้งแรก เป้าหมายหลักของตนเองไม่ใช่การเดาการวินิจฉัยขั้นสุดท้าย แต่หลักคือการตรวจสอบว่าผู้ป่วยมีอาการหรือภาวะที่อาจถึงแก่ชีวิตได้หรือไม่มากกว่า"
ที่มา: Tech Crunch