OpenAI องค์กรวิจัยปัญญาประดิษฐ์ชั้นนำ ประกาศเปิดตัว GPT-4o ซึ่งเป็นการพัฒนาต่อยอดจาก GPT-4 โมเดลภาษาที่ขับเคลื่อนผลิตภัณฑ์หลักอย่าง ChatGPT
GPT-4o คือความก้าวหน้าอีกขั้นสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยสามารถรับข้อมูลเข้าได้หลากหลายรูปแบบ ทั้งข้อความ เสียง รูปภาพ และวิดีโอ รวมถึงสร้างสรรค์ผลลัพธ์เป็นข้อความ เสียง และรูปภาพได้เช่นกัน จุดเด่นคือ ความเร็วในการตอบสนองต่อข้อมูลเสียง ซึ่งใช้เวลาเพียง 232 มิลลิวินาทีโดยเฉลี่ย (ใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา)
นอกจากนี้ ยังเทียบเท่าประสิทธิภาพของ GPT-4 Turbo ในการประมวลผลข้อความภาษาอังกฤษและโค้ด รวมถึงมีความสามารถในการประมวลผลข้อความภาษาอื่น ๆ ดีขึ้นอย่างมาก ขณะเดียวกันยังทำงานได้เร็วกว่าและมีค่าใช้จ่ายผ่าน API ถูกกว่า 50% เมื่อเทียบกับรุ่นก่อนหน้า นอกจากนี้ GPT-4o ยังมีความโดดเด่นในด้านการทำความเข้าใจข้อมูลภาพและเสียงมากกว่ารุ่นอื่น ๆ ที่มีอยู่
โดยก่อนหน้านี้ การใช้ Voice Mode เพื่อสนทนากับ ChatGPT จะมีความล่าช้า โดยใช้เวลาเฉลี่ย 2.8 วินาทีสำหรับ GPT-3.5 และ 5.4 วินาทีสำหรับ GPT-4 สาเหตุที่ทำให้เกิดความล่าช้านี้ เนื่องจาก Voice Mode เป็นระบบที่ประกอบด้วยโมเดลแยกกัน 3 ตัว ตัวแรกเป็นโมเดลพื้นฐานที่แปลงเสียงเป็นข้อความ ตัวที่สองคือ GPT-3.5 หรือ GPT-4 ที่ทำหน้าที่ประมวลผลข้อความเข้าและออกเป็นข้อความอีกครั้ง และตัวสุดท้ายเป็นโมเดลพื้นฐานอีกตัวที่แปลงข้อความกลับไปเป็นเสียง ด้วยกระบวนการแบบนี้ ทำให้ GPT-4 ซึ่งเป็นโมเดลหลักสูญเสียข้อมูลไปมาก เนื่องจากไม่สามารถวิเคราะห์น้ำเสียง เสียงของผู้พูดหลายคน หรือเสียงรบกวนเบื้องหลังได้โดยตรง รวมถึงไม่สามารถสร้างเสียงหัวเราะ ร้องเพลง หรือแสดงอารมณ์ได้
การประเมินแบบจำลอง
จากการทดสอบโดยใช้เกณฑ์มาตรฐานทั่วไป GPT-4o แสดงประสิทธิภาพเทียบเท่า GPT-4 Turbo ในด้านปัญญาประดิษฐ์ที่เกี่ยวข้องกับการประมวลผลข้อความ การใช้เหตุผล และการเขียนโค้ด นอกจากนี้ ยังสร้างมาตรฐานใหม่สำหรับความสามารถในการประมวลผลภาษาหลากหลายรูปแบบ เสียง และภาพ
GPT-4o บรรลุคะแนนสูงสุดใหม่ 88.7% ในการทดสอบ 0-shot COT MMLU (คำถามความรู้ทั่วไป) การประเมินผลเหล่านี้รวบรวมโดยใช้ไลบรารี simple evals ใหม่ของ OpenAI นอกจากนี้ ในการทดสอบ 5-shot no-CoT MMLU แบบดั้งเดิม GPT-4o บรรลุคะแนนสูงสุดใหม่ 87.2% (หมายเหตุ: Llama3 400b ยังอยู่ในระหว่างการฝึกอบรม)
โทเค็นภาษา
20 ภาษาที่ได้รับการอัปเกรดประสิทธิภาพการบีบอัดโทเค็นโดย tokenizer ใหม่ของ GPT-4o นั้น ถูกเลือกมาเพื่อเป็นตัวแทนภาษาตัวอย่างจากกลุ่มภาษาต่างๆ ดังนี้
- ภาษาอินโด-อารยัน: ภาษาฮินดี ภาษาอูรดู ภาษาคุชราต ภาษาปัญจาบ ภาษาเบงกอล ภาษาโอริยา ภาษาเนปาลี ภาษามราฐี ภาษาสิงหล
- ภาษากรุงโรมานซ์: ภาษาสเปน ภาษาฝรั่งเศส ภาษาโปรตุเกส ภาษาอิตาลี ภาษารोमेनिया
- ภาษาเจอร์แมนิก: ภาษาเยอรมัน ภาษาดัตช์ ภาษาอังกฤษ
- ภาษาสลาฟ: ภาษารัสเซีย
- ภาษาอื่นๆ: ภาษาจีน ภาษาญี่ปุ่น ภาษาเกาหลี ภาษาอาหรับ
ความปลอดภัยและข้อจำกัดของโมเดล
GPT-4o ถูกออกแบบมาให้มีความปลอดภัยโดยธรรมชาติ ครอบคลุมทุกแง่มุมของการทำงาน ผ่านกลไกต่างๆ ดังนี้:
- การกรองข้อมูลการฝึกอบรม: ข้อมูลที่ใช้ฝึกโมเดล GPT-4o จะผ่านการกรองอย่างละเอียดเพื่อกำจัดเนื้อหาที่ไม่เหมาะสมหรือเป็นอันตราย
- การปรับแต่งพฤติกรรมโมเดลหลังการฝึกอบรม: โมเดล GPT-4o จะได้รับการปรับแต่งพฤติกรรมหลังการฝึกอบรมเพื่อป้องกันการสร้างเนื้อหาที่ไม่เหมาะสมหรือเป็นอันตราย
- ระบบความปลอดภัยสำหรับเสียง: OpenAI ได้พัฒนาระบบความปลอดภัยใหม่เพื่อควบคุมการออกเสียงของ GPT-4o ป้องกันไม่ให้โมเดลสร้างเสียงพูดที่ไม่เหมาะสมหรือเป็นอันตราย
OpenAI ได้ประเมินความปลอดภัยของ GPT-4o ตามกรอบการเตรียมความพร้อม (Preparedness Framework) และสอดคล้องกับข้อผูกพันโดยสมัครใจ ผลการประเมินด้านไซเบอร์ซีเคียวริตี้ (Cybersecurity) สารเคมี-ชีวภาพ-รังสี-นิวเคลียร์ (CBRN) การโน้มน้าว (Persuasion) และความเป็นอิสระของโมเดล (Model Autonomy) แสดงว่า GPT-4o ไม่มีความเสี่ยงสูง ในหมวดหมู่ใดเลย
กระบวนการประเมิน ประกอบด้วยการทดสอบโดยอัตโนมัติและการประเมินโดยผู้เชี่ยวชาญ ตลอดกระบวนการฝึกอบรมโมเดล ทีมงานได้ทดสอบทั้งเวอร์ชันก่อนและหลังการปรับใช้มาตรการความปลอดภัย โดยใช้การปรับแต่งพิเศษ (custom fine-tuning) และคำกระตุ้น (prompts) เพื่อประเมินความสามารถของโมเดลได้ดียิ่งขึ้น
นอกเหนือจากการประเมินภายใน OpenAI ยังได้จัดกระบวนการทดสอบแบบสมมติ (red teaming) ร่วมกับผู้เชี่ยวชาญภายนอกกว่า 70 ท่าน ครอบคลุมสาขาต่างๆ เช่น จิตวิทยาสังคม อคติและความเป็นธรรม ข้อมูลเท็จ เพื่อระบุความเสี่ยงที่อาจเกิดขึ้นจากการเพิ่มความสามารถด้านภาพและเสียงเข้ามาใน GPT-4o
ผลลัพธ์ที่ได้จากการทดสอบเหล่านี้ นำไปใช้ในการปรับปรุงมาตรการความปลอดภัยของ GPT-4o เพื่อให้ผู้ใช้งานสามารถโต้ตอบกับโมเดลได้อย่างปลอดภัยยิ่งขึ้น OpenAI ยังคงมุ่งมั่นที่จะค้นหาและลดทอนความเสี่ยงใหม่ๆ ที่อาจเกิดขึ้นอย่างต่อเนื่อง
OpenAI รับทราบถึงความเสี่ยงรูปแบบใหม่ที่อาจเกิดขึ้นจากความสามารถด้านเสียงของ GPT-4o ในวันนี้ บริษัทฯ ได้เปิดตัวการทำงานกับข้อมูลข้อความและรูปภาพเป็นทั้งอินพุตและเอาต์พุต ส่วนการทำงานกับเสียง ทั้งอินพุตและเอาต์พุตนั้น จะทยอยเปิดตัวในอีกไม่กี่สัปดาห์หรือเดือนข้างหน้า โดยอยู่ในระหว่างการพัฒนาโครงสร้างพื้นฐานด้านเทคนิค การใช้งานหลังการฝึกอบรม และการสร้างความปลอดภัยที่จำเป็น
จากการทดสอบและพัฒนา GPT-4o พบข้อจำกัดหลายประการที่ส่งผลต่อโมเดลทุกแง่มุม ดังนี้:
1. ความเสี่ยงด้านความปลอดภัย:
- การสร้างเนื้อหาที่เป็นอันตราย: โมเดลมีความเสี่ยงที่จะสร้างเนื้อหาที่เป็นอันตราย เช่น เนื้อหาที่แสดงความเกลียดชัง เนื้อหาที่รุนแรง เนื้อหาที่ผิดกฎหมาย
- การหลอกลวง: โมเดลอาจถูกใช้เพื่อสร้างเนื้อหาที่หลอกลวง เช่น ข่าวปลอม ข้อมูลเท็จ กลยุทธ์โฆษณาชวนเชื่อ
- การละเมิดความเป็นส่วนตัว: โมเดลอาจถูกใช้เพื่อสร้างเนื้อหาที่ละเมิดความเป็นส่วนตัว เช่น ข้อมูลส่วนบุคคลที่ละเอียดอ่อน
- การถูกโจมตีทางไซเบอร์: โมเดลอาจถูกโจมตีทางไซเบอร์ เช่น การถูกแฮ็ก การถูกควบคุมโดยผู้ไม่หวังดี
2. ปัญหาด้านจริยธรรม:
- อคติ: โมเดลอาจมีความลำเอียงสะท้อนอคติที่มีอยู่ในข้อมูลที่ใช้ฝึกอบรม
- การเลือกปฏิบัติ: โมเดลอาจถูกใช้เพื่อเลือกปฏิบัติต่อบุคคลหรือกลุ่มบุคคลบางกลุ่ม
- การล่วงละเมิดสิทธิมนุษยชน: โมเดลอาจถูกใช้เพื่อล่วงละเมิดสิทธิมนุษยชน เช่น การจำกัดเสรีภาพในการแสดงออก
3. ข้อจำกัดทางเทคนิค:
- ความซับซ้อน: โมเดลมีความซับซ้อนสูง ใช้งานและทำความเข้าใจยาก
- ความต้องการทรัพยากร: โมเดลต้องการทรัพยากรในการประมวลผลจำนวนมาก
- ความถูกต้อง: โมเดลอาจให้ผลลัพธ์ที่ไม่ถูกต้องหรือคลาดเคลื่อน
4. ข้อจำกัดด้านข้อมูล:
- ความต้องการข้อมูล: โมเดลต้องการข้อมูลจำนวนมากในการฝึกอบรม
- คุณภาพข้อมูล: โมเดลมีประสิทธิภาพ ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ฝึกอบรม
- ความลำเอียงของข้อมูล: โมเดลอาจมีความลำเอียงสะท้อนอคติที่มีอยู่ในข้อมูลที่ใช้ฝึกอบรม
OpenAI มุ่งมั่นที่จะแก้ไขข้อจำกัดเหล่านี้ โดยการวิจัยและพัฒนาโมเดลอย่างต่อเนื่อง รวมถึงการทำงานร่วมกับผู้เชี่ยวชาญด้านต่างๆ เพื่อให้มั่นใจว่า GPT-4o ถูกใช้งานอย่างปลอดภัย มีความรับผิดชอบ และเป็นประโยชน์ต่อสังคม
ความพร้อมใช้งานของโมเดล
OpenAI เปิดตัว GPT-4o ซึ่งเป็นความก้าวหน้าล่าสุดในการผลักดันขีดจำกัดของการเรียนรู้เชิงลึก (deep learning) โดยมุ่งเน้นไปที่ประโยชน์ใช้สอยในทางปฏิบัติ บริษัทฯ ใช้เวลากว่า 2 ปีในการปรับปรุงประสิทธิภาพทุกระดับของระบบ ผลลัพธ์เบื้องต้นคือการนำเสนอโมเดลระดับ GPT-4 ให้ใช้งานได้อย่างแพร่หลายมากขึ้น ความสามารถของ GPT-4o จะทยอยเปิดตัวตามลำดับ (โดยวันนี้ทีมงานทดสอบภายในจะสามารถเข้าถึงระบบได้ก่อน)
การเปิดตัว GPT-4o แบ่งเป็น 2 ส่วน
- สำหรับผู้ใช้งานทั่วไป:
- ฟีเจอร์ข้อความและรูปภาพของ GPT-4o เริ่มต้นใช้งานได้ใน ChatGPT ตั้งแต่วันนี้
- GPT-4o มีให้ใช้งานในแพ็กเกจฟรี และแพ็กเกจ Plus ที่มีจำนวนข้อความสูงสุดเพิ่มขึ้น 5 เท่า
- OpenAI จะทยอยเปิดตัว Voice Mode เวอร์ชันใหม่ที่ใช้ GPT-4o ในรูปแบบ Alpha สำหรับผู้ใช้ ChatGPT Plus ในอีกไม่กี่สัปดาห์ข้างหน้า
- สำหรับนักพัฒนา:
- นักพัฒนาสามารถเข้าถึง GPT-4o ผ่าน API ในรูปแบบโมเดลข้อความและภาพ
- GPT-4o เร็วกว่า 2 เท่า ราคาถูกกว่าครึ่ง และมีอัตราการใช้งานสูงสุดมากกว่า 5 เท่าเมื่อเทียบกับ GPT-4 Turbo
- OpenAI วางแผนที่จะเปิดตัวการรองรับความสามารถด้านเสียงและวิดีโอใหม่ของ GPT-4o ให้กับกลุ่มพันธมิตรที่ได้รับความไว้วางใจจำนวนน้อยภายใน API ในอีกไม่กี่สัปดาห์ข้างหน้า
ที่มา openai