OpenAI องค์กรวิจัยปัญญาประดิษฐ์ชั้นนำ ประกาศเปิดตัว GPT-4o ซึ่งเป็นการพัฒนาต่อยอดจาก GPT-4 โมเดลภาษาที่ขับเคลื่อนผลิตภัณฑ์หลักอย่าง ChatGPT

GPT-4o คือความก้าวหน้าอีกขั้นสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยสามารถรับข้อมูลเข้าได้หลากหลายรูปแบบ ทั้งข้อความ เสียง รูปภาพ และวิดีโอ รวมถึงสร้างสรรค์ผลลัพธ์เป็นข้อความ เสียง และรูปภาพได้เช่นกัน จุดเด่นคือ ความเร็วในการตอบสนองต่อข้อมูลเสียง ซึ่งใช้เวลาเพียง 232 มิลลิวินาทีโดยเฉลี่ย (ใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา)

นอกจากนี้ ยังเทียบเท่าประสิทธิภาพของ GPT-4 Turbo ในการประมวลผลข้อความภาษาอังกฤษและโค้ด รวมถึงมีความสามารถในการประมวลผลข้อความภาษาอื่น ๆ ดีขึ้นอย่างมาก ขณะเดียวกันยังทำงานได้เร็วกว่าและมีค่าใช้จ่ายผ่าน API ถูกกว่า 50% เมื่อเทียบกับรุ่นก่อนหน้า นอกจากนี้ GPT-4o ยังมีความโดดเด่นในด้านการทำความเข้าใจข้อมูลภาพและเสียงมากกว่ารุ่นอื่น ๆ ที่มีอยู่

โดยก่อนหน้านี้ การใช้ Voice Mode เพื่อสนทนากับ ChatGPT จะมีความล่าช้า โดยใช้เวลาเฉลี่ย 2.8 วินาทีสำหรับ GPT-3.5 และ 5.4 วินาทีสำหรับ GPT-4 สาเหตุที่ทำให้เกิดความล่าช้านี้ เนื่องจาก Voice Mode เป็นระบบที่ประกอบด้วยโมเดลแยกกัน 3 ตัว ตัวแรกเป็นโมเดลพื้นฐานที่แปลงเสียงเป็นข้อความ ตัวที่สองคือ GPT-3.5 หรือ GPT-4 ที่ทำหน้าที่ประมวลผลข้อความเข้าและออกเป็นข้อความอีกครั้ง และตัวสุดท้ายเป็นโมเดลพื้นฐานอีกตัวที่แปลงข้อความกลับไปเป็นเสียง ด้วยกระบวนการแบบนี้ ทำให้ GPT-4 ซึ่งเป็นโมเดลหลักสูญเสียข้อมูลไปมาก เนื่องจากไม่สามารถวิเคราะห์น้ำเสียง เสียงของผู้พูดหลายคน หรือเสียงรบกวนเบื้องหลังได้โดยตรง รวมถึงไม่สามารถสร้างเสียงหัวเราะ ร้องเพลง หรือแสดงอารมณ์ได้

การประเมินแบบจำลอง

จากการทดสอบโดยใช้เกณฑ์มาตรฐานทั่วไป GPT-4o แสดงประสิทธิภาพเทียบเท่า GPT-4 Turbo ในด้านปัญญาประดิษฐ์ที่เกี่ยวข้องกับการประมวลผลข้อความ การใช้เหตุผล และการเขียนโค้ด นอกจากนี้ ยังสร้างมาตรฐานใหม่สำหรับความสามารถในการประมวลผลภาษาหลากหลายรูปแบบ เสียง และภาพ

GPT-4o บรรลุคะแนนสูงสุดใหม่ 88.7% ในการทดสอบ 0-shot COT MMLU (คำถามความรู้ทั่วไป) การประเมินผลเหล่านี้รวบรวมโดยใช้ไลบรารี simple evals ใหม่ของ OpenAI นอกจากนี้ ในการทดสอบ 5-shot no-CoT MMLU แบบดั้งเดิม GPT-4o บรรลุคะแนนสูงสุดใหม่ 87.2% (หมายเหตุ: Llama3 400b ยังอยู่ในระหว่างการฝึกอบรม)

โทเค็นภาษา
20 ภาษาที่ได้รับการอัปเกรดประสิทธิภาพการบีบอัดโทเค็นโดย tokenizer ใหม่ของ GPT-4o นั้น ถูกเลือกมาเพื่อเป็นตัวแทนภาษาตัวอย่างจากกลุ่มภาษาต่างๆ ดังนี้

ภาษาอินโด-อารยัน: ภาษาฮินดี ภาษาอูรดู ภาษาคุชราต ภาษาปัญจาบ ภาษาเบงกอล ภาษาโอริยา ภาษาเนปาลี ภาษามราฐี ภาษาสิงหล
ภาษากรุงโรมานซ์: ภาษาสเปน ภาษาฝรั่งเศส ภาษาโปรตุเกส ภาษาอิตาลี ภาษารोमेनिया
ภาษาเจอร์แมนิก: ภาษาเยอรมัน ภาษาดัตช์ ภาษาอังกฤษ
ภาษาสลาฟ: ภาษารัสเซีย
ภาษาอื่นๆ: ภาษาจีน ภาษาญี่ปุ่น ภาษาเกาหลี ภาษาอาหรับ

ความปลอดภัยและข้อจำกัดของโมเดล
GPT-4o ถูกออกแบบมาให้มีความปลอดภัยโดยธรรมชาติ ครอบคลุมทุกแง่มุมของการทำงาน ผ่านกลไกต่างๆ ดังนี้:

การกรองข้อมูลการฝึกอบรม: ข้อมูลที่ใช้ฝึกโมเดล GPT-4o จะผ่านการกรองอย่างละเอียดเพื่อกำจัดเนื้อหาที่ไม่เหมาะสมหรือเป็นอันตราย

การปรับแต่งพฤติกรรมโมเดลหลังการฝึกอบรม: โมเดล GPT-4o จะได้รับการปรับแต่งพฤติกรรมหลังการฝึกอบรมเพื่อป้องกันการสร้างเนื้อหาที่ไม่เหมาะสมหรือเป็นอันตราย

ระบบความปลอดภัยสำหรับเสียง: OpenAI ได้พัฒนาระบบความปลอดภัยใหม่เพื่อควบคุมการออกเสียงของ GPT-4o ป้องกันไม่ให้โมเดลสร้างเสียงพูดที่ไม่เหมาะสมหรือเป็นอันตราย

OpenAI ได้ประเมินความปลอดภัยของ GPT-4o ตามกรอบการเตรียมความพร้อม (Preparedness Framework) และสอดคล้องกับข้อผูกพันโดยสมัครใจ ผลการประเมินด้านไซเบอร์ซีเคียวริตี้ (Cybersecurity) สารเคมี-ชีวภาพ-รังสี-นิวเคลียร์ (CBRN) การโน้มน้าว (Persuasion) และความเป็นอิสระของโมเดล (Model Autonomy) แสดงว่า GPT-4o ไม่มีความเสี่ยงสูง ในหมวดหมู่ใดเลย

กระบวนการประเมิน ประกอบด้วยการทดสอบโดยอัตโนมัติและการประเมินโดยผู้เชี่ยวชาญ ตลอดกระบวนการฝึกอบรมโมเดล ทีมงานได้ทดสอบทั้งเวอร์ชันก่อนและหลังการปรับใช้มาตรการความปลอดภัย โดยใช้การปรับแต่งพิเศษ (custom fine-tuning) และคำกระตุ้น (prompts) เพื่อประเมินความสามารถของโมเดลได้ดียิ่งขึ้น

นอกเหนือจากการประเมินภายใน OpenAI ยังได้จัดกระบวนการทดสอบแบบสมมติ (red teaming) ร่วมกับผู้เชี่ยวชาญภายนอกกว่า 70 ท่าน ครอบคลุมสาขาต่างๆ เช่น จิตวิทยาสังคม อคติและความเป็นธรรม ข้อมูลเท็จ เพื่อระบุความเสี่ยงที่อาจเกิดขึ้นจากการเพิ่มความสามารถด้านภาพและเสียงเข้ามาใน GPT-4o

ผลลัพธ์ที่ได้จากการทดสอบเหล่านี้ นำไปใช้ในการปรับปรุงมาตรการความปลอดภัยของ GPT-4o เพื่อให้ผู้ใช้งานสามารถโต้ตอบกับโมเดลได้อย่างปลอดภัยยิ่งขึ้น OpenAI ยังคงมุ่งมั่นที่จะค้นหาและลดทอนความเสี่ยงใหม่ๆ ที่อาจเกิดขึ้นอย่างต่อเนื่อง

OpenAI รับทราบถึงความเสี่ยงรูปแบบใหม่ที่อาจเกิดขึ้นจากความสามารถด้านเสียงของ GPT-4o ในวันนี้ บริษัทฯ ได้เปิดตัวการทำงานกับข้อมูลข้อความและรูปภาพเป็นทั้งอินพุตและเอาต์พุต ส่วนการทำงานกับเสียง ทั้งอินพุตและเอาต์พุตนั้น จะทยอยเปิดตัวในอีกไม่กี่สัปดาห์หรือเดือนข้างหน้า โดยอยู่ในระหว่างการพัฒนาโครงสร้างพื้นฐานด้านเทคนิค การใช้งานหลังการฝึกอบรม และการสร้างความปลอดภัยที่จำเป็น

จากการทดสอบและพัฒนา GPT-4o พบข้อจำกัดหลายประการที่ส่งผลต่อโมเดลทุกแง่มุม ดังนี้:

1. ความเสี่ยงด้านความปลอดภัย:

การสร้างเนื้อหาที่เป็นอันตราย: โมเดลมีความเสี่ยงที่จะสร้างเนื้อหาที่เป็นอันตราย เช่น เนื้อหาที่แสดงความเกลียดชัง เนื้อหาที่รุนแรง เนื้อหาที่ผิดกฎหมาย
การหลอกลวง: โมเดลอาจถูกใช้เพื่อสร้างเนื้อหาที่หลอกลวง เช่น ข่าวปลอม ข้อมูลเท็จ กลยุทธ์โฆษณาชวนเชื่อ
การละเมิดความเป็นส่วนตัว: โมเดลอาจถูกใช้เพื่อสร้างเนื้อหาที่ละเมิดความเป็นส่วนตัว เช่น ข้อมูลส่วนบุคคลที่ละเอียดอ่อน
การถูกโจมตีทางไซเบอร์: โมเดลอาจถูกโจมตีทางไซเบอร์ เช่น การถูกแฮ็ก การถูกควบคุมโดยผู้ไม่หวังดี

2. ปัญหาด้านจริยธรรม:

อคติ: โมเดลอาจมีความลำเอียงสะท้อนอคติที่มีอยู่ในข้อมูลที่ใช้ฝึกอบรม
การเลือกปฏิบัติ: โมเดลอาจถูกใช้เพื่อเลือกปฏิบัติต่อบุคคลหรือกลุ่มบุคคลบางกลุ่ม
การล่วงละเมิดสิทธิมนุษยชน: โมเดลอาจถูกใช้เพื่อล่วงละเมิดสิทธิมนุษยชน เช่น การจำกัดเสรีภาพในการแสดงออก

3. ข้อจำกัดทางเทคนิค:

ความซับซ้อน: โมเดลมีความซับซ้อนสูง ใช้งานและทำความเข้าใจยาก
ความต้องการทรัพยากร: โมเดลต้องการทรัพยากรในการประมวลผลจำนวนมาก
ความถูกต้อง: โมเดลอาจให้ผลลัพธ์ที่ไม่ถูกต้องหรือคลาดเคลื่อน

4. ข้อจำกัดด้านข้อมูล:

ความต้องการข้อมูล: โมเดลต้องการข้อมูลจำนวนมากในการฝึกอบรม
คุณภาพข้อมูล: โมเดลมีประสิทธิภาพ ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ฝึกอบรม
ความลำเอียงของข้อมูล: โมเดลอาจมีความลำเอียงสะท้อนอคติที่มีอยู่ในข้อมูลที่ใช้ฝึกอบรม

OpenAI มุ่งมั่นที่จะแก้ไขข้อจำกัดเหล่านี้ โดยการวิจัยและพัฒนาโมเดลอย่างต่อเนื่อง รวมถึงการทำงานร่วมกับผู้เชี่ยวชาญด้านต่างๆ เพื่อให้มั่นใจว่า GPT-4o ถูกใช้งานอย่างปลอดภัย มีความรับผิดชอบ และเป็นประโยชน์ต่อสังคม

ความพร้อมใช้งานของโมเดล
OpenAI เปิดตัว GPT-4o ซึ่งเป็นความก้าวหน้าล่าสุดในการผลักดันขีดจำกัดของการเรียนรู้เชิงลึก (deep learning) โดยมุ่งเน้นไปที่ประโยชน์ใช้สอยในทางปฏิบัติ บริษัทฯ ใช้เวลากว่า 2 ปีในการปรับปรุงประสิทธิภาพทุกระดับของระบบ ผลลัพธ์เบื้องต้นคือการนำเสนอโมเดลระดับ GPT-4 ให้ใช้งานได้อย่างแพร่หลายมากขึ้น ความสามารถของ GPT-4o จะทยอยเปิดตัวตามลำดับ (โดยวันนี้ทีมงานทดสอบภายในจะสามารถเข้าถึงระบบได้ก่อน)

การเปิดตัว GPT-4o แบ่งเป็น 2 ส่วน

สำหรับผู้ใช้งานทั่วไป:
- ฟีเจอร์ข้อความและรูปภาพของ GPT-4o เริ่มต้นใช้งานได้ใน ChatGPT ตั้งแต่วันนี้
- GPT-4o มีให้ใช้งานในแพ็กเกจฟรี และแพ็กเกจ Plus ที่มีจำนวนข้อความสูงสุดเพิ่มขึ้น 5 เท่า
- OpenAI จะทยอยเปิดตัว Voice Mode เวอร์ชันใหม่ที่ใช้ GPT-4o ในรูปแบบ Alpha สำหรับผู้ใช้ ChatGPT Plus ในอีกไม่กี่สัปดาห์ข้างหน้า
สำหรับนักพัฒนา:
- นักพัฒนาสามารถเข้าถึง GPT-4o ผ่าน API ในรูปแบบโมเดลข้อความและภาพ
- GPT-4o เร็วกว่า 2 เท่า ราคาถูกกว่าครึ่ง และมีอัตราการใช้งานสูงสุดมากกว่า 5 เท่าเมื่อเทียบกับ GPT-4 Turbo
- OpenAI วางแผนที่จะเปิดตัวการรองรับความสามารถด้านเสียงและวิดีโอใหม่ของ GPT-4o ให้กับกลุ่มพันธมิตรที่ได้รับความไว้วางใจจำนวนน้อยภายใน API ในอีกไม่กี่สัปดาห์ข้างหน้า