OpenAI เปิดตัว GPT-4o โมเดล AI สุดล้ำ พลิกโฉมการสร้างสรรค์เนื้อหา

OpenAI เปิดตัว GPT-4o โมเดล AI สุดล้ำ พลิกโฉมการสร้างสรรค์เนื้อหา


OpenAI องค์กรวิจัยปัญญาประดิษฐ์ชั้นนำ ประกาศเปิดตัว GPT-4o ซึ่งเป็นการพัฒนาต่อยอดจาก GPT-4 โมเดลภาษาที่ขับเคลื่อนผลิตภัณฑ์หลักอย่าง ChatGPT

GPT-4o คือความก้าวหน้าอีกขั้นสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยสามารถรับข้อมูลเข้าได้หลากหลายรูปแบบ ทั้งข้อความ เสียง รูปภาพ และวิดีโอ รวมถึงสร้างสรรค์ผลลัพธ์เป็นข้อความ เสียง และรูปภาพได้เช่นกัน จุดเด่นคือ ความเร็วในการตอบสนองต่อข้อมูลเสียง ซึ่งใช้เวลาเพียง 232 มิลลิวินาทีโดยเฉลี่ย (ใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา)

นอกจากนี้ ยังเทียบเท่าประสิทธิภาพของ GPT-4 Turbo ในการประมวลผลข้อความภาษาอังกฤษและโค้ด รวมถึงมีความสามารถในการประมวลผลข้อความภาษาอื่น ๆ ดีขึ้นอย่างมาก ขณะเดียวกันยังทำงานได้เร็วกว่าและมีค่าใช้จ่ายผ่าน API ถูกกว่า 50% เมื่อเทียบกับรุ่นก่อนหน้า นอกจากนี้ GPT-4o ยังมีความโดดเด่นในด้านการทำความเข้าใจข้อมูลภาพและเสียงมากกว่ารุ่นอื่น ๆ ที่มีอยู่

โดยก่อนหน้านี้ การใช้ Voice Mode เพื่อสนทนากับ ChatGPT จะมีความล่าช้า โดยใช้เวลาเฉลี่ย 2.8 วินาทีสำหรับ GPT-3.5 และ 5.4 วินาทีสำหรับ GPT-4 สาเหตุที่ทำให้เกิดความล่าช้านี้ เนื่องจาก Voice Mode เป็นระบบที่ประกอบด้วยโมเดลแยกกัน 3 ตัว ตัวแรกเป็นโมเดลพื้นฐานที่แปลงเสียงเป็นข้อความ ตัวที่สองคือ GPT-3.5 หรือ GPT-4 ที่ทำหน้าที่ประมวลผลข้อความเข้าและออกเป็นข้อความอีกครั้ง และตัวสุดท้ายเป็นโมเดลพื้นฐานอีกตัวที่แปลงข้อความกลับไปเป็นเสียง ด้วยกระบวนการแบบนี้ ทำให้ GPT-4 ซึ่งเป็นโมเดลหลักสูญเสียข้อมูลไปมาก เนื่องจากไม่สามารถวิเคราะห์น้ำเสียง เสียงของผู้พูดหลายคน หรือเสียงรบกวนเบื้องหลังได้โดยตรง รวมถึงไม่สามารถสร้างเสียงหัวเราะ ร้องเพลง หรือแสดงอารมณ์ได้

การประเมินแบบจำลอง

จากการทดสอบโดยใช้เกณฑ์มาตรฐานทั่วไป GPT-4o แสดงประสิทธิภาพเทียบเท่า GPT-4 Turbo ในด้านปัญญาประดิษฐ์ที่เกี่ยวข้องกับการประมวลผลข้อความ การใช้เหตุผล และการเขียนโค้ด นอกจากนี้ ยังสร้างมาตรฐานใหม่สำหรับความสามารถในการประมวลผลภาษาหลากหลายรูปแบบ เสียง และภาพ

GPT-4o บรรลุคะแนนสูงสุดใหม่ 88.7% ในการทดสอบ 0-shot COT MMLU (คำถามความรู้ทั่วไป) การประเมินผลเหล่านี้รวบรวมโดยใช้ไลบรารี simple evals ใหม่ของ OpenAI นอกจากนี้ ในการทดสอบ 5-shot no-CoT MMLU แบบดั้งเดิม GPT-4o บรรลุคะแนนสูงสุดใหม่ 87.2% (หมายเหตุ: Llama3 400b ยังอยู่ในระหว่างการฝึกอบรม)

โทเค็นภาษา
20 ภาษาที่ได้รับการอัปเกรดประสิทธิภาพการบีบอัดโทเค็นโดย tokenizer ใหม่ของ GPT-4o นั้น ถูกเลือกมาเพื่อเป็นตัวแทนภาษาตัวอย่างจากกลุ่มภาษาต่างๆ ดังนี้

  • ภาษาอินโด-อารยัน: ภาษาฮินดี ภาษาอูรดู ภาษาคุชราต ภาษาปัญจาบ ภาษาเบงกอล ภาษาโอริยา ภาษาเนปาลี ภาษามราฐี ภาษาสิงหล
  • ภาษากรุงโรมานซ์: ภาษาสเปน ภาษาฝรั่งเศส ภาษาโปรตุเกส ภาษาอิตาลี ภาษารोमेनिया
  • ภาษาเจอร์แมนิก: ภาษาเยอรมัน ภาษาดัตช์ ภาษาอังกฤษ
  • ภาษาสลาฟ: ภาษารัสเซีย
  • ภาษาอื่นๆ: ภาษาจีน ภาษาญี่ปุ่น ภาษาเกาหลี ภาษาอาหรับ

ความปลอดภัยและข้อจำกัดของโมเดล
GPT-4o ถูกออกแบบมาให้มีความปลอดภัยโดยธรรมชาติ ครอบคลุมทุกแง่มุมของการทำงาน ผ่านกลไกต่างๆ ดังนี้:

  • การกรองข้อมูลการฝึกอบรม: ข้อมูลที่ใช้ฝึกโมเดล GPT-4o จะผ่านการกรองอย่างละเอียดเพื่อกำจัดเนื้อหาที่ไม่เหมาะสมหรือเป็นอันตราย
  • การปรับแต่งพฤติกรรมโมเดลหลังการฝึกอบรม: โมเดล GPT-4o จะได้รับการปรับแต่งพฤติกรรมหลังการฝึกอบรมเพื่อป้องกันการสร้างเนื้อหาที่ไม่เหมาะสมหรือเป็นอันตราย
  • ระบบความปลอดภัยสำหรับเสียง: OpenAI ได้พัฒนาระบบความปลอดภัยใหม่เพื่อควบคุมการออกเสียงของ GPT-4o ป้องกันไม่ให้โมเดลสร้างเสียงพูดที่ไม่เหมาะสมหรือเป็นอันตราย

OpenAI ได้ประเมินความปลอดภัยของ GPT-4o ตามกรอบการเตรียมความพร้อม (Preparedness Framework) และสอดคล้องกับข้อผูกพันโดยสมัครใจ ผลการประเมินด้านไซเบอร์ซีเคียวริตี้ (Cybersecurity) สารเคมี-ชีวภาพ-รังสี-นิวเคลียร์ (CBRN) การโน้มน้าว (Persuasion) และความเป็นอิสระของโมเดล (Model Autonomy) แสดงว่า GPT-4o ไม่มีความเสี่ยงสูง ในหมวดหมู่ใดเลย

กระบวนการประเมิน ประกอบด้วยการทดสอบโดยอัตโนมัติและการประเมินโดยผู้เชี่ยวชาญ ตลอดกระบวนการฝึกอบรมโมเดล ทีมงานได้ทดสอบทั้งเวอร์ชันก่อนและหลังการปรับใช้มาตรการความปลอดภัย โดยใช้การปรับแต่งพิเศษ (custom fine-tuning) และคำกระตุ้น (prompts) เพื่อประเมินความสามารถของโมเดลได้ดียิ่งขึ้น

นอกเหนือจากการประเมินภายใน OpenAI ยังได้จัดกระบวนการทดสอบแบบสมมติ (red teaming) ร่วมกับผู้เชี่ยวชาญภายนอกกว่า 70 ท่าน ครอบคลุมสาขาต่างๆ เช่น จิตวิทยาสังคม อคติและความเป็นธรรม ข้อมูลเท็จ เพื่อระบุความเสี่ยงที่อาจเกิดขึ้นจากการเพิ่มความสามารถด้านภาพและเสียงเข้ามาใน GPT-4o

ผลลัพธ์ที่ได้จากการทดสอบเหล่านี้ นำไปใช้ในการปรับปรุงมาตรการความปลอดภัยของ GPT-4o เพื่อให้ผู้ใช้งานสามารถโต้ตอบกับโมเดลได้อย่างปลอดภัยยิ่งขึ้น OpenAI ยังคงมุ่งมั่นที่จะค้นหาและลดทอนความเสี่ยงใหม่ๆ ที่อาจเกิดขึ้นอย่างต่อเนื่อง

OpenAI รับทราบถึงความเสี่ยงรูปแบบใหม่ที่อาจเกิดขึ้นจากความสามารถด้านเสียงของ GPT-4o ในวันนี้ บริษัทฯ ได้เปิดตัวการทำงานกับข้อมูลข้อความและรูปภาพเป็นทั้งอินพุตและเอาต์พุต ส่วนการทำงานกับเสียง ทั้งอินพุตและเอาต์พุตนั้น จะทยอยเปิดตัวในอีกไม่กี่สัปดาห์หรือเดือนข้างหน้า โดยอยู่ในระหว่างการพัฒนาโครงสร้างพื้นฐานด้านเทคนิค การใช้งานหลังการฝึกอบรม และการสร้างความปลอดภัยที่จำเป็น

จากการทดสอบและพัฒนา GPT-4o พบข้อจำกัดหลายประการที่ส่งผลต่อโมเดลทุกแง่มุม ดังนี้:

1. ความเสี่ยงด้านความปลอดภัย:

  • การสร้างเนื้อหาที่เป็นอันตราย: โมเดลมีความเสี่ยงที่จะสร้างเนื้อหาที่เป็นอันตราย เช่น เนื้อหาที่แสดงความเกลียดชัง เนื้อหาที่รุนแรง เนื้อหาที่ผิดกฎหมาย
  • การหลอกลวง: โมเดลอาจถูกใช้เพื่อสร้างเนื้อหาที่หลอกลวง เช่น ข่าวปลอม ข้อมูลเท็จ กลยุทธ์โฆษณาชวนเชื่อ
  • การละเมิดความเป็นส่วนตัว: โมเดลอาจถูกใช้เพื่อสร้างเนื้อหาที่ละเมิดความเป็นส่วนตัว เช่น ข้อมูลส่วนบุคคลที่ละเอียดอ่อน
  • การถูกโจมตีทางไซเบอร์: โมเดลอาจถูกโจมตีทางไซเบอร์ เช่น การถูกแฮ็ก การถูกควบคุมโดยผู้ไม่หวังดี

2. ปัญหาด้านจริยธรรม:

  • อคติ: โมเดลอาจมีความลำเอียงสะท้อนอคติที่มีอยู่ในข้อมูลที่ใช้ฝึกอบรม
  • การเลือกปฏิบัติ: โมเดลอาจถูกใช้เพื่อเลือกปฏิบัติต่อบุคคลหรือกลุ่มบุคคลบางกลุ่ม
  • การล่วงละเมิดสิทธิมนุษยชน: โมเดลอาจถูกใช้เพื่อล่วงละเมิดสิทธิมนุษยชน เช่น การจำกัดเสรีภาพในการแสดงออก

3. ข้อจำกัดทางเทคนิค:

  • ความซับซ้อน: โมเดลมีความซับซ้อนสูง ใช้งานและทำความเข้าใจยาก
  • ความต้องการทรัพยากร: โมเดลต้องการทรัพยากรในการประมวลผลจำนวนมาก
  • ความถูกต้อง: โมเดลอาจให้ผลลัพธ์ที่ไม่ถูกต้องหรือคลาดเคลื่อน

4. ข้อจำกัดด้านข้อมูล:

  • ความต้องการข้อมูล: โมเดลต้องการข้อมูลจำนวนมากในการฝึกอบรม
  • คุณภาพข้อมูล: โมเดลมีประสิทธิภาพ ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ฝึกอบรม
  • ความลำเอียงของข้อมูล: โมเดลอาจมีความลำเอียงสะท้อนอคติที่มีอยู่ในข้อมูลที่ใช้ฝึกอบรม

OpenAI มุ่งมั่นที่จะแก้ไขข้อจำกัดเหล่านี้ โดยการวิจัยและพัฒนาโมเดลอย่างต่อเนื่อง รวมถึงการทำงานร่วมกับผู้เชี่ยวชาญด้านต่างๆ เพื่อให้มั่นใจว่า GPT-4o ถูกใช้งานอย่างปลอดภัย มีความรับผิดชอบ และเป็นประโยชน์ต่อสังคม

ความพร้อมใช้งานของโมเดล
OpenAI เปิดตัว GPT-4o ซึ่งเป็นความก้าวหน้าล่าสุดในการผลักดันขีดจำกัดของการเรียนรู้เชิงลึก (deep learning) โดยมุ่งเน้นไปที่ประโยชน์ใช้สอยในทางปฏิบัติ บริษัทฯ ใช้เวลากว่า 2 ปีในการปรับปรุงประสิทธิภาพทุกระดับของระบบ ผลลัพธ์เบื้องต้นคือการนำเสนอโมเดลระดับ GPT-4 ให้ใช้งานได้อย่างแพร่หลายมากขึ้น ความสามารถของ GPT-4o จะทยอยเปิดตัวตามลำดับ (โดยวันนี้ทีมงานทดสอบภายในจะสามารถเข้าถึงระบบได้ก่อน)

การเปิดตัว GPT-4o แบ่งเป็น 2 ส่วน

  • สำหรับผู้ใช้งานทั่วไป:
    • ฟีเจอร์ข้อความและรูปภาพของ GPT-4o เริ่มต้นใช้งานได้ใน ChatGPT ตั้งแต่วันนี้
    • GPT-4o มีให้ใช้งานในแพ็กเกจฟรี และแพ็กเกจ Plus ที่มีจำนวนข้อความสูงสุดเพิ่มขึ้น 5 เท่า
    • OpenAI จะทยอยเปิดตัว Voice Mode เวอร์ชันใหม่ที่ใช้ GPT-4o ในรูปแบบ Alpha สำหรับผู้ใช้ ChatGPT Plus ในอีกไม่กี่สัปดาห์ข้างหน้า
  • สำหรับนักพัฒนา:
    • นักพัฒนาสามารถเข้าถึง GPT-4o ผ่าน API ในรูปแบบโมเดลข้อความและภาพ
    • GPT-4o เร็วกว่า 2 เท่า ราคาถูกกว่าครึ่ง และมีอัตราการใช้งานสูงสุดมากกว่า 5 เท่าเมื่อเทียบกับ GPT-4 Turbo
    • OpenAI วางแผนที่จะเปิดตัวการรองรับความสามารถด้านเสียงและวิดีโอใหม่ของ GPT-4o ให้กับกลุ่มพันธมิตรที่ได้รับความไว้วางใจจำนวนน้อยภายใน API ในอีกไม่กี่สัปดาห์ข้างหน้า

 

ที่มา openai


รู้ยังรูปใน Google+ จะอยู่ใน Google Drive แล้ว
เมื่อ 30 มี.ค. 2558, Google Inc. ประกาศการทำงานในการเก็บข้อมูลรูปภาพ Google+ ว่าจะไปอยู่ใน Google Drive แล้ว เป็นที่สิ่งที่ทำให้ช่างภาพหรือผู้ที่รักกา...
Apple Vision Pro AR ที่จะเปิดตัวต้นปี 2024 ราคา 3,499 ดอลลาร์ หรือประมาณ 120,000 บาท
ในระหว่างงานWWDC 2023ในที่สุด Apple ก็ประกาศชุดหูฟังความจริงเสริมอย่างเป็นทางการ โดยบริษัทเรียกมันว่าApple Vision Proและจะอนุญาตให้เจ้าของโต้ตอบกับแ...
VR Inspiration “สร้างแรงบันดาลใจจากกรณีศึกษาดีๆ
หนึ่งในเทคโนโลยีที่มาแรงมากในปีนี้คงหนีไม่พ้น VR หรือ Virtual Reality ซึ่งสร้างประสบการณ์เสมือนให้กับผู้ใช้ได้เหมือนกับเข้าไปอยู่ในเหตุการณ์จริง ๆ ซึ...

Invoice
024609292
Line
Company