OpenAI เพิ่มฟีเจอร์ให้ ChatGPT กับความสามารถใหม่ด้านเสียงและรูปภาพใน ChatGPT พร้อมอินเทอร์เฟซรูปแบบใหม่ที่ใช้งานง่ายยิ่งขึ้น
เสียงและรูปภาพช่วยให้ใช้ ChatGPT ในชีวิตได้มากขึ้น เช่น ถ่ายภาพสถานที่สำคัญขณะเดินทางและสนทนาเกี่ยวกับสิ่งที่น่าสนใจเกี่ยวกับสถานที่นั้น หรือเมื่อถึงบ้าน ถ่ายรูปตู้เย็นและตู้กับข้าวเพื่อดูว่ามื้อเย็นมีอะไรกินบ้าง และเราสามารถถามคำถามเพื่อดูสูตรอาหารได้ หลังอาหารเย็น ช่วยลูกของคุณแก้โจทย์คณิตศาสตร์โดยถ่ายรูปชุดโจทย์ได้
OpenAI จะเปิดตัวเสียงและรูปภาพใน ChatGPT ให้กับผู้ใช้ Plus และ Enterprise ในอีกสองสัปดาห์ข้างหน้า Voice กำลังจะมาใน iOS และ Android (เลือกใช้การตั้งค่าของคุณ) และรูปภาพจะพร้อมใช้งานในทุกแพลตฟอร์ม
ความสามารถด้านเสียงใหม่ขับเคลื่อนโดยโมเดลการอ่านออกเสียงข้อความแบบใหม่ ซึ่งสามารถสร้างเสียงที่เหมือนมนุษย์จากเพียงข้อความและคำพูดตัวอย่างเพียงไม่กี่วินาที โดย OpenAI ได้ร่วมมือกับนักพากย์มืออาชีพเพื่อสร้างเสียงแต่ละเสียง โดยใช้ Whisper ซึ่งเป็นระบบรู้จำคำพูดแบบโอเพ่นซอร์สเพื่อถอดเสียงคำพูดของคุณเป็นข้อความ
OpenAI เคยประกาศตั้งแต่ตอนเปิดตัว GPT-4 ว่ารองรับอินพุตเป็นภาพ ตอนนี้ก็เปิดโหมด multimodal ให้ใช้งานทั้ง GPT-3.5 และ GPT-4 (เรียกว่า GPT-4V) ฟีเจอร์นี้อ่านภาพได้หลากหลาย ตั้งแต่ภาพถ่ายปกติ จนถึงเอกสารที่มีภาพและข้อความประกอบกัน
ฟีเจอร์ทั้งสองส่วนทำให้สามารถใช้งานได้หลากหลายขึ้นมาก เช่น การแปลงคำพูดจากเสียงโดยตรงออกมาเป็นคำแปล หรือการใช้งานในแอป Be My Eyes ให้ ChatGPT มองภาพและบรรยายภาพที่เห็นออกมาเป็นเสียงให้กับผู้ที่มีการมองเห็นได้จำกัด
หากต้องการเริ่มต้นใช้งานด้วยเสียง ให้ไปที่การตั้งค่า → คุณสมบัติใหม่บนแอปมือถือ และเลือกใช้การสนทนาด้วยเสียง จากนั้นแตะปุ่มหูฟังที่มุมขวาบนของหน้าจอหลักแล้วเลือกเสียงที่คุณต้องการได้ถึง 5 เสียง