ทีมวิจัยด้าน Audiocraft ของ Meta ได้เพิ่งเปิดตัว MusicGen ซึ่งเป็นโมเดลการเรียนรู้ลึกโดยใช้เทคนิค deep learning และสามารถสร้างเพลงใหม่จากข้อความที่ระบุและสามารถสอดตัวกับเพลงที่มีอยู่ได้ด้วย การรายงานจาก The Decoder รายงานไว้ว่ามันคล้ายกับ ChatGPT แต่ใช้สำหรับเสียงเพลง โดยคุณสามารถอธิบายลักษณะของเพลงที่คุณต้องการได้ และสามารถใส่เพลงที่มีอยู่ได้ (ตัวเลือก) แล้วคลิกที่ "สร้าง" หลังจากผ่านเวลาไปสักพัก (ประมาณ 160 วินาทีในกรณีของฉัน) มันจะสร้างเพลงสั้นๆ ใหม่ๆ จากข้อความที่คุณระบุและท่องโครงของเพลง
เว็บไซต์ตัวอย่างบน Facebook's Hugging Face AI ช่วยให้คุณอธิบายเพลงของคุณโดยให้ตัวอย่างเช่น "เพลงดนตรีป๊อปขับขี่ในยุค 80 พร้อมกับกลองกั้นและซินธ์แพดในพื้นหลัง" คุณสามารถ "กำหนดเงื่อนไข" ให้เพลงนั้นในส่วนของเพลงที่มีอยู่สูงสุด 30 วินาที และคุณสามารถคลิก "สร้าง" เพื่อให้มันสร้างชิ้นส่วนที่มีคุณภาพสูงได้ยาวถึง 12 วินาที
ทีมวิจัยได้ใช้เพลงที่มีลิขสิทธิ์มากถึง 20,000 ชั่วโมงในการฝึกฝน รวมถึงเพลงที่มีคุณภาพสูง 10,000 เพลงจากชุดข้อมูลภายในและรวมถึงเพลงจาก Shutterstock และ Pond5 ในการทำให้มันเร็วขึ้น พวกเขาใช้เครื่องมือตัดเสียง EnCodec ที่มีความถี่ 32Khz ของ Meta เพื่อสร้างชิ้นเล็กๆ ของเพลงที่สามารถประมวลผลได้พร้อมกัน "ต่างจากวิธีการที่มีอยู่ในเช่น MusicLM, MusicGen ไม่ต้องการการแสดงตัวที่ตนเองซึ่งไม่เป็นการควบคุมด้านความหมาย [และมี] เพียง 50 ขั้นตอนการทำงานอัตโนมัติต่อวินาทีของเสียง" นักวิศวกรศาสตร์เครือข่ายของ Hugging Face ชื่อ Ahsen Khaliq แจ้งในทวีต
We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
— Felix Kreuk (@FelixKreuk) June 9, 2023
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf
เดือนที่แล้ว Google ได้เปิดตัวเครื่องมือสร้างเพลงที่คล้ายกันชื่อ MusicLM แต่ MusicGen ดูเหมือนสร้างผลลัพธ์ที่ดีกว่านิดหน่อย ในหน้าตัวอย่าง นักวิจัยเปรียบเทียบผลลัพธ์ของ MusicGen กับ MusicLM และโมเดลอื่นๆ อย่าง Riffusion และ Musai เพื่อพิสูจน์จุดดังกล่าว สามารถใช้งานบนเครื่องคอมพิวเตอร์ส่วนตัว (แนะนำให้ใช้ GPU ที่มี RAM อย่างน้อย 16GB) และมีให้ใช้งานในสี่ขนาดโมเดล ตั้งแต่เล็ก (300 ล้านพารามิเตอร์) ถึงขนาดใหญ่ (3.3 พันล้านพารามิเตอร์) — โดยโมเดลขนาดใหญ่นั้นมีศักยภาพในการสร้างเพลงที่ซับซ้อนมากที่สุด
เช่นเคยกล่าวมา MusicGen เป็นโอเพ่นซอร์สและสามารถใช้เพื่อสร้างเพลงเชิงพาณิชย์ได้ (ฉันลองใช้กับ "Ode to Joy" และแนวเพลงที่แนะนำหลายแนว และผลลัพธ์ที่ได้ดังกล่าวเป็น... แบบผสมผสาน) อย่างไรก็ตาม นี่เป็นตัวอย่างล่าสุดของความเร่งด่วนที่น่าทึ่งของการพัฒนา AI ในรอบหลายครึ่งปีที่ผ่านมา ด้วยโมเดลการเรียนรู้เชิงลึกที่คุกคามการรุกรานไปยังประเภทอื่น
ที่มา: https://publish.twitter.com/