مدل جدید هوش مصنوعی «Sky-T1»

کد خبر : 9315

14:07

1403/10/24

سونیوز: مدل جدید «Sky-T1» یک مدل هوش مصنوعی منبع باز است که می‌توان آن را با کمتر از ۴۵۰ دلار آموزش داد.

به گزارش آژانس خبری سونیوز، توسعه مدل‌های موسوم به «هوش مصنوعی استدلالی» آسان‌تر و ارزان‌تر می‌شود.

به نقل از تک کرانچ، شرکت آمریکایی «نوآاسکای»(NovaSky) که حاصل همکاری گروهی از پژوهشگران «دانشگاه کالیفرنیا برکلی»(UC Berkeley) است، مدل «Sky-T1-32B-Preview» را منتشر کرد. این یک مدل استدلالی است که با نسخه o1 شرکت «اوپن‌ای‌آی»(OpenAI) در تعدادی از معیارهای کلیدی رقابت می‌کند. به نظر می‌رسد Sky-T1 اولین مدل استدلالی منبع باز واقعی است.

این گروه پژوهشی، مجموعه داده‌های مورد استفاده برای آموزش مدل و کد آموزشی آن را منتشر کردند. آنها در یک پست وبلاگ نوشتند: نکته قابل توجه این است که Sky-T1-32B-Preview با کمتر از ۴۵۰ دلار آموزش داده شد. این نشان می‌دهد که می‌توان توانایی‌های استدلالی سطح بالا را به صورت مقرون‌به‌صرفه و کارآمد تکرار کرد.

۴۵۰ دلار ممکن است چندان مقرون‌به‌صرفه به نظر نرسد اما چندی پیش بود که آموزش یک مدل با عملکرد قابل مقایسه با Sky-T1، میلیون‌ها دلار هزینه به بار آورد. داده‌های آموزشی مصنوعی یا داده های آموزشی تولید شده توسط مدل‌های دیگر، به کاهش هزینه‌ها کمک کرده‌اند. مدل «Palmyra X 004» که به تازگی توسط شرکت هوش مصنوعی «رایتر»(Writer) منتشر شده و تقریبا به طور کامل روی داده‌های مصنوعی آموزش دیده، طبق گزارش‌ها فقط ۷۰۰ هزار دلار برای توسعه هزینه داشته است.

موسسه فرهنگی هنری فصل هنر، مشاور و مجری پروژه های فرهنگی، هنری، رسانه ای و تبلیغاتی شماست. موسسه فرهنگی هنری به عنوان جامع ترین موسسه فرهنگی هنری شمالغرب کشور و اولین شرکت خلاق در حوزه صدا و تصویر با شعار « فقط تصور کن... ! » ، ایده ها و تصورات شما را ممکن می سازد.

ارتباط با موسسه فرهنگی هنری فصل هنر/ کلیک کنید.

برخلاف بیشتر مدل‌های هوش مصنوعی، مدل‌های استدلالی به ‌طور مؤثر خود را مورد بررسی قرار می‌دهند تا از برخی تله‌هایی که معمولا به مدل‌ها آسیب می‌رسانند، اجتناب کنند. مدل‌های استدلالی در مقایسه با مدل‌های غیر استدلالی معمولی، کمی بیشتر زمان می‌خواهند تا به راه‌ حل برسند. نکته مثبت این است که این مدل‌ها در حوزه‌هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر هستند.

پژوهشگران نوآاسکای گفتند که از مدل استدلال دیگری به نام «QwQ-32B-Preview» برای تولید داده‌های آموزشی اولیه Sky-T1 استفاده کرده‌اند. سپس، پژوهشگران به مدیریت ترکیب داده‌ها پرداختند و از GPT-4o-mini شرکت اوپن‌ای‌آی استفاده کردند تا داده‌ها را به صورت قالب قابل اجرا درآورند. آموزش Sky-T1 با ۳۲ میلیارد پارامتر حدود ۱۹ ساعت با استفاده از پردازنده گرافیکی H100 شرکت «انویدیا»(Nvidia) طول کشید.

به گفته گروه نوآاسکای، Sky-T1 در مجموعه‌ای از چالش‌های ریاضی سطح رقابتی، بهتر از نسخه پیش‌نمایش اولیه o1 عمل می‌کند و پیش‌نمایش o1 را در مجموعه‌ای از مشکلات دشوار یک ارزیابی کدنویسی شکست می‌دهد.