به گزارش سئو بوی به نقل از ایسنا، در بحبوحه رقابت شدید با شرکت هایی مانند «گوگل»، «سم آلتمن»(Sam Altman)، مدیرعامل شرکت «اوپن ای آی»(OpenAI) در تلاش جامع برای تسریع عرضه یک مدل جدید، «کد قرمز» صادر کرد. حال مدل هوش مصنوعی GPT 5.2 بطور رسمی عرضه شده است و افراد کنجکاو درحال بررسی توانایی های آن برای بروزرسانی طراحی مدلهای پیشرفته و کارهایی هستند که مدلهای زبانی بزرگ می توانند برای ما انجام دهند.
به نقل از فوربس، سخنگوی اوپن ای آی در اطلاعیه رسمی این مدل که روز پنجشنبه انتشار یافت، ضمن اشاره به عملکرد نسخه ۵.۲ در معیارهای SWE-Bench و آزمایش های ARC توضیح داد: این مدل در ایجاد صفحات گسترده، ساخت ارایه ها، نوشتن کد، درک تصاویر، درک متن های طولانی، استفاده از ابزارها و مدیریت پروژه های پیچیده و چندمرحله ای بهتر عمل می کند.
اوپن ای آی در قسمتی از این اطلاعیه اظهار نمود که پلت فرم های هوش مصنوعی «نوشن»(Notion)، «باکس»(Box)، «شاپیفای»(Shopify)، «هاروی»(Harvey) و «زوم»(Zoom) شاهد برتری GPT 5.2 در عملکرد پیشرفته استدلال بلند مدت بوده اند، «دیتابریکس»(Databricks)، «هکس»(Hex) و «تریپل ویل»(Triple Whale) از کار ماهرانه آن در علوم داده عاملی و وظایف تحلیل اسناد خوششان آمده است و «کاگنیشن»(Cognition)، «رپ»(Warp)، «چارلی لبز»(Charlie Labs)، «جت برینز»(JetBrains) و «اوگمنت کد»(Augment Code) شاهد عملکرد عالی این مدل در کدنویسی عاملی بوده اند.
اعضاء اوپن ای آی توضیح دادند که نسخه ۵.۲ را به منظور کمک به وظایف حرفه ای رایج و فراهم کردن ارزش اقتصادی بیشتر برای کاربران به وجود آورده اند. با آن چه یکی از منتقدان انتزاع قوی تر، تعادل و پاسخ های راهبردی شفاف تر و واقع گرایانه تر و اطلاعات مفهومی عمیق تر نامیده است، این مدل می تواند روی وظایفی مانند جداول سرمایه و برنامه ریزی نیروی کار تمرکز کند. این منتقد تصریح کرد نسخه ۵.۲ برای وظایفی که احتیاج به درجه بالایی از قابلیت های تحلیلی یا استدلال ریاضی دارند، عالی است.
از نظر ارزش، یک نظرسنجی سازمانی روی GPT اوپن ای آی نشان داد که مدلهای پیشین چیزی حدود ۴۰ تا ۶۰ دقیقه در روز برای کاربران حرفه ای صرفه جویی می کنند و انتظار می رود صرفه جویی ۵.۲ در زمان از این مقدار هم بیشتر باشد.
علاوه بر آزمون های SWE و ARC، روش های مشخص دیگری نیز جهت بررسی تکامل مدل وجود دارد. اوپن ای آی در اوایل امسال، مفهوم GDPVal را برجسته کرد و از ایده تولید ناخالص داخلی برای توضیح نقش مدلهای زبانی بزرگ در کسب و کار بهره برد. این شرکت اظهار نمود: ارزیابی های پیشین هوش مصنوعی مانند آزمون های دانشگاهی چالش برانگیز و چالش های رقابتی کدنویسی در پیشبرد مرزهای قابلیت استدلال مدل ضروری بوده اند، اما اغلب در نوع وظایفی که خیلی از افراد در کار روزمره خود انجام می دهند، کم می آورند. ما برای پر کردن این شکاف، درحال توسعه ارزیابی هایی هستیم که قابلیت های واقع بینانه تر و در رابطه با اقتصاد را بررسی می کنند.
تقریبا گویی این کد به صورت ویژه برای ChatGPT 5.2 نوشته شده و این همان چیزی است که اعضاء شرکت درباره ی قدرت این مدل تبلیغ می کنند. این کد، دامنه کاربرد مشخصی دارد. GDPVal مجموعه ای از ۴۴ شغل در ۹ صنعت برتر مؤثر در تولید ناخالص داخلی آمریکا را بهمراه ۱۳۲۰ وظیفه تخصصی پوشش می دهد.
بخش دیگری از آن چه اوپن ای آی درباره ی بررسی گسترده معیارهای GDPVal و کاربردی بودن آن در مقایسه با سایر معیارها می گوید، به این شرح است: GDPval هم از نظر واقع گرایی و هم از نظر تنوع وظایف مورد ارزیابی، متمایز است. برعکس سایر ارزیابی های در رابطه با ارزش اقتصادی که بر حوزه های ویژه تمرکز دارند، GDPval وظایف و مشاغل زیادی را پوشش می دهد و برعکس معیارهایی که شامل ایجاد مصنوعی وظایف به سبک یک امتحان یا آزمون دانشگاهی هستند، GDPval بر وظایف مبتنی بر نتایج قابل تحویل تمرکز می کند که یک کار یا محصول واقعی هستند یا یک محصول کاری مشابه به شمار می روند.
یکی دیگر از پیشرفت هایی که کاربران درباره ی نسخه ۵.۲ به آن اشاره می کنند، در ارتباط با یادگیری ماشینی کلاسیک است که مهندسان در آن توانایی یک برنامه را برای هم گرایی یا ادغام اطلاعات به روشی هدفمند بررسی کردند. روش های بسیاری برای فکر کردن درباره ی این مساله وجود دارد؛ از تحلیل چگونگی درک داده های بصری بوسیله ی یک ارگانیسم بیولوژیکی گرفته تا توجه به اینکه چه طور تغییرات ابعادی بر نتیجه توجه یک شبکه عصبی تأثیر می گذارند، اما بعضی از کاربران اولیه ادعا می کنند نسخه ۵.۲ در هم گرایی، انسجام و هدف قرار دادن نتیجه ای که منطقی است، بهتر عمل می کند. بعضی از انسان ها نیز در این مورد بهتر از دیگران هستند.
این موارد تنها بخشی از نکات شنیده شده درباره ی GPT 5.2 هستند و مطمئنا بروزرسانی های بسیاری برای آن ارایه خواهد شد.
منبع: سئو بوی
به نقل از فوربس، سخنگوی اوپن ای آی در اطلاعیه رسمی این مدل که روز پنجشنبه انتشار یافت، ضمن اشاره به عملکرد نسخه ۵.۲ در معیارهای SWE-Bench و آزمایش های ARC توضیح داد: این مدل در ایجاد صفحات گسترده، ساخت ارایه ها، نوشتن کد، درک تصاویر، درک متن های طولانی، استفاده از ابزارها و مدیریت پروژه های پیچیده و چندمرحله ای بهتر عمل می کند.
اوپن ای آی در قسمتی از این اطلاعیه اظهار نمود که پلت فرم های هوش مصنوعی «نوشن»(Notion)، «باکس»(Box)، «شاپیفای»(Shopify)، «هاروی»(Harvey) و «زوم»(Zoom) شاهد برتری GPT 5.2 در عملکرد پیشرفته استدلال بلند مدت بوده اند، «دیتابریکس»(Databricks)، «هکس»(Hex) و «تریپل ویل»(Triple Whale) از کار ماهرانه آن در علوم داده عاملی و وظایف تحلیل اسناد خوششان آمده است و «کاگنیشن»(Cognition)، «رپ»(Warp)، «چارلی لبز»(Charlie Labs)، «جت برینز»(JetBrains) و «اوگمنت کد»(Augment Code) شاهد عملکرد عالی این مدل در کدنویسی عاملی بوده اند.
اعضاء اوپن ای آی توضیح دادند که نسخه ۵.۲ را به منظور کمک به وظایف حرفه ای رایج و فراهم کردن ارزش اقتصادی بیشتر برای کاربران به وجود آورده اند. با آن چه یکی از منتقدان انتزاع قوی تر، تعادل و پاسخ های راهبردی شفاف تر و واقع گرایانه تر و اطلاعات مفهومی عمیق تر نامیده است، این مدل می تواند روی وظایفی مانند جداول سرمایه و برنامه ریزی نیروی کار تمرکز کند. این منتقد تصریح کرد نسخه ۵.۲ برای وظایفی که احتیاج به درجه بالایی از قابلیت های تحلیلی یا استدلال ریاضی دارند، عالی است.
از نظر ارزش، یک نظرسنجی سازمانی روی GPT اوپن ای آی نشان داد که مدلهای پیشین چیزی حدود ۴۰ تا ۶۰ دقیقه در روز برای کاربران حرفه ای صرفه جویی می کنند و انتظار می رود صرفه جویی ۵.۲ در زمان از این مقدار هم بیشتر باشد.
علاوه بر آزمون های SWE و ARC، روش های مشخص دیگری نیز جهت بررسی تکامل مدل وجود دارد. اوپن ای آی در اوایل امسال، مفهوم GDPVal را برجسته کرد و از ایده تولید ناخالص داخلی برای توضیح نقش مدلهای زبانی بزرگ در کسب و کار بهره برد. این شرکت اظهار نمود: ارزیابی های پیشین هوش مصنوعی مانند آزمون های دانشگاهی چالش برانگیز و چالش های رقابتی کدنویسی در پیشبرد مرزهای قابلیت استدلال مدل ضروری بوده اند، اما اغلب در نوع وظایفی که خیلی از افراد در کار روزمره خود انجام می دهند، کم می آورند. ما برای پر کردن این شکاف، درحال توسعه ارزیابی هایی هستیم که قابلیت های واقع بینانه تر و در رابطه با اقتصاد را بررسی می کنند.
تقریبا گویی این کد به صورت ویژه برای ChatGPT 5.2 نوشته شده و این همان چیزی است که اعضاء شرکت درباره ی قدرت این مدل تبلیغ می کنند. این کد، دامنه کاربرد مشخصی دارد. GDPVal مجموعه ای از ۴۴ شغل در ۹ صنعت برتر مؤثر در تولید ناخالص داخلی آمریکا را بهمراه ۱۳۲۰ وظیفه تخصصی پوشش می دهد.
بخش دیگری از آن چه اوپن ای آی درباره ی بررسی گسترده معیارهای GDPVal و کاربردی بودن آن در مقایسه با سایر معیارها می گوید، به این شرح است: GDPval هم از نظر واقع گرایی و هم از نظر تنوع وظایف مورد ارزیابی، متمایز است. برعکس سایر ارزیابی های در رابطه با ارزش اقتصادی که بر حوزه های ویژه تمرکز دارند، GDPval وظایف و مشاغل زیادی را پوشش می دهد و برعکس معیارهایی که شامل ایجاد مصنوعی وظایف به سبک یک امتحان یا آزمون دانشگاهی هستند، GDPval بر وظایف مبتنی بر نتایج قابل تحویل تمرکز می کند که یک کار یا محصول واقعی هستند یا یک محصول کاری مشابه به شمار می روند.
یکی دیگر از پیشرفت هایی که کاربران درباره ی نسخه ۵.۲ به آن اشاره می کنند، در ارتباط با یادگیری ماشینی کلاسیک است که مهندسان در آن توانایی یک برنامه را برای هم گرایی یا ادغام اطلاعات به روشی هدفمند بررسی کردند. روش های بسیاری برای فکر کردن درباره ی این مساله وجود دارد؛ از تحلیل چگونگی درک داده های بصری بوسیله ی یک ارگانیسم بیولوژیکی گرفته تا توجه به اینکه چه طور تغییرات ابعادی بر نتیجه توجه یک شبکه عصبی تأثیر می گذارند، اما بعضی از کاربران اولیه ادعا می کنند نسخه ۵.۲ در هم گرایی، انسجام و هدف قرار دادن نتیجه ای که منطقی است، بهتر عمل می کند. بعضی از انسان ها نیز در این مورد بهتر از دیگران هستند.
این موارد تنها بخشی از نکات شنیده شده درباره ی GPT 5.2 هستند و مطمئنا بروزرسانی های بسیاری برای آن ارایه خواهد شد.
منبع: سئو بوی
