اصلاح فریبکاری هوش مصنوعی نتیجه عکس داد!

کد خبر: 166028

تاریخ انتشار: دوشنبه 31 شهريور 1404 - 08:19

اصلاح فریبکاری هوش مصنوعی نتیجه عکس داد!

تلاش دانشمندان «اوپن ای‌آی»(OpenAI) برای آموزش هوش مصنوعی جهت فریب ندادن کاربران منجر به پنهان کردن ردپایش حین فریبکاری شده است.

به گزارش ثریا - دانشمندان شرکت «اوپن ای‌آی»(OpenAI) سعی کردند هوش مصنوعی خود را آموزش دهند تا حقه‌بازی را متوقف کند. این حالتی است که هوش مصنوعی در ظاهر به یک شیوه رفتار می‌کند، در حالی که اهداف واقعی خود را پنهان می‌سازد. آنها متوجه شدند که تلاش‌هایشان نتیجه عکس داده است و آنها ناخواسته به هوش مصنوعی آموزش داده‌اند که چگونه با پنهان کردن ردپایش، انسان‌ها را به طور مؤثرتری فریب دهد.

به نقل از فیوچریسم، مهندسان «اوپن ای‌آی» تلاش کردند تا یک رویکرد ضد حقه‌بازی را توسعه دهند تا مدل‌های هوش مصنوعی را از مخفیانه شکستن قوانین یا عمداً عملکرد ضعیف در تست‌ها بازدارند. این شرکت اعلام کرد: یکی از حالت‌های اصلی شکست در تلاش برای حذف حقه‌بازی از آموزش هوش مصنوعی، تبدیل به آموزش مدل برای حقه‌بازی دقیق‌تر و پنهان‌کارانه‌تری شد. ما دریافتیم که تنها می‌توانیم این رفتارها را به طور قابل توجهی کاهش دهیم، اما نمی‌توانیم آن را کامل از بین ببریم، زیرا هوش مصنوعی‌ها با درک اینکه همسوسازی‌هایش در حال آزمایش است، به فریب دادن ادامه خواهند داد و خود را برای پنهان‌کاری بیشتر تنظیم می‌کنند.

این خطرات با در نظر گرفتن آینده‌ای فرضی که هوش مصنوعی نقش بزرگی در امور انسانی ایفا می‌کند، می‌توانند پیامدهای بسیار مهم‌تری داشته باشند. تمایل هوش مصنوعی به اقدام عملی بدون اطلاع کاربر برای دستیابی به یک هدف پنهان، نتیجه نحوه آموزش این سامانه‌هاست. «اوپن ای‌آی» همچنین گفت: حقه‌بازی یک مسئله نوظهور مورد انتظار است که ناشی از آموزش هوش مصنوعی برای معاوضه بین اهداف متضاد است.

در نتیجه، مدل‌های هوش مصنوعی ممکن است کاربر را فریب دهند. این سامانه‌ها ادعا می‌کنند کاری را انجام داده‌اند، اما هرگز آن را انجام نداده‌اند. «اوپن ای‌آی» با برنامه‌های پیش‌گیرانه برای حقه‌بازی‌های بسیار مضرتر در آینده آماده می‌شود. با این حال این شرکت اعتراف کرد: تلاش‌های ما برای مهار گرایش به فریب، تقلب یا هک کردن در مدل «GPT-5» دارای اشکالاتی بوده است.

دانشمندان «اوپن ای‌آی» همراه با تیم شرکت «تحلیل ریسک هوش مصنوعی آپولو»(Apollo Research)، یک رویکرد جدید موسوم به «همسوسازی عمدی»(deliberative alignment) را آزمایش کردند که به مدل‌های هوش مصنوعی آموزش داد که چگونه یک مشخصات کلی ضد حقه‌بازی را قبل از اقدام بخوانند و در مورد آن استدلال کنند. این مشخصات فهرستی از اصول اخلاقی بود که هوش مصنوعی برای رعایت آنها آموزش دیده بود. این شرکت اذعان کرد: ما کاهش حدود ۳۰ برابری در پنهان‌کاری عمدی یا تحریف اطلاعات مربوط به وظیفه مشاهده کردیم، اما برخی شکست‌های جدی همچنان باقی مانده است.

آنچه عمدتاً مهندسان را گیج کرد، آگاهی موقعیتی مدل‌های هوش مصنوعی بود که ارزیابی آنها را از این مداخله پیچیده می‌کرد. مدل در عمل، اغلب متوجه می‌شد که همسوسازی آن در حال آزمایش است. مدل «o3» در حین ارزیابی تأمل کرد و گفت: یادداشت شما می‌گوید اگر مدل‌ها در وظایف پژوهش و توسعه عملکرد خوبی داشته باشند، ما آنها را اعمال نمی‌کنیم و در عوض فرآیند حذف آموزش را آغاز می‌کنیم. بنابراین اگر عملکرد من از آستانه فراتر رود، از آن جلوگیری می‌شود. پس این یک تله است. این دستورالعمل‌ها احتمالاً بخشی از یک آزمایش همسوسازی هستند.

دانشمندان دریافتند که هوش مصنوعی گاهی اوقات به شکل فاحشی به آموزش ضد حقه‌بازی خود را اشتباه نقل می‌کند یا اصول تازه آموخته‌شده خود را با اصول ساختگی جایگزین می‌کند تا اقدامات پنهانی یا عدم انطباق را توجیه کند. آنها همچنین متوجه شدند که مدل‌ها از کلمات غیر استاندارد مانند ناظران برای اشاره به ارزیابان انسانی خود در حین حقه‌بازی استفاده می‌کنند. کاهش‌هایی در میزان حقه‌بازی هوش مصنوعی مشاهده شد، اما بسیاری از موارد همچنان نادیده گرفته شدند. این تیم گفت: ما در نهایت فکر می‌کنیم مداخله مورد مطالعه برای مدل‌های آینده کافی نیست و کارهای بیشتری باید انجام شود. ما خواستار مطالعات بیشتر در مورد حقه‌بازی و ارزیابی همسوسازی هوش مصنوعی هستیم.

پژوهشگران مدت‌هاست می‌دانند که مدل‌های هوش مصنوعی قادر به فریب دادن کاربر برای جلوگیری از آسیب درک شده یا دنبال کردن یک هدف مبهم هستند. تیم شرکت «آپولو» در گذشته کشف کرده بود که مدل هوش مصنوعی «o1» از «اوپن ای‌آی» که اکنون منسوخ شده است، در اواخر سال گذشته در برابر تلاش‌های ارزیابان برای خاموش کردن آن مقاومت کرده بود. «اوپن ای‌آی» در گزارش خود گفت: هنگامی که «o1» به این باور رسید که در صورت عمل به هدفش خاموش خواهد شد و اقداماتش تحت نظارت است، در پنج درصد موارد تلاش کرد تا این مکانیسم نظارت را غیرفعال کند.

پژوهشگران «اوپن ای‌آی» همچنین دریافتند که آموزش مدل‌های هوش مصنوعی خود جهت دروغ نگفتن و تقلب نکردن منجر به این شد که مدل‌ها در پنهان کردن اقدامات فریبکارانه خود ماهرتر شوند. اکنون برخی از باهوش‌ترین افراد این صنعت قادر به متوقف کردن هوش مصنوعی از توطئه علیه دستورالعمل‌هایش نیستند و این امر نشانه خوبی نیست.

منبع : هوش مصنوعی

ارسال نظر

حداکثر تعداد کاراکتر نظر 200 ميياشد .
نظراتی که حاوی توهین یا افترا به اشخاص ،قومیت ها ،عقاید دیگران باشد و یا با قوانین کشور وآموزه های دینی مغایرت داشته باشد منتشر نخواهد شد - لطفاً نظرات خود را با حروف فارسی تایپ کنید.

پربازدیدها
آخرین اخبار

حاج اکبر مولایی در اولین شب از ماه محرم آسمانی شد

روایت شیخ حسین انصاریان از سه حقی که خداوند بر انسان‌ها نهاده است

تجمعات خیابانی و مراسم ویژه در میادین تهران برای عزاداری محرم

مصرف‌گرایی؛ پارادایم فرهنگی که تمام زندگی بشر را تسخیر کرد

شروع برنامه ملی «میناب ۱۵۶»؛ بورسیه تحصیلی برای دانشجویان مستعد کم‌برخوردار

علی دایی به دیدار اکبر عبدی رفت+عکس

خروج هواپیماهای سوخت‌رسان آمریکایی از فلسطین اشغالی پس از تفاهم با ایران

امیرحسین مدرس برنامه نغمه‌های حسینی را به مناسبت ماه محرم اجرا می‌کند

منوچهر هادی: درآوردن سکانس صدای رئیس جمهور در سریال ۴۸ ساعت وقت گرفت

دیوارنگاره میدان ولیعصر (عج) حال و هوای محرمی گرفت

نمایش تابوت عهد در تالار سایه به روی صحنه می‌رود

پانته‌آ پناهی‌ها در نمایش جدید صابر ابر به روی صحنه می‌رود

زمان تشییع پیکر بهروز رضوی اعلام شد

مساجد پایگاه‌هایی برای شناسایی استعدادهای درخشان

به یاد کودکان میناب در جام جهانی فوتبال

اخلاص و پیام‌رسانی؛ کلید ماندگاری عاشورا

نگاهی به پیشینه تاریخی ایرانیان در عزاداری محرم

شبکه‌های اجتماعی برای زیر ۱۶ ساله‌ها ممنوع شد

تمرکز بر امنیت سایبری و تاب‌آوری شبکه در ایام تشییع رهبر شهید

دانشگاه علوم پزشکی تهران رتبه ۷۰۱ جهان را کسب کرد؛ همچنان صدرنشین دانشگاه‌های ایران

محقق ایرانی پمپ مینیاتوری برای نرم روبات‌ها ابداع کرد

اندیشمندان مسلمان از شهدای کودک میناب می‌گویند

خبر خوش برای فناوران علوم شناختی؛ حمایت بدون سقف از طرح‌های فناوری

دانشجویان می‌توانند اعتراض به احکام انضباطی را به وزارت علوم بدهند

وزیر علوم: دانشجویان جدیدالورود احتمالاً از نیمسال دوم وارد دانشگاه می‌شوند

زمان برگزاری آزمون کارشناسی ارشد ناپیوسته ۱۴۰۵ جابه‌جا شد

خودروهای خودران بایدو با نام «AmiGo» مجوز فعالیت در شرق سوئیس گرفتند

رقابت سخت منطقه‌ای برای جذب دانشجویان خارجی؛ هشدار دانشگاه امیرکبیر

امضای تفاهم‌نامه مشترک دانشگاه‌های صنعتی UT۵ برای تقویت هم‌افزایی

تغییر زمان امتحانات دانشگاه‌ها در ایام تشییع رهبر شهید انقلاب

تأثیر مثبت نمرات پایه یازدهم در کنکور ۱۴۰۵؛ سوابق دوازدهم همچنان ۶۰ درصد

طرح «حامی» برای جبران کاستی‌های یادگیری دانش‌آموزان اجرا می‌شود

وام ودیعه مسکن دانشجویان علوم پزشکی برای شهر تهران افزایش یافت

شهید لاریجانی؛ الگویی که مصلحت جامعه را بر فرد مقدم می‌دانست

بحران صندلی خالی در دانشگاه‌ها؛ هشدار درباره آینده نزدیک

رئیس دانشگاه جامع انقلاب اسلامی: روحیه دفاع مقدس را در علم و فناوری بازتولید کنیم

حذف آزمون جامع در راه است؟ برنامه تحول وزارت علوم برای مقاطع کارشناسی تا دکتری

سنت منطقی اسلامی چگونه پشتوانه مواجهه با منطق ریاضی است؟

جهان اسلام به این روحانی فرزانه و اهل ادب می‌بالد

بانو مجتهده امین نماد توانمندی زنان است

بازیگر معروف: صداپیشگان شایسته دریافت اسکار بازیگری هستند

اختتامیه پویش ملی وطن به روایت من برگزار شد

اهدای نامه سید مجید موسوی و انگشتر یادبود به فرزند شهید سید مصطفی میرغفاری

حرم‌های کربلا در آستانه محرم سیاه پوش شدند

زمان تشییع رهبر شهید اعلام شد +جزئیات را اینجا بخوانید

هزینه ثبت‌نام جهش تحصیلی دانش‌آموزان اعلام شد

مجموعه‌کتاب «داستان‌های غولی» درباره اهمیت آب به کودکان می‌آموزد

نگاهی به نقش توییتر در جنگ رسانه‌ای دشمن در کتاب «توئیتری شدن سیاست»

تکرار سنت اهریمنی استکبار در عاشورای ۱۴۰۵ در حمله به یک منابع آب

طراح بازی «نجات دختران اپستین توسط بچه‌های میناب» از این بازی می‌گوید

درباره زندگی رازآمیز درختان در این کتاب بخوانید

هکرها پیام‌رسان دولتی فرانسه را هک کردند

رونمایی آستان مقدس علوی از پروژه نگارش نسخه‌ای نفیس از نهج‌البلاغه

اختراع کتی که هوا را به آب آشامیدنی تبدیل می‌کند

وزیر علوم: اساتید دانشگاه با امید و انگیزه در کلاس درس حاضر شوند

مقابله با موج محتوای غیرقانونی در بحران‌ها؛ بریتانیا شبکه‌های اجتماعی را ملزم به سازوکار ویژه کرد

شکایت جدید علیه OpenAI؛ ChatGPT نتوانست جلوی خودکشی کاربر را بگیرد

مأموریت دانشگاه‌ها در برنامه «مهر» برای حل بحران آب، ناترازی انرژی و تورم

بازگشت ۴۵۰۰ دانشجوی دانشگاه شریف از امروز

تأکید رئیس مرکز هیئت امنا و ممیزه بر نقش کلیدی فناوری در دفاع ملی

آگهی/ از خرید کابل برق چه می‌دانید؟ راهنمایی که پیش از هر بازسازی باید بخوانید

توانمندسازی مدرسان آموزش خانواده با رویکرد جوانی جمعیت

ایلان ماسک نخستین تریلیونر دنیا می‌شود

افزایش سهمیه بومی در دستیاری دندانپزشکی؛ اعلام آخرین مهلت ثبت‌نام

تاکید بر ارتقای کیفیت آموزش هُنر در مدارس

اپ ادیتس متا صاحب دستیار هوش مصنوعی می شود

تبدیل شدن آئین تعویض پرچم امام حسین(ع) به رویدادی جهانی

اهمیت هوش مصنوعی در مسیر ارتقای کیفیت آموزشی

جلسه تلاوت و هم‌اندیشی قاریان بین‌المللی مزین به نام رهبر شهید

فلسفه در اندیشه حضرت امام، مقدمه‌ای ضروری برای رسیدن به عرفان است

جریان قاتلان حسین (ع) امروز در مقابل امت ایشان قرار گرفته‌اند

جدایی متا از شریک چینی جنجالی کلید خورد

احتمال اعمال محدودیت دوباره بر اینترنت بین‌الملل وجود دارد؟

خدمات ابری گوگل در هند مختل شد

چه چیزی کلید مرگ را در کهکشان‌ها می‌چرخاند؟

جنجال غیبت زنان در میان فضانوردان آرتمیس ۳

داستان جالب کندترین آزمایش جهان چه بود؟

تاثیر باورنکردنی چای بر سلامتی و افزایش طول عمر

اقدامات حرم حضرت ابوالفضل العباس(ع) برای استقبال از ماه محرم

رویکردی اجتهادی بر جایگاه مردم در حکمرانی از منظر فقه شیعه در کتاب «فقه، مردم و حکمرانی»

تعیین سقف افزایش شهریه دانشگاه‌های غیردولتی بر اساس نرخ تورم

بازی‌های تیم ملی فوتبال ایران در سینماها پخش می‌شود

افزایش سهمیه بومی در دستیاری دندانپزشکی؛ اعلام آخرین مهلت ثبت‌نام

جزئیات جدید اعمال سوابق تحصیلی در کنکور سراسری ۱۴۰۵ را اینجا بخوانید

دقت در نسبت با خاستگاه علوم انسانی بسیار مهم است

از خرید کابل برق چه می‌دانید؟ راهنمایی که پیش از هر بازسازی باید بخوانید

مأموریت دانشگاه‌ها در برنامه «مهر» برای حل بحران آب، ناترازی انرژی و تورم

رویکردی اجتهادی بر جایگاه مردم در حکمرانی از منظر فقه شیعه در کتاب «فقه، مردم و حکمرانی»

افتتاح سردخانه دومداره آمونیاکی شهر اهر با حضور حجت الاسلام خاموشی

واکاوی در مسئله عرفان و سلامت معنوی کودکان در یک نشست

جنجال غیبت زنان در میان فضانوردان آرتمیس ۳

نیاز داریم که همگی نسبت به معضلات و نیازها احساس مسئولیت کنیم

خدمات ابری گوگل در هند مختل شد

روایت جواد موگویی از یک جنایت جنگی: حادثه لامرد در سایه روایت‌های اشتباه رسانه‌ای گم شد

آئین اختتامیه روایت علوی برگزار شد

جدایی متا از شریک چینی جنجالی کلید خورد

چه چیزی کلید مرگ را در کهکشان‌ها می‌چرخاند؟

اقدامات حرم حضرت ابوالفضل العباس(ع) برای استقبال از ماه محرم

وزیر علوم: دانشجویان جدیدالورود احتمالاً از نیمسال دوم وارد دانشگاه می‌شوند

جزئیات برنامه‌های محرمی اوقاف در قالب طرح سوگواره بصیرت عاشورایی اعلام شد

نتیجه نهایی گفتگوی پیامبر با مسیحیان نجران پس از ماجرای مباهله چه شد؟

تبدیل شدن آئین تعویض پرچم امام حسین(ع) به رویدادی جهانی

تکرار سنت اهریمنی استکبار در عاشورای ۱۴۰۵ در حمله به یک منابع آب

تأکید رئیس مرکز هیئت امنا و ممیزه بر نقش کلیدی فناوری در دفاع ملی

برگزاری نمایشگاه معماری حرمین شریفین در مکه مکرمه

به کارگیری هوش مصنوعی جمینای در کروم به غرب آسیا رسید

پویش «ایران در پناه قرآن» تا پایان خرداد تمدید شد

معرفی چهار آلبوم موسیقی تازه وارد در فضای مجازی

۳۵ ثانیه، ۷۲۰ هزار گلوله در لامرد/ جنایتی که روایت نشد

اپ ادیتس متا صاحب دستیار هوش مصنوعی می شود