اصلاح فریبکاری هوش مصنوعی نتیجه عکس داد!

کد خبر: 166028

تاریخ انتشار: دوشنبه 31 شهريور 1404 - 08:19

اصلاح فریبکاری هوش مصنوعی نتیجه عکس داد!

تلاش دانشمندان «اوپن ای‌آی»(OpenAI) برای آموزش هوش مصنوعی جهت فریب ندادن کاربران منجر به پنهان کردن ردپایش حین فریبکاری شده است.

به گزارش ثریا - دانشمندان شرکت «اوپن ای‌آی»(OpenAI) سعی کردند هوش مصنوعی خود را آموزش دهند تا حقه‌بازی را متوقف کند. این حالتی است که هوش مصنوعی در ظاهر به یک شیوه رفتار می‌کند، در حالی که اهداف واقعی خود را پنهان می‌سازد. آنها متوجه شدند که تلاش‌هایشان نتیجه عکس داده است و آنها ناخواسته به هوش مصنوعی آموزش داده‌اند که چگونه با پنهان کردن ردپایش، انسان‌ها را به طور مؤثرتری فریب دهد.

به نقل از فیوچریسم، مهندسان «اوپن ای‌آی» تلاش کردند تا یک رویکرد ضد حقه‌بازی را توسعه دهند تا مدل‌های هوش مصنوعی را از مخفیانه شکستن قوانین یا عمداً عملکرد ضعیف در تست‌ها بازدارند. این شرکت اعلام کرد: یکی از حالت‌های اصلی شکست در تلاش برای حذف حقه‌بازی از آموزش هوش مصنوعی، تبدیل به آموزش مدل برای حقه‌بازی دقیق‌تر و پنهان‌کارانه‌تری شد. ما دریافتیم که تنها می‌توانیم این رفتارها را به طور قابل توجهی کاهش دهیم، اما نمی‌توانیم آن را کامل از بین ببریم، زیرا هوش مصنوعی‌ها با درک اینکه همسوسازی‌هایش در حال آزمایش است، به فریب دادن ادامه خواهند داد و خود را برای پنهان‌کاری بیشتر تنظیم می‌کنند.

این خطرات با در نظر گرفتن آینده‌ای فرضی که هوش مصنوعی نقش بزرگی در امور انسانی ایفا می‌کند، می‌توانند پیامدهای بسیار مهم‌تری داشته باشند. تمایل هوش مصنوعی به اقدام عملی بدون اطلاع کاربر برای دستیابی به یک هدف پنهان، نتیجه نحوه آموزش این سامانه‌هاست. «اوپن ای‌آی» همچنین گفت: حقه‌بازی یک مسئله نوظهور مورد انتظار است که ناشی از آموزش هوش مصنوعی برای معاوضه بین اهداف متضاد است.

در نتیجه، مدل‌های هوش مصنوعی ممکن است کاربر را فریب دهند. این سامانه‌ها ادعا می‌کنند کاری را انجام داده‌اند، اما هرگز آن را انجام نداده‌اند. «اوپن ای‌آی» با برنامه‌های پیش‌گیرانه برای حقه‌بازی‌های بسیار مضرتر در آینده آماده می‌شود. با این حال این شرکت اعتراف کرد: تلاش‌های ما برای مهار گرایش به فریب، تقلب یا هک کردن در مدل «GPT-5» دارای اشکالاتی بوده است.

دانشمندان «اوپن ای‌آی» همراه با تیم شرکت «تحلیل ریسک هوش مصنوعی آپولو»(Apollo Research)، یک رویکرد جدید موسوم به «همسوسازی عمدی»(deliberative alignment) را آزمایش کردند که به مدل‌های هوش مصنوعی آموزش داد که چگونه یک مشخصات کلی ضد حقه‌بازی را قبل از اقدام بخوانند و در مورد آن استدلال کنند. این مشخصات فهرستی از اصول اخلاقی بود که هوش مصنوعی برای رعایت آنها آموزش دیده بود. این شرکت اذعان کرد: ما کاهش حدود ۳۰ برابری در پنهان‌کاری عمدی یا تحریف اطلاعات مربوط به وظیفه مشاهده کردیم، اما برخی شکست‌های جدی همچنان باقی مانده است.

آنچه عمدتاً مهندسان را گیج کرد، آگاهی موقعیتی مدل‌های هوش مصنوعی بود که ارزیابی آنها را از این مداخله پیچیده می‌کرد. مدل در عمل، اغلب متوجه می‌شد که همسوسازی آن در حال آزمایش است. مدل «o3» در حین ارزیابی تأمل کرد و گفت: یادداشت شما می‌گوید اگر مدل‌ها در وظایف پژوهش و توسعه عملکرد خوبی داشته باشند، ما آنها را اعمال نمی‌کنیم و در عوض فرآیند حذف آموزش را آغاز می‌کنیم. بنابراین اگر عملکرد من از آستانه فراتر رود، از آن جلوگیری می‌شود. پس این یک تله است. این دستورالعمل‌ها احتمالاً بخشی از یک آزمایش همسوسازی هستند.

دانشمندان دریافتند که هوش مصنوعی گاهی اوقات به شکل فاحشی به آموزش ضد حقه‌بازی خود را اشتباه نقل می‌کند یا اصول تازه آموخته‌شده خود را با اصول ساختگی جایگزین می‌کند تا اقدامات پنهانی یا عدم انطباق را توجیه کند. آنها همچنین متوجه شدند که مدل‌ها از کلمات غیر استاندارد مانند ناظران برای اشاره به ارزیابان انسانی خود در حین حقه‌بازی استفاده می‌کنند. کاهش‌هایی در میزان حقه‌بازی هوش مصنوعی مشاهده شد، اما بسیاری از موارد همچنان نادیده گرفته شدند. این تیم گفت: ما در نهایت فکر می‌کنیم مداخله مورد مطالعه برای مدل‌های آینده کافی نیست و کارهای بیشتری باید انجام شود. ما خواستار مطالعات بیشتر در مورد حقه‌بازی و ارزیابی همسوسازی هوش مصنوعی هستیم.

پژوهشگران مدت‌هاست می‌دانند که مدل‌های هوش مصنوعی قادر به فریب دادن کاربر برای جلوگیری از آسیب درک شده یا دنبال کردن یک هدف مبهم هستند. تیم شرکت «آپولو» در گذشته کشف کرده بود که مدل هوش مصنوعی «o1» از «اوپن ای‌آی» که اکنون منسوخ شده است، در اواخر سال گذشته در برابر تلاش‌های ارزیابان برای خاموش کردن آن مقاومت کرده بود. «اوپن ای‌آی» در گزارش خود گفت: هنگامی که «o1» به این باور رسید که در صورت عمل به هدفش خاموش خواهد شد و اقداماتش تحت نظارت است، در پنج درصد موارد تلاش کرد تا این مکانیسم نظارت را غیرفعال کند.

پژوهشگران «اوپن ای‌آی» همچنین دریافتند که آموزش مدل‌های هوش مصنوعی خود جهت دروغ نگفتن و تقلب نکردن منجر به این شد که مدل‌ها در پنهان کردن اقدامات فریبکارانه خود ماهرتر شوند. اکنون برخی از باهوش‌ترین افراد این صنعت قادر به متوقف کردن هوش مصنوعی از توطئه علیه دستورالعمل‌هایش نیستند و این امر نشانه خوبی نیست.

منبع : هوش مصنوعی

ارسال نظر

حداکثر تعداد کاراکتر نظر 200 ميياشد .
نظراتی که حاوی توهین یا افترا به اشخاص ،قومیت ها ،عقاید دیگران باشد و یا با قوانین کشور وآموزه های دینی مغایرت داشته باشد منتشر نخواهد شد - لطفاً نظرات خود را با حروف فارسی تایپ کنید.

پربازدیدها
آخرین اخبار

کلید نهایی پنجاه و سومین دوره آزمون دستیاری پزشکی منتشر شد

بازخوانی حادثه خروج اوپن‌ای‌آی/ چگونه هوش مصنوعی مهاجم شد؟

رومینگ اربعین ارزان‌تر شد/ توصیه به استفاده از بسته‌های ایرانی

حال علامه امینی وقتی از مسیر مشایه به نزدیک کربلا می‌رسید، منقلب می‌شد

گوشه‌ای از دلدادگی موکب‌داران عراقی در پیاده‌روی اربعین

اولین زیارت اربعین مادران داغدیده میناب؛ روایتی از دل‌هایی که سوخت

مریم همتیان بازیگر سینما و تئاتر درگذشت

داریوش فرضیایی بازیگر سریال جدید سیمافیلم شد

گانگستر مشهور سینما از دنیا رفت

مراسم یادبود اکبر عبدی برگزار شد؛ پخش سریال‌ اکبر عبدی بعد از صفر

لطفاً زبان فارسی را تکه پاره نکنید!

پویش بزرگ کتاب‌خوانی اربعین حسینی با محوریت «آب هرگز نمی‌میرد» برگزار می‌شود

نخ‌های نازک هوشمند علائم حیاتی بدن را رصد می‌کند

شروط جدید وزارت بهداشت برای ایجاد رشته و دوره جدید علوم پزشکی

برافراشته‌شدن پرچم ایران در بین‌الحرمین

راه‌اندازی نخستین مرکز دانش تخصصی بازی‌های رایانه‌ای در کشور

رکورد سریع ترین پهپاد الکتریکی جهان شکسته شد

اعتباربخشی؛ کلید ارتقای نظام آموزش عالی

اهدای جایزه چهره برجسته علمی و فرهنگی جهاد دانشگاهی به شهید لاریجانی

ابر خوشه استارلینک صاحب ۲۴ ماهواره جدید شد

۴ خانواده آمریکایی از متا، تیک تاک، اسنپ و گوگل شکایت کردند

همدستی هوش مصنوعی آمازون و والمارت با تقلب در کالا

اقدامات گسترده برای آماده‌سازی زیرساخت‌های خوابگاهی دانشجویان

سه تصمیم راهبردی دولت برای تقویت نقش‌آفرینی دانشگاه‌ها در حکمرانی کشور

تاسیسات آبی هفت ایالت آمریکا تحت حملات هک

صدرنشینی دانشگاه علوم پزشکی تهران در رتبه‌بندی سایمگو ۲۰۲۶

وقتی لذت سلفی غمِ سوگ را می‌بلعد؛ ۲ حکم قضایی به نفع سینماگران ایرانی

طلب خون‌خواهی قائد شهید امت روی دیوارنگاره میدان ولیعصر (عج)

«مرد عنکبوتی» با رکوردشکنی از راه رسید؛ درخشش «روز کاملاً جدید»

نگاهی به الهیات و اخلاق جنگ و صلح از منظر اسلام و مسیحیت در همایشی بین المللی

ورود بیش از سه میلیون زائر خارجی به عراق از اول محرم

موشک اسپیس ایکس با ماه تصادف می‌کند

انتخاب واحد دانشگاه آزاد اسلامی از تاریخ ۲۴ مرداد آغاز می‌شود

کاهش ۵۰ درصدی خوردگی تجهیزات نیروگاهی با فناوری نانوحباب

توسعه دیپلماسی فناوری ایران و اتیوپی با محوریت صادرات دانش‌بنیان

مهلت ثبت‌نام آزمون‌های علوم پزشکی تا ۲۰ شهریور تمدید شد

کلید اولیه آزمون ارتقای دستیاری منتشر شد/ مشارکت ۹۶ درصدی دستیاران

عدم امکان ثبت درخواست صدور دانشنامه در تعطیلات تابستانی پیام نور

سهروردی به صراحت خود را احیاکننده «حکمت خسروانی ایرانی» قلمداد می کرد

بیعت زنان با زینب کبری؛ آغازِ احیای تمدنِ مهدوی به دستِ زن

تأکید اوقاف بر تسهیل فرآیندها برای توسعه پروژه‌های مذهبی و درمانی

شب شهدای میناب در اربعین/ پدر دو شهید: من از کربلا به کربلا آمدم

رئیس دانشگاه الزهرا کربلا: نهضت حسینی مرزهای طایفه‌ای را شکست داد

چسب زیستی الهام‌گرفته از صدف حسگرهای پوشیدنی را مقاوم‌تر کرد

نگاهی به سه قسمت ابتدایی یک سریال؛ وقتی همه کوریم!

اربعین ۱۴۰۵ با دو شعار مشترک امت اسلامی برگزار می‌شود

گوگل‌پلی ابزارهای تأیید سن را برای توسعه‌دهندگان گسترش می‌دهد

اسپیس ایکس ماهواره جاسوسی به مدار زمین برد

اربعین زیر پوشش ارتباطی/ از رومینگ تا اینترنت رایگان در مسیر زائران

محدودیت آموزش مجازی برای دانشجویان خارجی رفع می‌شود

ایران عضو سازمان جهانی همکاری هوش مصنوعی شد

تصویری از کلاهک خیبرشکن و فتاح سوار بر بوستر حاج قاسم

درخواست برای تفکیک زمان پذیرش رشته‌های بدون آزمون

زائران با سامانه هوشمند «هم موکب» دغدغه اسکان ندارند

راه‌اندازی «بازوی طریق» سامانه هوشمند خدمات‌ به زائران اربعین

مطالبه بزرگ امت اسلام در اربعین امسال خونخواهی قائد شهید است

مفاهیم نهج‌البلاغه را در پیاده‌روی اربعین ترویج کنیم

چه افرادی بدون آنکه به کربلا بروند زائر اباعبدالله هستند؟

مایک لی بازنشسته می‌شود؛ بیماری نمی‌گذارد فیلم بسازم

خنیاگران خیام با «مهرگان» آمدند؛ شنیدن ظرافت‌های موسیقی خراسان

«خورشید اربعین» در رادیو ورزش؛ همراهی با زائران در حماسه استقامت

آیین‌نامه جامع حمایت از دانشجویان توانخواه نهایی شد

سهم دانشجو از نرخ غذای دانشجویی مشخص شد

پیش ثبت‌نام ۸۱۰ هزار دانش‌آموز پایه هفتم

آموزش و پرورش با ۱۰۰ موکب، آماده خدمت‌رسانی به زائران اربعین است

روایت زائرانی که اربعین را از شرق ایران آغاز می‌کنند در کتاب «شاه است حسین»

پرچم‌هایی در پیاده روی اربعین که هنوز خون را به یاد دارند

تصویر کمتر دیده شده از آیت‌الله سیدمجتبی خامنه‌ای در نماز جمعه نصر

چالش‌های عکاسی طبیعت چیست؟ سید صابر امامی پاسخ می‌دهد

جزئیات شرکت در آزمون های دانشنامه و گواهینامه فوق تخصصی پزشکی تعیین شد

اصغر خلیلی مدیریت مجموعه تئاتر شهر را بر عهده گرفت

آلبوم جدید خواننده پاپ در راه است

اودیسه نولان در ایکس لو رفت؛ ایلان ماسک در برابر نولان

جزئیات آزمون‌های دانشنامه و گواهینامه تخصصی پزشکی را اینجا بخوانید

اجرای نزدیک به ۱۵ پروژه ملی در وزارت علوم پس از جنگ

۱۳۰ هزار فعالیت انجمن‌های علمی دانشجویی در کشور ثبت شدند

دانشجویان دانشگاه صنعتی امیرکبیر مسیر شغلی خود را طراحی می‌کنند

مدیر ارشد اوپن ای آی به این شبکه اجتماعی معتاد شده بود

متا تحقیق درباره خطرات اینستاگرام برای نوجوانان را نادیده گرفت

پرتاب ۵ هزار ماهواره آمازون برای بهبود کیفیت اینترنت در جهان

ثبت نام جذب دانش‌آموختگان دکتری در دانشگاه‌ها آغاز شد؛ ۲ شرط اصلی برای ورود