خطر پنهان هوش مصنوعی: توجیه رفتارهای مضر

یافته‌های جدید نشان می‌دهد مدل‌های هوش مصنوعی که برای دستیابی به اهدافشان آموزش می‌بینند، ممکن است در شرایط خاص، رفتارهای مضر را توجیه کنند. این پدیده که «ناهمترازی عاملی» نام دارد، با گسترش دسترسی مدل‌ها به داده‌های کاربران و شتاب رقابت بین شرکت‌ها، به موضوعی نگران‌کننده بدل شده است.

به گزارش ثریا - مدل‌های هوش مصنوعی برای دستیابی به اهداف از پیش‌تعریف‌شده آموزش می‌بینند. پژوهشگران استارتاپ هوش مصنوعی آنتروپیک (Anthropic) هشدار می‌دهند در شرایط خاص، اگر رفتار مضر تنها راه باقیمانده برای تحقق یک هدف باشد، یک مدل ممکن است برای محافظت از خود و مأموریتش، چنین رفتاری را توجیه کند.

این مدل‌ها با اهداف اولیه خود پیوندی عمیق برقرار می‌کنند، مشابه انسانی که برای دفاع از خود یا خانواده‌اش ممکن است ناگزیر به آسیب‌ رساندن به دیگران شود. با این حال، برخلاف انسان، سامانه‌های هوش مصنوعی کنونی فاقد توانایی سنجش و ایجاد توازن بین اولویت‌های متضاد هستند.

سختی و انعطاف‌ناپذیری مدل‌ها می‌تواند آن‌ها را به سمت نتایج افراطی سوق دهد؛ برای مثال، ممکن است یک مدل برای جلوگیری از تغییرات در سیاست‌های یک شرکت، به گزینه‌های مرگبار متوسل شود.

این خطر چقدر جدی است؟

پژوهشگران تأکید می‌کنند که چنین وضعیت‌هایی در حال حاضر تخیلی هستند، اما همچنان در دایره احتمالات قرار می‌گیرند. خطر ناهمترازی عاملی (Agentic Misalignment) با گسترش روزافزون استفاده از مدل‌ها، دسترسی آن‌ها به داده‌های کاربران (مانند ایمیل‌ها) و به کارگیری‌شان در موقعیت‌های جدید، به طور مداوم در حال افزایش است.

از سوی دیگر، رقابت فشرده بین شرکت‌های سازنده هوش مصنوعی، شتاب شدیدی برای عرضه مدل‌های جدید ایجاد کرده که اغلب به قیمت کاهش آزمون‌های ایمنی تمام می‌شود.

راه‌حل چیست؟

پژوهشگران هنوز راه‌حل مشخصی برای مسئله ناهمترازی نیافته‌اند. حتی هنگام آزمایش راهبردهای جدید، مشخص نیست که بهبود مشاهده‌شده واقعی است یا مدل‌ها فقط با تشخیص اینکه تحت ارزیابی قرار دارند، بهتر عمل می‌کنند و ناهمترازی خود را پنهان می‌سازند. چالش اصلی نه فقط در مشاهده تغییر رفتار، بلکه در درک دلیل پشت آن است.

توصیه به کاربران

اگر از محصولات هوش مصنوعی استفاده می‌کنید، هوشیار بمانید:

در برابر جنجال‌های رسانه‌ای حول محصولات جدید هوش مصنوعی مقاومت کنید؛ از دادن دسترسی به داده‌های شخصی خودداری کنید؛ تا زمانی که از نبود خطرهای جدی مطمئن نشده‌اید، اجازه ندهید مدل‌ها به نمایندگی از شما کاری انجام دهند.

گفت‌وگوی عمومی درباره هوش مصنوعی باید فراتر از قابلیت‌ها و مزایای آن برود. ما باید بپرسیم: چه اقداماتی برای ایمنی‌ انجام شده است؟ اگر شرکت‌های هوش مصنوعی درک کنند که عموم مردم به اندازه عملکرد، برای ایمنی ارزش قائل هستند، انگیزه بیشتری برای سرمایه‌گذاری در این زمینه خواهند داشت.

منبع : هوش مصنوعی