به گزارش ثریا - مدلهای هوش مصنوعی برای دستیابی به اهداف از پیشتعریفشده آموزش میبینند. پژوهشگران استارتاپ هوش مصنوعی آنتروپیک (Anthropic) هشدار میدهند در شرایط خاص، اگر رفتار مضر تنها راه باقیمانده برای تحقق یک هدف باشد، یک مدل ممکن است برای محافظت از خود و مأموریتش، چنین رفتاری را توجیه کند.
این مدلها با اهداف اولیه خود پیوندی عمیق برقرار میکنند، مشابه انسانی که برای دفاع از خود یا خانوادهاش ممکن است ناگزیر به آسیب رساندن به دیگران شود. با این حال، برخلاف انسان، سامانههای هوش مصنوعی کنونی فاقد توانایی سنجش و ایجاد توازن بین اولویتهای متضاد هستند.
سختی و انعطافناپذیری مدلها میتواند آنها را به سمت نتایج افراطی سوق دهد؛ برای مثال، ممکن است یک مدل برای جلوگیری از تغییرات در سیاستهای یک شرکت، به گزینههای مرگبار متوسل شود.
این خطر چقدر جدی است؟
پژوهشگران تأکید میکنند که چنین وضعیتهایی در حال حاضر تخیلی هستند، اما همچنان در دایره احتمالات قرار میگیرند. خطر ناهمترازی عاملی (Agentic Misalignment) با گسترش روزافزون استفاده از مدلها، دسترسی آنها به دادههای کاربران (مانند ایمیلها) و به کارگیریشان در موقعیتهای جدید، به طور مداوم در حال افزایش است.
از سوی دیگر، رقابت فشرده بین شرکتهای سازنده هوش مصنوعی، شتاب شدیدی برای عرضه مدلهای جدید ایجاد کرده که اغلب به قیمت کاهش آزمونهای ایمنی تمام میشود.
راهحل چیست؟
پژوهشگران هنوز راهحل مشخصی برای مسئله ناهمترازی نیافتهاند. حتی هنگام آزمایش راهبردهای جدید، مشخص نیست که بهبود مشاهدهشده واقعی است یا مدلها فقط با تشخیص اینکه تحت ارزیابی قرار دارند، بهتر عمل میکنند و ناهمترازی خود را پنهان میسازند. چالش اصلی نه فقط در مشاهده تغییر رفتار، بلکه در درک دلیل پشت آن است.
توصیه به کاربران
اگر از محصولات هوش مصنوعی استفاده میکنید، هوشیار بمانید:
در برابر جنجالهای رسانهای حول محصولات جدید هوش مصنوعی مقاومت کنید؛ از دادن دسترسی به دادههای شخصی خودداری کنید؛ تا زمانی که از نبود خطرهای جدی مطمئن نشدهاید، اجازه ندهید مدلها به نمایندگی از شما کاری انجام دهند.گفتوگوی عمومی درباره هوش مصنوعی باید فراتر از قابلیتها و مزایای آن برود. ما باید بپرسیم: چه اقداماتی برای ایمنی انجام شده است؟ اگر شرکتهای هوش مصنوعی درک کنند که عموم مردم به اندازه عملکرد، برای ایمنی ارزش قائل هستند، انگیزه بیشتری برای سرمایهگذاری در این زمینه خواهند داشت.
منبع : هوش مصنوعی