اختصاصی شبکه علمی ثریا

تشخیص چهره براساس ترانسفورماتورهای بینایی ممکن شد

دانشمندان در این روش کل‌نگر از شبکه‌های عصبی کانولوشنال (CNN) و مبتنی بر حاشیه تحقیقات در زمینه تشخیص چهره استفاده می‌کنند.

اختصاصی شبکه علمی ثریا- فیلم‌های ویدئویی شناسایی کنند. این ابزارها در حال حاضر در طیف گسترده‌ای از تنظیمات دنیای واقعی ، برای مثال کمک به مجریان قانون و مأموران کنترل مرزی در تحقیقات جنایی و تلاش‌های نظارتی و همچنین برای احراز هویت و کاربردهای بیومتریک استفاده می‌شوند. در حالی که اکثر مدل های موجود عملکرد قابل توجهی دارند، ممکن است هنوز جای زیادی برای بهبود عملکردشان وجود داشته باشد. محققان دانشگاه کوئین مری لندن اخیراً یک معماری جدید و امیدوارکننده برای تشخیص چهره ایجاد کرده‌اند. این معماری که در مقاله ای از پیش منتشر شده در arXiv ارائه شده است، مبتنی بر استراتژی استخراج ویژگی های صورت از تصاویر است که با بسیاری از مواردی که تاکنون ارائه شده است متفاوت است. ژونگلین سان و جورجیوس تزیمیروپولوس، دو محققی که این مطالعه را انجام دادند، به TechXplore گفتند: «روش‌های کل‌نگر با استفاده از شبکه‌های عصبی کانولوشنال (CNN) و مبتنی بر حاشیه بر تحقیقات در زمینه تشخیص چهره مورد استفاده قرار می‌گیرند.

در این کار، ما از این تنظیمات به دو صورت فاصله می گیریم:

(الف) ما از Vision Transformer به عنوان یک معماری برای آموزش یک پایه بسیار قوی برای تشخیص چهره استفاده می کنیم، که به سادگی fViT نامیده می شود، که در حال حاضر از پیشرفته ترین‌ روش‌های تشخیص چهره پیشی گرفته است.
(ب) ثانیاً، ما از ویژگی ذاتی ترانسفورماتور برای پردازش اطلاعات (توکن‌های بصری) استخراج‌شده از شبکه‌های نامنظم برای طراحی خط لوله‌ای برای تشخیص چهره که یادآور روش‌های تشخیص چهره مبتنی بر بخشی است، استفاده می‌کنیم.

بیشتر رویکردهای گسترده تشخیص چهره مبتنی بر CNN ها هستند، کلاسی از شبکه های عصبی مصنوعی (CNN) که می توانند به طور مستقل پیدا کردن الگوها در تصاویر، به عنوان مثال شناسایی اشیاء یا افراد خاص را بیاموزند. در حالی که برخی از این روش‌ها عملکرد بسیار خوبی داشتند، ابزار جدید پتانسیل کلاس دیگری از الگوریتم‌ها را برای تشخیص چهره، به نام ترانسفورماتور بینایی (ViTs) برجسته کرد. برخلاف CNN ها، که معمولاً تصاویر را به طور کامل تجزیه و تحلیل می کنند، ViT ها یک تصویر را به تکه هایی با اندازه خاص تقسیم می کنند و سپس جاسازی هایی را به این وصله ها اضافه می کنند. سپس دنباله بردارها به یک ترانسفورماتور استاندارد، یک مدل یادگیری عمیق که به طور متفاوت بخش‌های مختلف داده‌هایی را که در حال تجزیه و تحلیل است، وزن می‌کند، تغذیه می‌شود.

محققان در مقاله خود توضیح دادند: "ViT، برخلاف CNN ها، در واقع می تواند روی تکه های استخراج شده از شبکه های نامنظم کار کند و نیازی به شبکه نمونه برداری با فاصله یکنواخت برای کانولوشن ها ندارد." «از آنجایی که چهره انسان یک شی ساختار یافته است که از قسمت‌هایی (مانند چشم‌ها، بینی، لب‌ها) و الهام‌گرفته از کار منی روی تشخیص چهره مبتنی بر قسمتی قبل از یادگیری عمیق است، پیشنهاد می‌کنیم که ViT را روی تکه‌هایی که قسمت‌های صورت را نشان می‌دهند، اعمال کنیم.» معماری ترانسفورماتور بینایی ایجاد شده توسط Sun و Tzimiropoulos که fViT نام دارد، از یک شبکه سبک وزن و یک ترانسفورماتور بینایی تشکیل شده است. شبکه مختصات نشانه های چهره (به عنوان مثال، بینی، دهان و غیره) را پیش بینی می کند، در حالی که ترانسفورماتور تکه های حاوی نشانه های پیش بینی شده را تجزیه و تحلیل می کند.

محققان ترانسفورماتورهای مختلف چهره را با استفاده از دو مجموعه داده معروف آموزش دادند، یعنی MS1MV3 که حاوی تصاویر 93431 نفر و VGGFace2 با 3.1 میلیون تصویر و 8600 هویت است. متعاقباً، آنها یک سری آزمایش برای ارزیابی مدل‌های خود انجام دادند، همچنین برخی از ویژگی‌های آن‌ها را تغییر دادند تا بررسی کنند که چگونه این کار بر عملکرد آنها تأثیر می‌گذارد. معماری آن‌ها دقت قابل‌توجهی را برای تمام مجموعه‌های داده‌ای که روی آن‌ها آزمایش شده بود، به دست آورد، که با بسیاری از مدل‌های پیشرفته تشخیص چهره دیگر قابل مقایسه است. علاوه بر این، به نظر می‌رسد که مدل‌های آن‌ها با موفقیت نشانه‌های چهره را بدون اینکه به طور خاص برای آن آموزش دیده باشند، مشخص می‌کنند. در آینده، این مطالعه اخیر می‌تواند الهام‌بخش توسعه مدل‌های دیگر برای تشخیص چهره بر اساس ترانسفورماتورهای بینایی باشد. علاوه بر این، معماری محققان را می‌توان در برنامه‌ها یا ابزارهای نرم‌افزاری پیاده‌سازی کرد که می‌توانند از تجزیه و تحلیل انتخابی نشانه‌های مختلف چهره بهره ببرند.

مرتبط ها