اختصاصی شبکه علمی ثریا- فیلمهای ویدئویی شناسایی کنند. این ابزارها در حال حاضر در طیف گستردهای از تنظیمات دنیای واقعی ، برای مثال کمک به مجریان قانون و مأموران کنترل مرزی در تحقیقات جنایی و تلاشهای نظارتی و همچنین برای احراز هویت و کاربردهای بیومتریک استفاده میشوند. در حالی که اکثر مدل های موجود عملکرد قابل توجهی دارند، ممکن است هنوز جای زیادی برای بهبود عملکردشان وجود داشته باشد. محققان دانشگاه کوئین مری لندن اخیراً یک معماری جدید و امیدوارکننده برای تشخیص چهره ایجاد کردهاند. این معماری که در مقاله ای از پیش منتشر شده در arXiv ارائه شده است، مبتنی بر استراتژی استخراج ویژگی های صورت از تصاویر است که با بسیاری از مواردی که تاکنون ارائه شده است متفاوت است. ژونگلین سان و جورجیوس تزیمیروپولوس، دو محققی که این مطالعه را انجام دادند، به TechXplore گفتند: «روشهای کلنگر با استفاده از شبکههای عصبی کانولوشنال (CNN) و مبتنی بر حاشیه بر تحقیقات در زمینه تشخیص چهره مورد استفاده قرار میگیرند.
در این کار، ما از این تنظیمات به دو صورت فاصله می گیریم:
(الف) ما از Vision Transformer به عنوان یک معماری برای آموزش یک پایه بسیار قوی برای تشخیص چهره استفاده می کنیم، که به سادگی fViT نامیده می شود، که در حال حاضر از پیشرفته ترین روشهای تشخیص چهره پیشی گرفته است.
(ب) ثانیاً، ما از ویژگی ذاتی ترانسفورماتور برای پردازش اطلاعات (توکنهای بصری) استخراجشده از شبکههای نامنظم برای طراحی خط لولهای برای تشخیص چهره که یادآور روشهای تشخیص چهره مبتنی بر بخشی است، استفاده میکنیم.
بیشتر رویکردهای گسترده تشخیص چهره مبتنی بر CNN ها هستند، کلاسی از شبکه های عصبی مصنوعی (CNN) که می توانند به طور مستقل پیدا کردن الگوها در تصاویر، به عنوان مثال شناسایی اشیاء یا افراد خاص را بیاموزند. در حالی که برخی از این روشها عملکرد بسیار خوبی داشتند، ابزار جدید پتانسیل کلاس دیگری از الگوریتمها را برای تشخیص چهره، به نام ترانسفورماتور بینایی (ViTs) برجسته کرد. برخلاف CNN ها، که معمولاً تصاویر را به طور کامل تجزیه و تحلیل می کنند، ViT ها یک تصویر را به تکه هایی با اندازه خاص تقسیم می کنند و سپس جاسازی هایی را به این وصله ها اضافه می کنند. سپس دنباله بردارها به یک ترانسفورماتور استاندارد، یک مدل یادگیری عمیق که به طور متفاوت بخشهای مختلف دادههایی را که در حال تجزیه و تحلیل است، وزن میکند، تغذیه میشود.
محققان در مقاله خود توضیح دادند: "ViT، برخلاف CNN ها، در واقع می تواند روی تکه های استخراج شده از شبکه های نامنظم کار کند و نیازی به شبکه نمونه برداری با فاصله یکنواخت برای کانولوشن ها ندارد." «از آنجایی که چهره انسان یک شی ساختار یافته است که از قسمتهایی (مانند چشمها، بینی، لبها) و الهامگرفته از کار منی روی تشخیص چهره مبتنی بر قسمتی قبل از یادگیری عمیق است، پیشنهاد میکنیم که ViT را روی تکههایی که قسمتهای صورت را نشان میدهند، اعمال کنیم.» معماری ترانسفورماتور بینایی ایجاد شده توسط Sun و Tzimiropoulos که fViT نام دارد، از یک شبکه سبک وزن و یک ترانسفورماتور بینایی تشکیل شده است. شبکه مختصات نشانه های چهره (به عنوان مثال، بینی، دهان و غیره) را پیش بینی می کند، در حالی که ترانسفورماتور تکه های حاوی نشانه های پیش بینی شده را تجزیه و تحلیل می کند.
محققان ترانسفورماتورهای مختلف چهره را با استفاده از دو مجموعه داده معروف آموزش دادند، یعنی MS1MV3 که حاوی تصاویر 93431 نفر و VGGFace2 با 3.1 میلیون تصویر و 8600 هویت است. متعاقباً، آنها یک سری آزمایش برای ارزیابی مدلهای خود انجام دادند، همچنین برخی از ویژگیهای آنها را تغییر دادند تا بررسی کنند که چگونه این کار بر عملکرد آنها تأثیر میگذارد. معماری آنها دقت قابلتوجهی را برای تمام مجموعههای دادهای که روی آنها آزمایش شده بود، به دست آورد، که با بسیاری از مدلهای پیشرفته تشخیص چهره دیگر قابل مقایسه است. علاوه بر این، به نظر میرسد که مدلهای آنها با موفقیت نشانههای چهره را بدون اینکه به طور خاص برای آن آموزش دیده باشند، مشخص میکنند. در آینده، این مطالعه اخیر میتواند الهامبخش توسعه مدلهای دیگر برای تشخیص چهره بر اساس ترانسفورماتورهای بینایی باشد. علاوه بر این، معماری محققان را میتوان در برنامهها یا ابزارهای نرمافزاری پیادهسازی کرد که میتوانند از تجزیه و تحلیل انتخابی نشانههای مختلف چهره بهره ببرند.