الگوریتمی برای تشخیص تصویر توسط دانشمندی توسعه داده شده است که 40٪ سریعتر از آنالوگها کار می کند.


پژوهشگری از دانشگاه HSE الگوریتمی برای شناسایی تصویر ایجاد کرده است که 40٪ سریعتر از آنالوگها کار می کند. این می تواند پردازش در زمان واقعی سیستم های تشخیص تصویر مبتنی بر ویدیو را تسریع کند. نتایج این مطالعه در مجله Information Science منتشر شده است.
شبکه های عصبی کانولوشن (CNN) که شامل توالی لایه های کانولوشن است ، به طور گسترده ای در بینایی رایانه استفاده می شود. هر لایه در یک شبکه یک ورودی و یک خروجی دارد. شرح دیجیتالی تصویر به ورودی لایه اول می رود و در خروجی به مجموعه ای متفاوت از اعداد تبدیل می شود. نتیجه به ورودی به لایه بعدی انتقال می یابد و به همین ترتیب ادامه می یابد تا زمانی که برچسب کلاس شی در تصویر در لایه آخر پیش بینی شود. به عنوان مثال ، این کلاس می تواند یک شخص ، گربه یا صندلی باشد. برای این منظور ، CNN بر روی مجموعه ای از تصاویر با برچسب کلاس شناخته شده آموزش داده می شود. هرچه تعداد و تنوع تصاویر هر کلاس در مجموعه داده بیشتر باشد ، شبکه آموزش دیده از دقت بیشتری برخوردار خواهد بود.
اگر فقط چند نمونه در مجموعه آموزش وجود داشته باشد ، از آموزش اضافی (تنظیم دقیق) شبکه عصبی استفاده می شود. CNN آموزش دیده است تا تصاویر یک مجموعه داده مشابه را که مشکل اصلی را حل می کند ، تشخیص دهد. به عنوان مثال ، هنگامی که یک شبکه عصبی می آموزد چهره ها یا ویژگی های آنها (احساسات ، جنسیت ، سن) را تشخیص دهد ، برای شناسایی افراد مشهور از عکس های آنها آموزش اولیه داده می شود. سپس شبکه عصبی حاصل برای تنظیم چهره خانواده یا بستگان در سیستم های نظارت تصویری خانگی ، بر روی مجموعه داده کوچک موجود تنظیم می شود. عمق (تعداد) لایه های بیشتر در CNN وجود دارد، با دقت بیشتری نوع شی object تصویر را پیش بینی می کند. با این حال ، اگر تعداد لایه ها افزایش یابد ، زمان بیشتری برای شناسایی اشیا لازم است.
پروفسور آندری ساوچنکو، ارائه دهنده این پژوهش از پردیس HSE در نیژنی نوگورود ، توانست در آزمایشات خود را به سرعت یک شبکه عصبی کانولوشن از قبل آموزش دیده با معماری دلخواه سرعت ببخشد. نتیجه افزایش سرعت شناسایی تا 40٪ بود ، در حالی که کنترل از دست دادن دقت بیش از 0.5-1٪ بود. این دانشمند به روش های آماری مانند تجزیه و تحلیل متوالی و مقایسه های متعدد (آزمایش فرضیه چندگانه) تکیه کرده است.
تصمیم در مسئله شناسایی تصویر توسط یک طبقه بندی کننده - یک الگوریتم خاص ریاضی که آرایه ای از اعداد (ویژگی ها / جاسازی های یک تصویر) را به عنوان ورودی دریافت می کند و یک پیش بینی در مورد اینکه تصویر به کدام کلاس تعلق دارد ، صادر می کند. طبقه بندی کننده را می توان با تغذیه خروجی های هر لایه از شبکه عصبی به کار برد. برای شناسایی تصاویر "ساده" ، طبقه بندی کننده فقط باید داده ها (خروجی ها) را از لایه های اول شبکه عصبی شناسایی نماید.
اگر از قبل به قابلیت اطمینان تصمیم گیری شده اطمینان داشته باشیم ، نیازی به اتلاف وقت بیشتر نیست. برای تصاویر "پیچیده" ، لایه های اول کاملاً کافی نیستند - شما باید به لایه های بعدی بروید. بنابراین ، طبقه بندی کننده ها به چندین لایه میانی به شبکه عصبی اضافه شدند. بسته به پیچیدگی تصویر ورودی ، الگوریتم پیشنهادی تصمیم گرفت که آیا تشخیص را ادامه دهد یا آن را کامل کند. پروفسور ساوچنکو توضیح می دهد ، از آنجا که کنترل خطاها در چنین روشی مهم است ، من تئوری مقایسه های متعدد را به کار گرفتم: فرضیه های زیادی را ارائه کردم که در آن لایه میانی متوقف می شود و این فرضیه ها را به ترتیب آزمایش نمودم.
اگر طبقه بندی کننده اول تصمیمی را اتخاذ می کرد که با روش آزمون فرضیه های متعدد قابل اعتماد تلقی شود ، الگوریتم متوقف می شد. اگر تصمیم غیرقابل اطمینان اعلام می شد، محاسبات در شبکه عصبی تا لایه میانی ادامه می یافت و بررسی قابلیت اطمینان تکرار می شد.
همانطور که این دانشمند متذکر می شود، دقیق ترین تصمیمات برای خروجی آخرین لایه های شبکه عصبی به دست می آید. خروجی های اولیه شبکه بسیار سریعتر طبقه بندی می شوند ، بدین معنی که برای تسریع در تشخیص کنترل از دست دادن دقت، لازم است که به طور همزمان همه طبقه بندی کننده ها آموزش داده شوند. به عنوان مثال ، به طوری که خطای ناشی از توقف زودهنگام بیش از 1٪ نباشد.
"دقت بالا برای تشخیص تصویر همیشه مهم است. به عنوان مثال ، اگر تصمیمی در سیستم های تشخیص چهره به اشتباه گرفته شود ، هر کسی در خارج از کشور می تواند به اطلاعات محرمانه دسترسی پیدا کند یا برعکس کاربر به طور مکرر دسترسی نخواهد داشت، زیرا شبکه عصبی نمی تواند او را شناسایی کند، سرعت گاهی قربانی میشود ، اما به عنوان مثال در سیستم های نظارت تصویری ، تصمیم گیری در زمان واقعی ، یعنی بیش از 20-30 میلی ثانیه در هر فریم ، بسیار مهم است. برای شناسایی یک شی در یک قاب ویدیویی در اینجا و اکنون ، بسیار مهم است که سریع و بدون از دست دادن دقت عمل کنیم. "

به سایت hamishygun.com ، آرمین تجهیز نگار ایمن خوش آمدید.

https://hamishygun.com/

×

سلام!

برای چت در واتس اپ بر روی گزینه پشتیبانی کلیک نمایید و یا درصورت تمایل می توانید به آدرس info@Hamishygun.com  ایمیل ارسال نمایید.

× چگونه می‌توانم به شما کمک کنم؟