بینایی کامپیوتر به طور معمول به نظم علمی اعطای توانایی بینایی به ماشین ها ، یا شاید رنگی تر ، که به ماشین ها امکان تجزیه و تحلیل بصری محیط و محرک های درون آنها را می دهد ، اشاره دارد. این فرایند معمولاً شامل ارزیابی یک تصویر ، تصاویر یا فیلم است. انجمن بینایی ماشین ماشین بریتانیا (BMVA) Computer Vision را به عنوان "استخراج ، تجزیه و تحلیل و درک خودکار اطلاعات مفید از یک تصویر یا دنباله ای از تصاویر" تعریف می کند. نقطه مقابل تعریفی مکانیکی از بینایی ، که برای نشان دادن اهمیت و پیچیدگی میدان بینایی رایانه ای مفید است. درک واقعی از محیط زیست ما تنها از طریق نمایش بصری به دست نمی آید. در عوض ، نشانه های بصری از طریق عصب بینایی به قشر بینایی اولیه منتقل می شوند و توسط مغز تفسیر می شوند ، به معنای بسیار سبک. تفاسیر به دست آمده از این اطلاعات حسی شامل کلیت برنامه های طبیعی و تجربیات ذهنی ما می شود ، یعنی چگونه تکامل ما را برای بقا و آنچه در سراسر جهان در مورد جهان یاد می گیریم ، وادار کرده است.
از این نظر ، بینایی فقط به انتقال تصاویر برای تفسیر مربوط می شود. در حالی که محاسبه تصاویر گفته شده بیشتر شبیه اندیشه یا شناخت است و از بسیاری از توانایی های مغز استفاده می کند. از این رو ، بسیاری معتقدند که Computer Vision ، درک واقعی از محیط های بصری و زمینه های آنها ، به دلیل تسلط بر حوزه های مختلف ، راه را برای تکرارهای آینده هوش مصنوعی قوی هموار می کند. از آنجا که ما هنوز در مراحل جنینی این زمینه جذاب هستیم. این قطعه به سادگی قصد دارد تا بزرگترین پیشرفت های چشم انداز رایانه ای 2016 را روشن کند. و امیدوارم برخی از این پیشرفت ها را در ترکیبی سالم از تعاملات اجتماعی مورد انتظار در کوتاه مدت و ، در صورت لزوم ، پیش بینی های زبان به گونه ای از پایان زندگی آنطور که ما می شناسیم ، پایه گذاری کنیم.
در حالی که کار ما همیشه تا آنجا که ممکن است نوشته شده است ، بخشهای داخل این قطعه خاص ممکن است به دلیل موضوع مورد نظر ، گاهی مایل باشند. ما در کل تعاریف ابتدایی ارائه می دهیم ، اما اینها فقط درک آسان مفاهیم کلیدی را ارائه می دهند. برای حفظ تمرکز ما بر روی کارهایی که در سال 2016 تولید شده است ، غالباً به منظور اختصار مواردی حذف می شوند.
یکی از این حذفهای آشکار مربوط به عملکرد شبکه های عصبی کانولوشن (از این پس CNN ها یا ConvNets) است که در همه جا وجود دارد. زمینه بینایی کامپیوتر موفقیت AlexNet [2] در 2012 ، معماری CNN که رقبای ImageNet را کور کرد ، محرک یک انقلاب عملاً در این زمینه بود ، با محققان متعددی که رویکردهای مبتنی بر شبکه عصبی را به عنوان بخشی از دوره جدید علوم طبیعی "Computer Vision" اتخاذ کردند. . [3]
بیش از چهار سال بعد و نسخه های CNN هنوز بخش عمده ای از معماری های شبکه عصبی جدید را برای کارهای بینایی تشکیل می دهند و محققان آنها را مانند لگو بازسازی می کنند. گواهی م workingثر بر قدرت اطلاعات متن باز و یادگیری عمیق. با این حال ، توضیح CNN ها می تواند به راحتی چندین پست را در بر بگیرد و بهتر است به کسانی که تخصص عمیق تری در این زمینه و علاقه به ساختن دارند ، سپرده شود.پیچیده قابل درک است.
برای خوانندگان معمولی که مایلند قبل از شروع به کار سریع عمل کنند ، دو منبع اول را در زیر توصیه می کنیم. برای کسانی که مایل به پیشرفت هستند ، ما منابع زیر را برای تسهیل این امر دستور داده ایم: و عملکردهای پشت CNN ها. [4]
برای کسانی که مایل هستند برای درک بیشتر در مورد شبکه های عصبی و عمیق یادگیری ، ما پیشنهاد می کنیم:
به طور کلی این قطعه جدا نشده و اسپاسمودیک است ، بازتابی از هیجان و روحیه نویسندگان که قرار بود بخش به بخش مورد استفاده قرار گیرد. اطلاعات با استفاده از روشهای اکتشافی و قضاوت های خود تقسیم بندی می شوند ، که به دلیل تأثیر گسترده در بسیاری از آثار ارائه شده ، سازش لازم است.
امیدواریم که خوانندگان از تجمع اطلاعات ما در اینجا برای پیشبرد اطلاعات خود بهره مند شوند. دانش ، صرف نظر از تجربه قبلی. com/max/426/1*Q_zw5-Mu8eksQCveTK_4vQ.png ">
وظیفه طبقه بندی ، وقتی به تصاویر مربوط می شود ، عموماً به اختصاص یک برچسب به کل تصویر ، به عنوان مثال "گربه" با فرض این ، Localization ممکن است به یافتن جایی که شی در تصویر گفته شده است اشاره داشته باشد ، که معمولاً با خروجی نوعی جعبه محدود کننده در اطراف شی نشان داده می شود. تکنیک های طبقه بندی فعلی در ImageNet [9] احتمالاً از مجموعه ای از افراد آموزش دیده پیشی گرفته است. [10] به همین دلیل ، ما بر بخش های بعدی وبلاگ تأکید بیشتری می کنیم.
با این حال ، معرفی مجموعه داده های بزرگتر با افزایش تعداد کلاسها [11] به احتمال زیاد معیارهای جدیدی برای پیشرفت در آینده ی نزدیک. در این زمینه ، فرانسوا شولت ، خالق Keras ، [12] تکنیک های جدیدی از جمله معماری معمول Xception را در مجموعه داده داخلی Google با بیش از 350 میلیون تصویر چند برچسب حاوی 17000 کلاس اعمال کرده است. [13،14]
منبع: جیا دنگ (2016). بومی سازی شی ILSVRC2016: مقدمه ، نتایج. اسلاید 2. موجود: http://image-net.org/challenges/talks/2016/ILSVRC2016_10_09_clsloc.pdf
برداشتهای جالب از ImageNet LSVRC (2016):
همانطور که می توان تصور کرد فرآیند تشخیص شی دقیقاً همان کار را انجام می دهد ، اشیاء درون تصاویر را تشخیص می دهد. تعریف ارائه شده برای تشخیص شی توسط ILSVRC 2016 [20] شامل خروجی جعبه های محدود کننده و برچسب ها برای اشیاء جداگانه است. این امر با اعمال طبقه بندی و بومی سازی در بسیاری از اشیاء به جای یک شیء غالب ، متفاوت از وظیفه طبقه بندی/بومی سازی است.
یکی از گرایش های اصلی سال 2016 در تشخیص اشیاء ، حرکت به سمت یک سیستم تشخیص سریعتر و کارآمدتر بود. این در رویکردهایی مانند YOLO ، SSD و R-FCN به عنوان حرکتی برای به اشتراک گذاری محاسبه روی یک تصویر کامل قابل مشاهده بود. بنابراین ، خود را از زیر شبکه های پرهزینه مرتبط با تکنیک های سریع/سریعتر R-CNN متمایز می کنند. این به طور معمول به عنوان "آموزش/یادگیری پایان به پایان" و ویژگی ها در سراسر این بخش نامیده می شود.
دلیل کلی این است که از تمرکز الگوریتم های جداگانه بر مشکلات فرعی مربوطه جدا خودداری کنید زیرا این امر به طور معمول آموزش را افزایش می دهد. زمان و می تواند دقت شبکه را کاهش دهد. گفته می شود که این انطباق کامل با شبکه ها معمولاً پس از راه حل های اولیه زیر شبکه صورت می گیرد و به همین دلیل ، یک بهینه سازی گذشته نگر است. با این حال ، تکنیک های سریع/سریعتر R-CNN بسیار م remainثر است و هنوز هم به طور گسترده برای تشخیص شی استفاده می شود.
منبع: هوانگ و همکاران. (2016 ، ص 9) [31]
هوانگ و همکاران (2016) [32] مقاله ای ارائه می دهد که مقایسه عمیقی بین R-FCN ، SSD و R-CNN سریعتر ارائه می دهد. با توجه به مسائل مربوط به مقایسه دقیق تکنیک های یادگیری ماشین (ML) ، ما می خواهیم در اینجا به مزایای تولید رویکرد استاندارد اشاره کنیم. آنها به این معماری ها به عنوان "معماری فرا" نگاه می کنند زیرا می توانند با انواع مختلف استخراج کننده های ویژگی مانند ResNet یا Inception ترکیب شوند. ، استخراج ویژگی و وضوح تصویر. به عنوان مثال ، انتخاب ویژگی های استخراج تغییرات زیادی بین معماری متا ایجاد می کند.
روند تشخیص ارزان قیمت و کارآمد در عین حفظ دقت مورد نیاز برای برنامه های تجاری در زمان واقعی ، به ویژه در برنامه های رانندگی خودران ، همچنین توسط مقالات SqueezeDet [33] و PVANet [34] نشان داده می شود. در حالی که یک شرکت چینی ، DeepGlint ، مثال خوبی از تشخیص شیء در عمل به عنوان یکپارچه دوربین مدار بسته ، البته به صورت مبهم Orwellian ارائه می دهد: ویدئو. [35]
نتایج از ILSVRC و COCO Detection Challenge
COCO [36] (اشیاء مشترک در زمینه) یک مجموعه داده تصویری دیگر است. با این حال ، این دستگاه نسبت به گزینه های دیگر مانند ImageNet نسبتاً کوچکتر و تنظیم شده است ، با تمرکز بر تشخیص شی در زمینه وسیع تر درک صحنه. سازمان دهندگان سالانه میزبان چالش تشخیص شیء ، تقسیم بندی هستندو نکات کلیدی نتایج تشخیص از ILSVRC [37] و COCO [38] Detection Challenge عبارتند از: برنده 109 مورد از 200 دسته بندی شی. AP
در بررسی نتایج تشخیص در سال 2016 ، ImageNet اظهار داشت که "MSRAVC 2015" برای عملکرد [معرفی ResNets در رقابت] بسیار بالا بود. عملکرد در همه کلاس ها در ورودی ها بهبود یافته است. بومی سازی در هر دو چالش بسیار بهبود یافته است. بهبود نسبی بالا در موارد اجسام کوچک '(ImageNet، 2016). [39]
اشاره به فرایند پیروی از یک شیء مورد علاقه خاص یا چند شیء ، در یک صحنه معین. به طور سنتی در تعاملات ویدئویی و دنیای واقعی کاربردهایی دارد که در آن مشاهدات پس از تشخیص اولیه شیء انجام می شود. این فرایند برای سیستم های رانندگی خودران برای مثال بسیار مهم است. با نرخ فریم بیش از زمان واقعی عمل می کند. این مقاله تلاش می کند تا فقدان غنی موجود برای ردیابی مدلها از روشهای سنتی یادگیری آنلاین را برطرف کند.
ویدیوی GOTURN (ردیابی اشیاء عمومی با استفاده از شبکه های رگرسیون) موجود است: ویدئو [ 42]
ما خوانندگان را تشویق می کنیم تا این مقاله را از طریق وب سایت خود مشاهده کنند ، زیرا ما شامل محتوای تعبیه شده و عملکردهای ناوبری آسان برای ایجاد گزارش تا حد امکان پویا هستیم. ما از طریق وب سایت خود هیچ درآمدی نداریم و می خواهیم آن را تا آنجا که ممکن است برای خوانندگان جذاب و شهودی باشد ، بنابراین هرگونه بازخورد درباره ارائه در آنجا با تمام وجود مورد استقبال ما قرار می گیرد!
با ما تماس بگیرید ، سپاس فراوان ،
The M Tank

قطعه کامل در آدرس زیر قابل دسترسی است: http: //www.themtank.org/publications/a-year-in-computer-vision
[1] British Machine Vision Association (BMVA). 2016. بینایی کامپیوتری چیست؟ [آنلاین] موجود در: http://www.bmva.org/visionoverview [دسترسی 21/12/2016]
[2] Krizhevsky، A.، Sutskever، I. and Hinton، GE 2012. طبقه بندی ImageNet با شبکه های عصبی متحرک عمیق ، NIPS 2012: سیستم های پردازش اطلاعات عصبی ، دریاچه تاهو ، نوادا. موجود: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf
[3] کوهن ، تی اس اس 1962. ساختار انقلاب های علمی. ویرایش چهارم ایالات متحده: انتشارات دانشگاه شیکاگو.
[4] Karpathy، A. 2015. نظر یک شبکه عصبی عمیق در مورد #selfie شما چیست. [وبلاگ] وبلاگ Andrej Karpathy. موجود: http://karpathy.github.io/2015/10/25/selfie/[دسترسی: 21/12/2016]
[5] Quora. 2016. شبکه عصبی کانولوشن چیست؟ [آنلاین] موجود: https://www.quora.com/What-is-a-convolutional-neural-network [دسترسی: 21/12/2016]
[6] دانشگاه استنفورد. 2016. شبکه های عصبی تحولی برای تشخیص بصری. [آنلاین] CS231n. موجود: http://cs231n.stanford.edu/[دسترسی 21/12/2016]
[7] Goodfellow و همکاران. 2016. یادگیری عمیق. مطبوعات MIT [آنلاین] http://www.deeplearningbook.org/[دسترسی: 21/12/2016] توجه: فصل 9 ، شبکه های تحول آفرین [موجود: http://www.deeplearningbook.org/contents/convnets.html ]
[8] نیلسن ، م. 2017. شبکه های عصبی و یادگیری عمیق. [آنلاین] کتاب الکترونیکی. موجود: http://neuralnetworksanddeeplearning.com/index.html [دسترسی: 06/03/2017].
[9] ImageNet به مجموعه داده های تصویری محبوب برای Computer Vision اشاره دارد. هر سال شرکت کنندگان در مجموعه ای از وظایف مختلف به نام ImageNet Large Scale Visual Recognition Challenge (ILSVRC) رقابت می کنند. موجود: http://image-net.org/challenges/LSVRC/2016/index
[10] به "آنچه از رقابت با ConvNet در ImageNet آموختم" توسط آندره کارپاتی مراجعه کنید. پست وبلاگ جزئیات سفر نویسنده برای ارائه معیار انسانی در برابر مجموعه داده ILSVRC 2014 است. میزان خطا تقریبا 5.1 vers در مقابل خطای طبقه بندی GoogLeNet 6.8 then بود. موجود: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/
[11] مشاهده جدید مجموعه داده ها بعدا در این قسمت.
[12] Keras یک کتابخانه یادگیری عمیق مبتنی بر شبکه عصبی است: https://keras.io/
[13] Chollet، F. 2016. جاسازی برچسب اطلاعاتی-نظری برای طبقه بندی تصویر در مقیاس بزرگ. [آنلاین] arXiv: 1607.05691. موجود: arXiv: 1607.05691v1
[14] Chollet، F. 2016. استثنا: یادگیری عمیق با ترکیبات عمیق تفکیک پذیر. [آنلاین] arXiv: 1610.02357. موجود: arXiv: 1610.02357v2
[15] مجموعه داده Places2 ، جزئیات موجود: http://places2.csail.mit.edu/. همچنین به بخش مجموعه داده های جدید مراجعه کنید.
[16] Hikvision.2016. Hikvision در چالش ImageNet 2016 رتبه 1 را در طبقه بندی صحنه کسب کرد. [آنلاین] دفتر اخبار امنیتی. موجود: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/[دسترسی: 20/03/2017].
[17] برای اطلاعات بیشتر به شبکه های باقیمانده در قسمت چهارم این نشریه مراجعه کنید.
[18] جزئیات موجود در زیر اطلاعات تیم Trimps-Soushen از: http://image-net.org/challenges/LSVRC/2016/results
[19] Xie، S.، Girshick، R.، Dollar، P.، Tu، Z. & He، K. 2016. مجموع تحولات باقیمانده برای شبکه های عصبی عمیق. [آنلاین] arXiv: 1611.05431. موجود: arXiv: 1611.05431v1
[20] ImageNet Large Scale Visual Recognition Challenge (2016) ، قسمت دوم ، موجود: http://image-net.org/challenges/LSVRC/2016/[دسترسی: 22/11/2016]
[21] هو و رامانان. 2016. یافتن چهره های ریز. [آنلاین] arXiv: 1612.04402. موجود: arXiv: 1612.04402v1
[22] Liu et al. 2016. SSD: آشکارساز چند شبه تک شات. [آنلاین] arXiv: 1512.02325v5. موجود: arXiv: 1512.02325v5
[23] Redmon، J. Ferhadi، A. 2016. YOLO9000: بهتر ، سریعتر ، قوی تر. [آنلاین] arXiv: 1612.08242v1. موجود: arXiv: 1612.08242v1
[24] YOLO مخفف عبارت "You Only Look Only Once" است.
[25] Redmon et al. 2016. شما فقط یکبار نگاه می کنید: یکپارچه ، تشخیص اشیاء در زمان واقعی. [آنلاین] arXiv: 1506.02640. موجود: arXiv: 1506.02640v5
[26] ردمون. 2017. YOLO: تشخیص شی در زمان واقعی. [وب سایت] pjreddie.com. موجود: https://pjreddie.com/darknet/yolo/[دسترسی: 01/03/2017].
[27] لین و همکاران 2016. ویژگی شبکه های هرمی برای تشخیص شی. [آنلاین] arXiv: 1612.03144. موجود: arXiv: 1612.03144v1
[28] تحقیقات هوش مصنوعی فیس بوک
[29] مجموعه داده های تصویری Objects in Context (COCO)
[30] Dai و همکاران 2016. R-FCN: تشخیص شی از طریق شبکه های کاملاً تحول محور مبتنی بر منطقه. [آنلاین] arXiv: 1605.06409. موجود: arXiv: 1605.06409v2
[31] هوانگ و همکاران. 2016. جابجایی سرعت/دقت برای آشکارسازهای اجسام پیچشی مدرن. [آنلاین] arXiv: 1611.10012. موجود: arXiv: 1611.10012v1
[32] همان
[33] وو و همکاران. 2016. SqueezeDet: شبکه های عصبی متحد ، کوچک ، کم مصرف و کاملاً متحرک برای تشخیص شیء در زمان واقعی برای رانندگی مستقل. [آنلاین] arXiv: 1612.01051. موجود: arXiv: 1612.01051v2
[34] Hong et al. 2016. PVANet: شبکه های عصبی سبک عمیق برای تشخیص اشیاء در زمان واقعی. [آنلاین] arXiv: 1611.08588v2. موجود: arXiv: 1611.08588v2
[35] DeepGlint Official. 2016. DeepGlint CVPR2016. [آنلاین] Youtube.com. موجود: https://www.youtube.com/watch؟v=xhp47v5OBXQ [دسترسی: 01/03/2017].
[36] COCO - Objects Common in Common. 2016. [وب سایت] موجود: http://mscoco.org/[دسترسی: 04/01/2017].
[37] نتایج ILSRVC برگرفته از: ImageNet. 2016. چالش تشخیص بصری در مقیاس بزرگ 2016.
[وب سایت] تشخیص شی. در دسترس: http://image-net.org/challenges/LSVRC/2016/results [دسترسی: 04/01/2017].
[38] نتایج چالش تشخیص COCO برگرفته از: COCO-Objects Common مشترک. 2016. تابلوی تشخیص [وب سایت] mscoco.org. موجود: http://mscoco.org/dataset/#detections-leaderboard [دسترسی: 05/01/2017].
[39] ImageNet. 2016. [آنلاین] ارائه کارگاه ، اسلاید 31. موجود: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [دسترسی: 06/01/2017].
[ 40] برتینتو و همکاران. 2016. شبکه های سیامی کاملاً متحول برای ردیابی اشیاء. [آنلاین] arXiv: 1606.09549. موجود: https://arxiv.org/abs/1606.09549v2
[41] Held et al. 2016. آموزش ردیابی در 100 FPS با شبکه های رگرسیون عمیق. [آنلاین] arXiv: 1604.01802. موجود: https://arxiv.org/abs/1604.01802v2
[42] David Held. 2016. GOTURN - یک ردیاب شبکه عصبی. [آنلاین] YouTube.com. در دسترس: https://www.youtube.com/watch؟v=kMhwXnLgT_I [دسترسی: 03/03/2017].
[43] Gladh et al. 2016. ویژگی های حرکت عمیق برای ردیابی بصری. [آنلاین] arXiv: 1612.06615. موجود: arXiv: 1612.06615v1
[44] گایدون و همکاران 2016. دنیای مجازی به عنوان پروکسی برای تجزیه و تحلیل ردیابی چند شیء. [آنلاین] arXiv: 1605.06457. موجود: arXiv: 1605.06457v1
[45] لی و همکاران 2016. ردیابی جهانی بهینه اشیاء با شبکه های کاملاً متحول. [آنلاین] arXiv: 1612.08274. موجود: arXiv: 1612.08274v1