یک سال در بینایی رایانه ای - قسمت 1 از 4

یک سال در بینایی رایانه ای - قسمت 1 از 4

- قسمت اول: طبقه بندی/محلی سازی ، تشخیص شی و ردیابی اشیا

مقدمه

بینایی کامپیوتر به طور معمول به نظم علمی اعطای توانایی بینایی به ماشین ها ، یا شاید رنگی تر ، که به ماشین ها امکان تجزیه و تحلیل بصری محیط و محرک های درون آنها را می دهد ، اشاره دارد. این فرایند معمولاً شامل ارزیابی یک تصویر ، تصاویر یا فیلم است. انجمن بینایی ماشین ماشین بریتانیا (BMVA) Computer Vision را به عنوان "استخراج ، تجزیه و تحلیل و درک خودکار اطلاعات مفید از یک تصویر یا دنباله ای از تصاویر" تعریف می کند. نقطه مقابل تعریفی مکانیکی از بینایی ، که برای نشان دادن اهمیت و پیچیدگی میدان بینایی رایانه ای مفید است. درک واقعی از محیط زیست ما تنها از طریق نمایش بصری به دست نمی آید. در عوض ، نشانه های بصری از طریق عصب بینایی به قشر بینایی اولیه منتقل می شوند و توسط مغز تفسیر می شوند ، به معنای بسیار سبک. تفاسیر به دست آمده از این اطلاعات حسی شامل کلیت برنامه های طبیعی و تجربیات ذهنی ما می شود ، یعنی چگونه تکامل ما را برای بقا و آنچه در سراسر جهان در مورد جهان یاد می گیریم ، وادار کرده است.

از این نظر ، بینایی فقط به انتقال تصاویر برای تفسیر مربوط می شود. در حالی که محاسبه تصاویر گفته شده بیشتر شبیه اندیشه یا شناخت است و از بسیاری از توانایی های مغز استفاده می کند. از این رو ، بسیاری معتقدند که Computer Vision ، درک واقعی از محیط های بصری و زمینه های آنها ، به دلیل تسلط بر حوزه های مختلف ، راه را برای تکرارهای آینده هوش مصنوعی قوی هموار می کند. از آنجا که ما هنوز در مراحل جنینی این زمینه جذاب هستیم. این قطعه به سادگی قصد دارد تا بزرگترین پیشرفت های چشم انداز رایانه ای 2016 را روشن کند. و امیدوارم برخی از این پیشرفت ها را در ترکیبی سالم از تعاملات اجتماعی مورد انتظار در کوتاه مدت و ، در صورت لزوم ، پیش بینی های زبان به گونه ای از پایان زندگی آنطور که ما می شناسیم ، پایه گذاری کنیم.

در حالی که کار ما همیشه تا آنجا که ممکن است نوشته شده است ، بخشهای داخل این قطعه خاص ممکن است به دلیل موضوع مورد نظر ، گاهی مایل باشند. ما در کل تعاریف ابتدایی ارائه می دهیم ، اما اینها فقط درک آسان مفاهیم کلیدی را ارائه می دهند. برای حفظ تمرکز ما بر روی کارهایی که در سال 2016 تولید شده است ، غالباً به منظور اختصار مواردی حذف می شوند.

یکی از این حذفهای آشکار مربوط به عملکرد شبکه های عصبی کانولوشن (از این پس CNN ها یا ConvNets) است که در همه جا وجود دارد. زمینه بینایی کامپیوتر موفقیت AlexNet [2] در 2012 ، معماری CNN که رقبای ImageNet را کور کرد ، محرک یک انقلاب عملاً در این زمینه بود ، با محققان متعددی که رویکردهای مبتنی بر شبکه عصبی را به عنوان بخشی از دوره جدید علوم طبیعی "Computer Vision" اتخاذ کردند. . [3]

بیش از چهار سال بعد و نسخه های CNN هنوز بخش عمده ای از معماری های شبکه عصبی جدید را برای کارهای بینایی تشکیل می دهند و محققان آنها را مانند لگو بازسازی می کنند. گواهی م workingثر بر قدرت اطلاعات متن باز و یادگیری عمیق. با این حال ، توضیح CNN ها می تواند به راحتی چندین پست را در بر بگیرد و بهتر است به کسانی که تخصص عمیق تری در این زمینه و علاقه به ساختن دارند ، سپرده شود.پیچیده قابل درک است.

برای خوانندگان معمولی که مایلند قبل از شروع به کار سریع عمل کنند ، دو منبع اول را در زیر توصیه می کنیم. برای کسانی که مایل به پیشرفت هستند ، ما منابع زیر را برای تسهیل این امر دستور داده ایم: و عملکردهای پشت CNN ها. [4] مباحث: "شبکه عصبی پیچشی چیست؟" - هیچ کمبودی در پیوندها و توضیحات عالی ندارد. به ویژه برای کسانی که هیچ درک قبلی ندارند. [5] CS231n: شبکه های عصبی متحول برای تشخیص بصری از دانشگاه استنفورد یک منبع عالی برای عمق بیشتر است. [6] یادگیری عمیق (Goodfellow، Bengio & Courville، 2016) توضیحات مفصلی در مورد ویژگی ها و عملکرد CNN در فصل 9 ارائه می دهد. کتاب درسی به صورت رایگان و با قالب HTML توسط نویسندگان در دسترس قرار گرفته است. [7]

برای کسانی که مایل هستند برای درک بیشتر در مورد شبکه های عصبی و عمیق یادگیری ، ما پیشنهاد می کنیم:

شبکه های عصبی و یادگیری عمیق (نیلسن ، 2017) یک کتاب درسی آنلاین رایگان است که درک واقعاً شهودی از پیچیدگی های عصبی را در اختیار خواننده قرار می دهد. شبکه ها و یادگیری عمیق حتی تکمیل فصل اول باید موضوع این قطعه را برای اولین بار تا حد زیادی روشن کند. [8]

به طور کلی این قطعه جدا نشده و اسپاسمودیک است ، بازتابی از هیجان و روحیه نویسندگان که قرار بود بخش به بخش مورد استفاده قرار گیرد. اطلاعات با استفاده از روشهای اکتشافی و قضاوت های خود تقسیم بندی می شوند ، که به دلیل تأثیر گسترده در بسیاری از آثار ارائه شده ، سازش لازم است.

امیدواریم که خوانندگان از تجمع اطلاعات ما در اینجا برای پیشبرد اطلاعات خود بهره مند شوند. دانش ، صرف نظر از تجربه قبلی. com/max/426/1*Q_zw5-Mu8eksQCveTK_4vQ.png ">

طبقه بندی/محلی سازی

وظیفه طبقه بندی ، وقتی به تصاویر مربوط می شود ، عموماً به اختصاص یک برچسب به کل تصویر ، به عنوان مثال "گربه" با فرض این ، Localization ممکن است به یافتن جایی که شی در تصویر گفته شده است اشاره داشته باشد ، که معمولاً با خروجی نوعی جعبه محدود کننده در اطراف شی نشان داده می شود. تکنیک های طبقه بندی فعلی در ImageNet [9] احتمالاً از مجموعه ای از افراد آموزش دیده پیشی گرفته است. [10] به همین دلیل ، ما بر بخش های بعدی وبلاگ تأکید بیشتری می کنیم.

شکل 1: وظایف بینایی کامپیوتر منبع: فی فی لی ، آندریج کارپاتی و جاستین جانسون (2016) cs231n ، سخنرانی 8-اسلاید 8 ، محلی سازی و تشخیص فضایی (01/02/2016). در دسترس: http://cs231n.stanford.edu/slides/2016/winter1516_lecture8.pdf

با این حال ، معرفی مجموعه داده های بزرگتر با افزایش تعداد کلاسها [11] به احتمال زیاد معیارهای جدیدی برای پیشرفت در آینده ی نزدیک. در این زمینه ، فرانسوا شولت ، خالق Keras ، [12] تکنیک های جدیدی از جمله معماری معمول Xception را در مجموعه داده داخلی Google با بیش از 350 میلیون تصویر چند برچسب حاوی 17000 کلاس اعمال کرده است. [13،14]

شکل 2: نتایج طبقه بندی/بومی سازی از ILSVRC (2010–2016) توجه: چالش تشخیص بصری در مقیاس بزرگ ImageNet (ILSVRC). تغییر در نتایج از سال 2011 تا 2012 ناشی از ارسال AlexNet. برای مروری بر الزامات چالش مربوط به طبقه بندی و محلی سازی مراجعه کنید: http://www.image-net.org/challenges/LSVRC/2016/index#comp

منبع: جیا دنگ (2016). بومی سازی شی ILSVRC2016: مقدمه ، نتایج. اسلاید 2. موجود: http://image-net.org/challenges/talks/2016/ILSVRC2016_10_09_clsloc.pdf

برداشتهای جالب از ImageNet LSVRC (2016):

طبقه بندی صحنه به وظیفه برچسب زدن یک تصویر با کلاس صحنه خاصی مانند اشاره می کند"گلخانه" ، "استادیوم" ، "کلیسای جامع" و غیره. ImageNet سال گذشته یک چالش طبقه بندی صحنه را با زیرمجموعه مجموعه داده Places2 [15] برگزار کرد: 8 میلیون تصویر برای آموزش با 365 دسته صحنه. هایک ویژن [16] با 9٪ خطای برتر 5 با مجموعه ای از شبکه های عمیق به سبک Inception و شبکه های باقیمانده نه چندان عمیق برنده شد. Trimps-Soushen با 2.99٪ برنده وظیفه طبقه بندی ImageNet شد. بالا 5 خطای طبقه بندی و 7.71 error خطای محلی سازی. این گروه برای طبقه بندی (به طور میانگین نتایج مدل های Inception ، Inception-Resnet ، ResNet و Wide Residual Networks [17]) و R-CNN سریعتر را برای محلی سازی بر اساس برچسب ها به کار گرفت. [18] مجموعه داده در 1000 کلاس تصویر با 1.2 میلیون تصویر به عنوان داده های آموزشی ارائه شد. داده های آزمایش تقسیم شده 100 هزار تصویر دیده نشده دیگر را گردآوری کرد. ResNeXt توسط فیس بوک با استفاده از معماری جدید که معماری اصلی ResNet را گسترش می دهد ، با 3.03٪ در رتبه پنجم خطای طبقه بندی قرار گرفت. [19]

تشخیص شی

همانطور که می توان تصور کرد فرآیند تشخیص شی دقیقاً همان کار را انجام می دهد ، اشیاء درون تصاویر را تشخیص می دهد. تعریف ارائه شده برای تشخیص شی توسط ILSVRC 2016 [20] شامل خروجی جعبه های محدود کننده و برچسب ها برای اشیاء جداگانه است. این امر با اعمال طبقه بندی و بومی سازی در بسیاری از اشیاء به جای یک شیء غالب ، متفاوت از وظیفه طبقه بندی/بومی سازی است.

شکل 3: تشخیص شی با چهره به عنوان تنها کلاس توجه: تصویر نمونه ای از تشخیص چهره ، تشخیص شیء در یک کلاس واحد است. نویسندگان یکی از مسائل پایدار در تشخیص اشیاء را تشخیص اجسام کوچک عنوان می کنند. آنها با استفاده از چهره های کوچک به عنوان یک کلاس آزمایشی ، نقش تغییر ناپذیری مقیاس ، وضوح تصویر و استدلال زمینه ای را بررسی می کنند. منبع: هو و رامانان (2016 ، ص 1) [21]

یکی از گرایش های اصلی سال 2016 در تشخیص اشیاء ، حرکت به سمت یک سیستم تشخیص سریعتر و کارآمدتر بود. این در رویکردهایی مانند YOLO ، SSD و R-FCN به عنوان حرکتی برای به اشتراک گذاری محاسبه روی یک تصویر کامل قابل مشاهده بود. بنابراین ، خود را از زیر شبکه های پرهزینه مرتبط با تکنیک های سریع/سریعتر R-CNN متمایز می کنند. این به طور معمول به عنوان "آموزش/یادگیری پایان به پایان" و ویژگی ها در سراسر این بخش نامیده می شود.

دلیل کلی این است که از تمرکز الگوریتم های جداگانه بر مشکلات فرعی مربوطه جدا خودداری کنید زیرا این امر به طور معمول آموزش را افزایش می دهد. زمان و می تواند دقت شبکه را کاهش دهد. گفته می شود که این انطباق کامل با شبکه ها معمولاً پس از راه حل های اولیه زیر شبکه صورت می گیرد و به همین دلیل ، یک بهینه سازی گذشته نگر است. با این حال ، تکنیک های سریع/سریعتر R-CNN بسیار م remainثر است و هنوز هم به طور گسترده برای تشخیص شی استفاده می شود.

SSD: Single Shot MultiBox Detector [22] از یک شبکه عصبی واحد استفاده می کند که تمام محاسبات لازم را در بر می گیرد و حذف می کند. تولید پروپوزال پرهزینه از روش های دیگر. به 75.1 m mAP می رسد ، که از یک مدل قابل مقایسه با مدل سریعتر R-CNN بهتر است (لیو و همکاران 2016). "YOLO9000: بهتر ، سریعتر ، قوی تر" [23] ، که سیستمهای تشخیص YOLOv2 و YOLO9000 را معرفی می کند. [24] YOLOv2 مدل اولیه YOLO را از اواسط سال 2015 بسیار بهبود می بخشد [25] و می تواند در FPS بسیار بالا (حداکثر 90 FPS در تصاویر با وضوح پایین با استفاده از GTX Titan X اصلی) به نتایج بهتری برسد. علاوه بر سرعت تکمیل ، سیستم عملکرد بهتری نسبت به RCNN سریعتر داردResNet و SSD بر روی مجموعه داده های تشخیص شیء. داده ها برای مدل YOLO9000 تشخیص اشیاء در زمان واقعی را در 9000+ دسته فراهم می کند و فاصله اندازه مجموعه بین طبقه بندی و تشخیص را می بندد. جزئیات اضافی ، مدلهای از پیش آموزش دیده و ویدئویی که آن را در عمل نشان می دهد در اینجا موجود است. سلسله مراتب مقیاس هرمی شبکه های پیچشی عمیق برای ساختن اهرام با هزینه اضافی اضافی "، به این معنی که نمایش ها بدون به خطر انداختن سرعت یا حافظه قدرتمند باقی می مانند. لین و همکاران (2016) به نتایج تک مدل در COCO دست پیدا کنید. [29] غلبه بر نتایج بدست آمده از برندگان در سال 2016 در ترکیب با یک سیستم سریعتر R-CNN. یک شبکه فرعی پرهزینه برای هر منطقه صدها برابر یک تصویر با تبدیل کامل آشکارساز مبتنی بر منطقه و محاسبه کل تصویر. "نتیجه ما با سرعت آزمایش 170 میلی ثانیه در هر تصویر ، 2.5 تا 20 برابر سریعتر از نمونه سریعتر R-CNN به دست می آید" (دای و همکاران ، 2016). شکل 4: معاملات دقیق در تشخیص شی توجه: محور Y mAP (میانگین دقت متوسط) و محور X تنوع متا معماری را در هر استخراج کننده ویژگی (VGG ، MobileNet ... Inception ResNet V2) نمایش می دهد. علاوه بر این ، MAP کوچک ، متوسط ​​و بزرگ به ترتیب میانگین دقت اجسام کوچک ، متوسط ​​و بزرگ را توصیف می کند. از آنجا که چنین دقت "طبقه بندی شده توسط اندازه شی ، معماری فرا و استخراج ویژگی" و "وضوح تصویر بر روی 300 ثابت شده است". در حالی که R-CNN سریعتر نسبتاً در نمونه فوق عملکرد خوبی دارد ، شایان ذکر است که معماری متا بطور قابل ملاحظه ای کندتر از رویکردهای اخیر است ، مانند R-FCN.

منبع: هوانگ و همکاران. (2016 ، ص 9) [31]

هوانگ و همکاران (2016) [32] مقاله ای ارائه می دهد که مقایسه عمیقی بین R-FCN ، SSD و R-CNN سریعتر ارائه می دهد. با توجه به مسائل مربوط به مقایسه دقیق تکنیک های یادگیری ماشین (ML) ، ما می خواهیم در اینجا به مزایای تولید رویکرد استاندارد اشاره کنیم. آنها به این معماری ها به عنوان "معماری فرا" نگاه می کنند زیرا می توانند با انواع مختلف استخراج کننده های ویژگی مانند ResNet یا Inception ترکیب شوند. ، استخراج ویژگی و وضوح تصویر. به عنوان مثال ، انتخاب ویژگی های استخراج تغییرات زیادی بین معماری متا ایجاد می کند.

روند تشخیص ارزان قیمت و کارآمد در عین حفظ دقت مورد نیاز برای برنامه های تجاری در زمان واقعی ، به ویژه در برنامه های رانندگی خودران ، همچنین توسط مقالات SqueezeDet [33] و PVANet [34] نشان داده می شود. در حالی که یک شرکت چینی ، DeepGlint ، مثال خوبی از تشخیص شیء در عمل به عنوان یکپارچه دوربین مدار بسته ، البته به صورت مبهم Orwellian ارائه می دهد: ویدئو. [35]

نتایج از ILSVRC و COCO Detection Challenge

COCO [36] (اشیاء مشترک در زمینه) یک مجموعه داده تصویری دیگر است. با این حال ، این دستگاه نسبت به گزینه های دیگر مانند ImageNet نسبتاً کوچکتر و تنظیم شده است ، با تمرکز بر تشخیص شی در زمینه وسیع تر درک صحنه. سازمان دهندگان سالانه میزبان چالش تشخیص شیء ، تقسیم بندی هستندو نکات کلیدی نتایج تشخیص از ILSVRC [37] و COCO [38] Detection Challenge عبارتند از: برنده 109 مورد از 200 دسته بندی شی. AP چالش تشخیص COCO 2016 (کادرهای محدود): G-RMI (Google) 41.5٪ AP (4.2٪ درصد مطلق افزایش نسبت به برنده MSRAVC 2015)

در بررسی نتایج تشخیص در سال 2016 ، ImageNet اظهار داشت که "MSRAVC 2015" برای عملکرد [معرفی ResNets در رقابت] بسیار بالا بود. عملکرد در همه کلاس ها در ورودی ها بهبود یافته است. بومی سازی در هر دو چالش بسیار بهبود یافته است. بهبود نسبی بالا در موارد اجسام کوچک '(ImageNet، 2016). [39]

شکل 5: نتایج تشخیص ILSVRC از تصاویر (2013-2016) توجه: نتایج تشخیص شیء ILSVRC از تصاویر (DET) (2013-2016). منبع: ImageNet 2016. [آنلاین] ارائه کارگاه ، اسلاید 2. موجود: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf

ردیابی موضوع

اشاره به فرایند پیروی از یک شیء مورد علاقه خاص یا چند شیء ، در یک صحنه معین. به طور سنتی در تعاملات ویدئویی و دنیای واقعی کاربردهایی دارد که در آن مشاهدات پس از تشخیص اولیه شیء انجام می شود. این فرایند برای سیستم های رانندگی خودران برای مثال بسیار مهم است. با نرخ فریم بیش از زمان واقعی عمل می کند. این مقاله تلاش می کند تا فقدان غنی موجود برای ردیابی مدلها از روشهای سنتی یادگیری آنلاین را برطرف کند. یادگیری ردیابی در 100 FPS با شبکه های رگرسیون عمیق [41] مقاله دیگری است که سعی می کند مسائل موجود را بهبود بخشد روشهای آموزش آنلاین نویسندگان یک ردیاب تولید می کنند که از یک شبکه پیشرو استفاده می کند تا روابط عمومی حرکتی ، ظاهر و جهت اجسام را که به طور موثر اشیاء جدید را بدون آموزش آنلاین ردیابی می کند ، بیاموزد. SOTA را در یک معیار ردیابی استاندارد ارائه می دهد و در عین حال "برای ردیابی اشیاء عمومی با سرعت 100 فریم بر ثانیه" (Held et al.، 2016).

ویدیوی GOTURN (ردیابی اشیاء عمومی با استفاده از شبکه های رگرسیون) موجود است: ویدئو [ 42]

ویژگی های حرکت عمیق برای ردیابی بصری [43] ویژگی های دست ساز ، ویژگی های عمیق RGB/ظاهر (از CNN ها) و ویژگی های حرکت عمیق (آموزش تصاویر نوری) را برای دستیابی به SOTA ادغام می کند. در حالی که ویژگی های حرکت عمیق در تشخیص عمل و طبقه بندی ویدئو متداول هستند ، نویسندگان ادعا می کنند این اولین بار است که برای ردیابی بصری استفاده می شود. این مقاله همچنین به عنوان بهترین مقاله در ICPR 2016 ، برای آهنگ "بینایی رایانه و بینایی روبات" ، دریافت کرد. "این مقاله به بررسی تأثیر ویژگی های حرکت عمیق در چارچوب ردیابی توسط تشخیص می پردازد. ما همچنین نشان می دهیم که ویژگی های دست ساز ، RGB عمیق و حرکت عمیق حاوی اطلاعات مکمل هستند. تا آنجا که می دانیم ، ما اولین کسانی هستیم که اطلاعات ظاهری را با ویژگی های حرکت عمیق برای ردیابی بصری پیشنهاد می کنیم. آزمایشات جامع به وضوح نشان می دهد که رویکرد تلفیقی ما با ویژگی های حرکت عمیق ، تنها با تکیه بر اطلاعات ظاهری ، از روش های استاندارد بهتر عمل می کند. " تنوع زندگی در معیارها و مجموعه داده های ردیابی ویدیویی موجود است. این مقاله یک روش جدید برای شبیه سازی در دنیای واقعی ارائه می دهد که محیط های غنی ، مجازی ، مصنوعی و واقع بینانه از ابتدا با برچسب های کامل بر برخی از آنها غلبه می کند.عقیم بودن موجود در مجموعه داده های موجود تصاویر ایجاد شده به طور خودکار با صحت زمین دقیق برچسب گذاری می شوند که طیف وسیعی از برنامه ها را غیر از تشخیص/ردیابی شی ، مانند عمق و جریان نوری ، برچسب گذاری می کند. واریانس و انسداد ، با ذکر این موارد به عنوان دو محدودیت ریشه در ردیابی شی. "روش پیشنهادی ما مشکل تغییر ظاهر شی با استفاده از یک شبکه کاملاً متحول کننده را حل می کند و با انسداد توسط برنامه نویسی پویا برخورد می کند" (لی و همکاران ، 2016). انتشار کامل به صورت رایگان در وب سایت ما: www.themtank.org

ما خوانندگان را تشویق می کنیم تا این مقاله را از طریق وب سایت خود مشاهده کنند ، زیرا ما شامل محتوای تعبیه شده و عملکردهای ناوبری آسان برای ایجاد گزارش تا حد امکان پویا هستیم. ما از طریق وب سایت خود هیچ درآمدی نداریم و می خواهیم آن را تا آنجا که ممکن است برای خوانندگان جذاب و شهودی باشد ، بنابراین هرگونه بازخورد درباره ارائه در آنجا با تمام وجود مورد استقبال ما قرار می گیرد!

مشخصات بعدی ما را برای رسانه بعدی در رسانه دنبال کنید. قسطی (قسمت 2 از 4) ، و همچنین محتوای آینده در طیف وسیعی از تحقیقات AI. لطفاً در صورت تمایل همه نظرات و پیشنهادات خود را در قسمت نظرات قرار دهید و ما در اسرع وقت به عقب برمی گردیم. متناوبا ، می توانید مستقیماً از طریق: info@themtank.com

با ما تماس بگیرید ، سپاس فراوان ،

The M Tank

مراجع به ترتیب ظاهر

قطعه کامل در آدرس زیر قابل دسترسی است: http: //www.themtank.org/publications/a-year-in-computer-vision

[1] British Machine Vision Association (BMVA). 2016. بینایی کامپیوتری چیست؟ [آنلاین] موجود در: http://www.bmva.org/visionoverview [دسترسی 21/12/2016]

[2] Krizhevsky، A.، Sutskever، I. and Hinton، GE 2012. طبقه بندی ImageNet با شبکه های عصبی متحرک عمیق ، NIPS 2012: سیستم های پردازش اطلاعات عصبی ، دریاچه تاهو ، نوادا. موجود: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf

[3] کوهن ، تی اس اس 1962. ساختار انقلاب های علمی. ویرایش چهارم ایالات متحده: انتشارات دانشگاه شیکاگو.

[4] Karpathy، A. 2015. نظر یک شبکه عصبی عمیق در مورد #selfie شما چیست. [وبلاگ] وبلاگ Andrej Karpathy. موجود: http://karpathy.github.io/2015/10/25/selfie/[دسترسی: 21/12/2016]

[5] Quora. 2016. شبکه عصبی کانولوشن چیست؟ [آنلاین] موجود: https://www.quora.com/What-is-a-convolutional-neural-network [دسترسی: 21/12/2016]

[6] دانشگاه استنفورد. 2016. شبکه های عصبی تحولی برای تشخیص بصری. [آنلاین] CS231n. موجود: http://cs231n.stanford.edu/[دسترسی 21/12/2016]

[7] Goodfellow و همکاران. 2016. یادگیری عمیق. مطبوعات MIT [آنلاین] http://www.deeplearningbook.org/[دسترسی: 21/12/2016] توجه: فصل 9 ، شبکه های تحول آفرین [موجود: http://www.deeplearningbook.org/contents/convnets.html ]

[8] نیلسن ، م. 2017. شبکه های عصبی و یادگیری عمیق. [آنلاین] کتاب الکترونیکی. موجود: http://neuralnetworksanddeeplearning.com/index.html [دسترسی: 06/03/2017].

[9] ImageNet به مجموعه داده های تصویری محبوب برای Computer Vision اشاره دارد. هر سال شرکت کنندگان در مجموعه ای از وظایف مختلف به نام ImageNet Large Scale Visual Recognition Challenge (ILSVRC) رقابت می کنند. موجود: http://image-net.org/challenges/LSVRC/2016/index

[10] به "آنچه از رقابت با ConvNet در ImageNet آموختم" توسط آندره کارپاتی مراجعه کنید. پست وبلاگ جزئیات سفر نویسنده برای ارائه معیار انسانی در برابر مجموعه داده ILSVRC 2014 است. میزان خطا تقریبا 5.1 vers در مقابل خطای طبقه بندی GoogLeNet 6.8 then بود. موجود: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

[11] مشاهده جدید مجموعه داده ها بعدا در این قسمت.

[12] Keras یک کتابخانه یادگیری عمیق مبتنی بر شبکه عصبی است: https://keras.io/

[13] Chollet، F. 2016. جاسازی برچسب اطلاعاتی-نظری برای طبقه بندی تصویر در مقیاس بزرگ. [آنلاین] arXiv: 1607.05691. موجود: arXiv: 1607.05691v1

[14] Chollet، F. 2016. استثنا: یادگیری عمیق با ترکیبات عمیق تفکیک پذیر. [آنلاین] arXiv: 1610.02357. موجود: arXiv: 1610.02357v2

[15] مجموعه داده Places2 ، جزئیات موجود: http://places2.csail.mit.edu/. همچنین به بخش مجموعه داده های جدید مراجعه کنید.

[16] Hikvision.2016. Hikvision در چالش ImageNet 2016 رتبه 1 را در طبقه بندی صحنه کسب کرد. [آنلاین] دفتر اخبار امنیتی. موجود: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/[دسترسی: 20/03/2017].

[17] برای اطلاعات بیشتر به شبکه های باقیمانده در قسمت چهارم این نشریه مراجعه کنید.

[18] جزئیات موجود در زیر اطلاعات تیم Trimps-Soushen از: http://image-net.org/challenges/LSVRC/2016/results

[19] Xie، S.، Girshick، R.، Dollar، P.، Tu، Z. & He، K. 2016. مجموع تحولات باقیمانده برای شبکه های عصبی عمیق. [آنلاین] arXiv: 1611.05431. موجود: arXiv: 1611.05431v1

[20] ImageNet Large Scale Visual Recognition Challenge (2016) ، قسمت دوم ، موجود: http://image-net.org/challenges/LSVRC/2016/[دسترسی: 22/11/2016]

[21] هو و رامانان. 2016. یافتن چهره های ریز. [آنلاین] arXiv: 1612.04402. موجود: arXiv: 1612.04402v1

[22] Liu et al. 2016. SSD: آشکارساز چند شبه تک شات. [آنلاین] arXiv: 1512.02325v5. موجود: arXiv: 1512.02325v5

[23] Redmon، J. Ferhadi، A. 2016. YOLO9000: بهتر ، سریعتر ، قوی تر. [آنلاین] arXiv: 1612.08242v1. موجود: arXiv: 1612.08242v1

[24] YOLO مخفف عبارت "You Only Look Only Once" است.

[25] Redmon et al. 2016. شما فقط یکبار نگاه می کنید: یکپارچه ، تشخیص اشیاء در زمان واقعی. [آنلاین] arXiv: 1506.02640. موجود: arXiv: 1506.02640v5

[26] ردمون. 2017. YOLO: تشخیص شی در زمان واقعی. [وب سایت] pjreddie.com. موجود: https://pjreddie.com/darknet/yolo/[دسترسی: 01/03/2017].

[27] لین و همکاران 2016. ویژگی شبکه های هرمی برای تشخیص شی. [آنلاین] arXiv: 1612.03144. موجود: arXiv: 1612.03144v1

[28] تحقیقات هوش مصنوعی فیس بوک

[29] مجموعه داده های تصویری Objects in Context (COCO)

[30] Dai و همکاران 2016. R-FCN: تشخیص شی از طریق شبکه های کاملاً تحول محور مبتنی بر منطقه. [آنلاین] arXiv: 1605.06409. موجود: arXiv: 1605.06409v2

[31] هوانگ و همکاران. 2016. جابجایی سرعت/دقت برای آشکارسازهای اجسام پیچشی مدرن. [آنلاین] arXiv: 1611.10012. موجود: arXiv: 1611.10012v1

[32] همان

[33] وو و همکاران. 2016. SqueezeDet: شبکه های عصبی متحد ، کوچک ، کم مصرف و کاملاً متحرک برای تشخیص شیء در زمان واقعی برای رانندگی مستقل. [آنلاین] arXiv: 1612.01051. موجود: arXiv: 1612.01051v2

[34] Hong et al. 2016. PVANet: شبکه های عصبی سبک عمیق برای تشخیص اشیاء در زمان واقعی. [آنلاین] arXiv: 1611.08588v2. موجود: arXiv: 1611.08588v2

[35] DeepGlint Official. 2016. DeepGlint CVPR2016. [آنلاین] Youtube.com. موجود: https://www.youtube.com/watch؟v=xhp47v5OBXQ [دسترسی: 01/03/2017].

[36] COCO - Objects Common in Common. 2016. [وب سایت] موجود: http://mscoco.org/[دسترسی: 04/01/2017].

[37] نتایج ILSRVC برگرفته از: ImageNet. 2016. چالش تشخیص بصری در مقیاس بزرگ 2016.

[وب سایت] تشخیص شی. در دسترس: http://image-net.org/challenges/LSVRC/2016/results [دسترسی: 04/01/2017].

[38] نتایج چالش تشخیص COCO برگرفته از: COCO-Objects Common مشترک. 2016. تابلوی تشخیص [وب سایت] mscoco.org. موجود: http://mscoco.org/dataset/#detections-leaderboard [دسترسی: 05/01/2017].

[39] ImageNet. 2016. [آنلاین] ارائه کارگاه ، اسلاید 31. موجود: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [دسترسی: 06/01/2017].

[ 40] برتینتو و همکاران. 2016. شبکه های سیامی کاملاً متحول برای ردیابی اشیاء. [آنلاین] arXiv: 1606.09549. موجود: https://arxiv.org/abs/1606.09549v2

[41] Held et al. 2016. آموزش ردیابی در 100 FPS با شبکه های رگرسیون عمیق. [آنلاین] arXiv: 1604.01802. موجود: https://arxiv.org/abs/1604.01802v2

[42] David Held. 2016. GOTURN - یک ردیاب شبکه عصبی. [آنلاین] YouTube.com. در دسترس: https://www.youtube.com/watch؟v=kMhwXnLgT_I [دسترسی: 03/03/2017].

[43] Gladh et al. 2016. ویژگی های حرکت عمیق برای ردیابی بصری. [آنلاین] arXiv: 1612.06615. موجود: arXiv: 1612.06615v1

[44] گایدون و همکاران 2016. دنیای مجازی به عنوان پروکسی برای تجزیه و تحلیل ردیابی چند شیء. [آنلاین] arXiv: 1605.06457. موجود: arXiv: 1605.06457v1

[45] لی و همکاران 2016. ردیابی جهانی بهینه اشیاء با شبکه های کاملاً متحول. [آنلاین] arXiv: 1612.08274. موجود: arXiv: 1612.08274v1