محققان هوش مصنوعی (Al) و رباتیک میدانند که در چگونگی درک و پردازش سیستمهای فعلی جهان مشکلاتی وجود دارد. در حال حاضر این سیستمها هنوز متشکل از تعدادی حسگر هستند. مانند دوربینهای دیجیتال که برای ثبت عکس طراحی شدهاند و دستگاههای محاسباتی مانند واحدهای پردازش گرافیک(GPU) که برای افزایش سرعت ساخت گرافیک بازیهای کامپیوتری طراحی شدهاند.
این بدان معناست که هوش مصنوعی صرفا پس از ضبط و انتقال اطلاعات بصری بین حسگرها و پردازندهها جهان را درک میکند. اما بیشتر مواردی که قابل رویت هستند برای هدف موردنظر بیاهمیت هستند مانند جزئیات برگ درختان اطراف جادهای که اتومبیل خودران در آن حرکت میکند. با این حال در حال حاضر تمام این اطلاعات با جزئیات دقیق توسط حسگرها ضبط میشوند و باعث پرشدن سیستم از اطلاعات بیاهمیت، مصرف انرژی و صرف زمان بیهوده برای پردازش میشود. بنابراین ما نیازمند رویکردی متفاوت برای ایجاد ادراک بصری کارآمد در دستگاههای هوشمند هستیم.
دو مقالهی منتشر شده توسط دانشگاههای منچستر و بریستول نشان میدهد که چگونه میتوان با ترکیب توانایی سنجش و یادگیری به ساخت دوربینهای جدید برای سیستم هوش مصنوعی کمک کرد.
والتریو مایول کواس(Walterio Mayol-Cuevas) استاد رباتیک، بینش رایانهای و سیستمهای تلفن همراه در دانشگاه بریستول و محقق اصلی این پروژه میگوید: برای ساخت سیستمهای ادراکی کارآمد باید فراتر از آنچه تاکنون رفتهایم برویم. ما میتوانیم از سیستم مشاهده و ادراک طبیعی در جهان الهام بگیریم. ما همه چیز را پردازش نمیکنیم. چشمان و مغز ما با یکدیگر کار میکنند تا جهان پیرامون را درک کنیم و در برخی موارد چشمها به خودی خود پردازشی انجام میدهند و به مغز کمک میکنند تا آنچه که بیاهمیت است را پردازش نکند. این موضوع را میتوان با بررسی چشمان قورباغهها که اجسامی که مانند مگس پرواز میکنند را در لحظه تشخیص میدهند اثبات کرد.
مقالهای که به سرپرستی دکتر لوری بوز(Laurie Bose) و مقالهی دیگری که توسط یانان لیو(Yanan Liu) در دانشگاه بریستول منتشر شدهاند شامل دو مورد بهبودی در جهت پیشبرد این هدف هستند. با افزودن الگوریتمی به نام شبکه عصبی پیچشی(Convolutional Neural Networks) که به هوش مصنوعی در درک بصری کمک میکند و قرار دادن آن در صفحه تصویر، این تیم توانست هزاران فریم را در ثانیه(بدون نیاز به ضبط و ارسال آنها برای پردازش) محققان توانستند اعداد دستنویس، حرکات دست و حتی پلانکتونها را طبقهبندی کنند.
محققان آیندهای را متصور میشوند که در آن دوربینهای هوشمند اطلاعات دقیق را به سیستمهای دیگر میفرستند. اطلاعاتی چون نوع اشیاء و یا حتی اتفاقی که در مقابل دوربین رخ میدهد. این روش باعث کارآمدتر شدن سیستمها و ایجاد امنیت بیشتر میشود زیرا دیگر نیازی به ضبط تصاویر نیست.
این موضوع به لطف معماری اسکمپ(SCAMP) که توسط دکتر پیتر دودک استاد مدار و سیستم و محقق دانشگاه منچستر و همکارانش انجام شد، محقق گشت. SCAMP یک تراشهی پردازندهی دوربین است که این گروه آن را پردازندهی تنظیم پیکسل میدانند. این تراشه دارای یک پردازنده در هر پیکسل است که میتوانند با یکدیگر ارتباط برقرار کنند تا به صورت کاملاً موازی پردازش شوند و این موضوع برای الگوریتم “شبکه عصبی”(CNN) بسیار ایده آل است.
پروفسور دودک(Dudek) میگوید: یکپارچه سازی حسگرها، پردازش و حافظه در سطح پیکسل نه تنها ساخت سیستمهایی با کارایی بالا و تاخیر کم را امکانپذیر میکند، بلکه نوید تولید سخت افزارهای کم مصرف و بسیار کارآمد را می دهد.
SCAMP را میتوان با حجمی مشابه حسگرهای کنونی در دستگاه قرار داد در حالی که توانایی پردازش گسترده به طور موازی در لحظه ضبط تصویر را دارد و برای اهداف کلی استفاده میشود.
دکتر تام ریچاردسون(Tom Richardson)، مدرس ارشد مکانیک پرواز، در دانشگاه بریستول و یکی از اعضای پروژه، در حال تلفیق معماری SCAMP با هواپیماهای بدون سرنشین سبک است.
وی توضیح داد: نه تنها قابلیت نوظهور این دوربینها در یادگیری بسیار هیجان انگیز است بلکه سرعت عملکرد آنها و ساختار سبک آنها نیز جالب توجه است. آنها کاملا برای پلتفرمهای بسیار سریع و چابک هوایی ایده آل هستند و میتوانند پرواز کردن را نیز بیاموزند.
تحقیقات انجام شده توسط بودجه شورای تحقیقات مهندسی و علوم فیزیکی(EPSRC) نشان داده است که بررسی فرضیاتی که هنگام ساخت سیستمهای هوش مصنوعی وجود دارد بسیار مهم است و موضوعاتی که بدون تحقیق و بررسی تایید شدهاند مانند دوربینها باید در جهت تولید سیستمهای هوشمند کارآمد تقویت شوند.
دیدگاه خود را بنویسید