Posted: Sun Sep 20, 2020 9:37 am Post subject: فصل ۴ شبکه های عصبی
ُالگوریتم پس انتشار فرض می کند که شبکه دارای ساختار ثابت متناظر با یک گراف جهت دار احتمالا دور هم دارد می باشد. یادگیری انتخاب ارزش وزن برای هر لبه از گراف می باشد.
گرچه دورهای مشخصی مجاز است اما طیف گسترده ای از کاربردهای عملی بدون دور و تغذیه به جلو feed-forward می باشند.
شبکه عصبی مصنوعی بهترین گزینه برای مسایل مربوط به داده های اموزشی ای می باشد که دارای نویز بوده و از سنسورهای پیچیده برای دریافت ورودی مثل دوربین و میکروفن استفاده می شود.
Single perceptrons can only express linear decision surfaces
Multiple layers of cascaded linear units still produce only linear functions.
sigmoi unit: A unit very much like a perceptron, but based on a smoothed, differentiable threshold function
Because sigmoid maps a very large input domain to a small range of outputs,it is often referred to as the squashing function of the unit.
Unfortunately, gradient descent in multilayer networks is guaranteed only to vonverge toward some local minimum, and not necessarily the global minimum error.
یکی از انواع شبکه های عصبی مصنوعی بر اساس واحدی به نام پرسپترون ایجاد می شود.
پرسپترون یک برداری از مقادیر حقیقی ورودی را می گیرد ترکیب خطی این ورودی ها را محاسبه می کند سپس اگر از مقداری ترشولد بیشتر باشد خروجی ۱ و گرنه خروجی -۱ می دهد
Posted: Tue Sep 22, 2020 11:56 am Post subject: ۴.۴.۳ Gradient Descent and the Delta Rule
گرچه قانون پرسپترون برای یافتن وزن بردار زمانیکه مثالهای آموزشی بصورت خطی جداپذیرباشند موفق عمل می کند اما در غیر اینصورت شکست می خورد یعنی داده ها جدایی پذیرخطی نباشند. قانون یادگیری دومی وجود دارد به نام Delta rule برای غلبه بر این مشکل امده است. اگر مثالهای اموزشی جدایی پذیرخطی نباشند قانون دلتا به بهترین تخمین به مفهوم هدف تمایل دارد.
ایده اصلی پشت قانون دلتا کاهش گرادیان gradient descent یم باشد برا جستجوی فضای فرضیه وزن های ممکن بردار مثالهای اموزشی را فیت کند .
در کاهش گرادیان استاندارد خطا قبل از بروزرسانی همه وزن ها روی کل مثالها محاسبه می شود در حالیکه در کاهش گرادیان تصادفی stochastic بازای هر مثال اموزشی وزن ها بروز می شوند.
جمع کردن روی چندین مثال در کاهش گرادیان استاندارد محاسبات بیشتری بازای بروزرسانی هر گام در وزن دارد . در حالیکه بعلت استفاده از گرادیان در کاهش گرادیان استاندارد سایزگام بازای هر وزن بزرگتراست نسبت به کاهش گرادیان تصادفی.
اگر چندین مینیموم داشته باشیم کاهش گرادیان تصادفی کمتر در این مینیموم های محلی می افتد چون از بردار خطای یک مثال استفاده می کند تا بردارخطای تمام مثالها در جستجو.
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum