:گسترش ابزارهای خودکار شناسایی الگوهای طراحی با عملیات پالایش ... |
دراین فصل مختصری بر روی مفاهیم اولیه روشهای داده کاوی و معیارهای ارزیابی مدلهای پیش بینی کننده در این تحقیق خواهیم داشت.
فصل سوم : مروری بر تحقیقات پیشین
در این بخش مروری بر مطالعات و تحقیقاتی که در زمینه شناسایی الگوهای طراحی بیشترین شباهت از نظر هدف به کار ما را دارند خواهیم داشت.
فصل چهارم : تولید مجموعه داده ها
در این فصل نحوه تولید مجموعه داده های لازم با بهره گرفتن از معیارهای استخراج شده جهت عملیات پالایش و تصحیح برچسب ارائه می شود.
فصل پنجم : آزمایشات و نتایج عددی
دراین فصل با بهره گرفتن از معیارهای استخراج شده و تکنیکهای داده کاوی، مجموعه ای از آزمایشها جهت انجام عملیات پالایش و تصحیح برچسب الگوی استراتژی روی نتایج دو ابزار خودکارشناسایی الگوهای طراحی SSA و PINOTانجام گرفته شرح داده می شود. نتایج تولیدی این ابزارها مربوط به عمل شناساییشان روی سه پروژه ی متن باز jhotdraw ، jrefactory و javaio می باشد. به علاوه نتایج عددی حاصل از این آزمایشها و معیارهای استخراج شده در این فصل ارائه میگردد.
فصل ششم : نتیجه گیری و پیشنهادات
جمع بندی مطالب گفته شده در پایان نامه در این فصل انجام شده و همچنین پیشنهاداتی برای ادامه پژوهش در این زمینه ارائه شده است.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
فصل دوم
-
تعاریف و مفاهیم اولیه
-
- مقدمه
-
دراین فصل مختصری بروی مفاهیم و تعاریف اولیه روشهای داده کاوی و معیارهای ارزیابی مدلهای پیش بینیکننده در این تحقیق خواهیم داشت.
-
-
-
- تکنیک های طبقه بندی[۲۵]
-
-
در داده کاوی با دو مجموعه داده مواجه هستیم، داده آموزشی و داده آزمایشی. صفات داده آموزشی را مجموعه معیارهایی تشکیل می دهند که هویت موجودیتهای قرارگرفته دررکوردها را پیشگویی می کنند. موجودیتهای دادهی آموزشی، مشاهداتی هستند که از قبل هویتشان شناسایی شده است. دادهی آموزشی حاوی یک ستون پیشگویی است. مقادیر این ستون، با برچسبهایی پر میشوند که هویت اصلی موجودیتها را نشان میدهد (مثلا درست یا غلط). داده آزمایشی حاوی مشاهداتی است که هویت اصلیشان شناخته شده نیست. با تجزیه و تحلیلی که به واسطه الگوریتمهای داده کاوی روی دادهی آموزشی صورت میگیرد مدلهایی ساخته می شود. مدلسازی، دانش موجود در مشاهدات داده آموزشی را در قالب یک سری قوانین استخراج می کند. داده آزمایشی برای ارزیابی دقت پیشگویی مدل ساخته شده روی داده آموزشی بکار برده میشود. در واقع پیشگویی یک فرایند دو مرحله ای دارد، فاز یادگیری و فاز دستهبندی.
در فاز یادگیری بر اساس مجموعه دادهی آموزشی، مدل طبقهبند ساخته می شود و در فاز طبقه بندی بر اساس مدل ساخته شده در فاز قبل، مجموعه داده جدید که در فاز یادگیری استفاده نشده است (مجموعه داده آزمایشی) دستهبندی می شود (پیشگویی می شود که مشاهدات جدید چه برچسبی به خود بگیرند). جهت خودکار سازی عملگر تصحیح برچسب در این تحقیق، از روشهای داده کاوی (الگوریتمهای طبقه بندی) استفاده شده است [۱۷].
دقت مدل، درصد نمونههایی از مجموعه داده آزمایش است که به درستی طبقه بندی شده اند. مجموعه داده لازم جهت ساخت مدل طبقه بندی، از متغیرهای مستقل و وابسته تشکیل شده است. متغیرهای مستقل همان خصیصهها هستند که جهت طبقه بندی متغیر وابسته که در واقع بر چسب کلاسها می باشد، مورد استفاده قرار میگیرند [۱۷]. توضیح مختصری در مورد انواع طبقه بندیهایی که در این تحقیق مورد استفاده قرار گرفته اند در ادامه آمده است.
۲-۲-۱- طبقه بند C5.0
این طبقه بند در واقع براساس تقسیم مبتنی بر نمونه روی فیلدی که بیشترین سود اطلاعاتی را با خود دارد، کار می کند. سپس هر زیرنمونه تعریف شده با اولین تقسیم، دوباره تقسیم می شود (معمولا بر اساس یک فیلد متفاوت). این فرایند تکرار می شود تا اینکه هیچ زیرنمونه قابل تقسیم نداشته باشیم. سرانجام پایین ترین سطح تقسیم ها دوباره بررسی می شوند. آنهایی که تاثیر قابل توجهی بر مقدار مدل ندارند حذف یا هرس میشوند [۱۶].
۲-۲-۲- طبقه بند SVM
یک طبقه بند و الگوریتم رگرسیون است که از تئوری یادگیری ماشین با حداکثر دقت پیش بینی بدون” اُور فیتینگ[۲۶] ” داده ها استفاده می کند. این روش از یک تبدیل غیر خطی بر داده های یادگیری استفاده می کند، و با جستجوی برای تساوی های رگرسیون در داده های تبدیل شده کلاسها (اهداف) را جدا می کنند.SVM خصوصا برای آنالیز داده ها با تعداد زیادی از فیلدهای پیش گویی کننده مناسب میباشد [۱۶].
۲-۲-۳- طبقه بند BOOSTED C5.0
یک الگوریتم داده کاوی است که برای کاهش خطای الگوریتمهای یادگیری ضعیف (به آرامی به سمت طبقه بندی صحیح میل می کنند) مورد استفاده قرار میگیرد و آنها را به یک الگوریتم یادگیری قوی تبدیل می کند. در این کار برای قدرت بیشتر بخشیدن به الگوریتم تصمیم گیری C5.0 استفاده شده است [۲۷].
-
-
-
- معیارهای ارزیابی کارایی
-
-
ارزیابی دقت مدلهای پیش بینیکننده این تحقیق برای عملگر تصحیح برچسب، برحسب نسبت تعداد تصمیم گیریهای درست از سیستمهای یادگیری در مقایسه با طبقه بندی دستی به تعداد کل کاندیدا است. ماتریس درهم[۲۷] جهت ارزیابی طبقه بندیهای دودویی میباشد که در این تحقیق برای ارزیابی بخش پالایش نمونهها وتصحیح برچسب استفاده می شود [۱۷]. همانطور که در جدول ۲-۱ مشاهده می شود ماتریس درهم کلاس های واقعی را در مقابل کلاس های پیش بینی شده در داده آزمایش نشان میدهد.
جدول۲-۱٫ جدول درهم شامل کلاس های واقعی در مقابل کلاس های پیش بینی شده
ماتریس درهم شامل چهار قسمت می باشد :
مثبت صحیح (TP[28]) : تعداد نمونههای استراتژی که به درستی استراتژی پیش بینی شده اند.
فرم در حال بارگذاری ...
[جمعه 1400-09-05] [ 10:48:00 ب.ظ ]
|