راهنمای : استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت ... |
رابطه (۲- ۱۸) = + Psbs
Ps=(P1 ,P2 ,…..,Pt) ماتریسی از اولین بردارهای ویژه است و bs یک بردار از وزنهای t است
bs = (b1 ,b2 ,…..,bt) چون بردارهای ویژه متعامدند پارامترهای شکل bs می تواند به صورت زیر محاسبه شود.
رابطه (۲- ۱۹) bs = Ps T ( – )
این اجازه میدهد که شکلهای معتبر لب به صورت فشرده نمایش داده شود. تعداد حالتهای متغیر از تعداد نقاط علامتگذاری شده بسیار کمتر است.
۶ حالت از مدل توزیع نقطهای از ۱۱۴۴ تصویر آموزشی از پایگاه داده Av Letters که به صورت دستی برچسبگذاری شده اند در شکل زیر نشان داده شده است.
شکل ۲- ۳ مدل توزیع نقطهای، هر حالت با σ۲ ± اطراف متوسط رسم شده است
برای تطبیق تکراری مدل توزیع نقطهای تابع هزینه مورد نیاز است. که این تابع هزینه باید مینیمم شود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
رابطه (۲- ۲۰) e = ( g – gmean)T ( g – gmean) – bt T bt
در تابع هزینه e، g پروفایل[۳۴] سطح خاکستری ، gmean میانگین بردار پروفایل سطح خاکستری است.
رابطه (۲- ۲۱) bt = PT ( g – gmean )
پارامترها توسط bt توصیف میشوند [۹]. این روش همچنین در [۱۰] برای استخراج پارامترهای شکل استفاده شده و به همراه شدت روشنایی به عنوان ویژگیهای تصویری صحبت استفاده شده اند.
در [۱۱] یک سیستم لب خوانی اتوماتیک با بهره گرفتن از اطلاعات دیداری برای شناسایی ارقام انگلیسی مجزا از صفر تا نه ارائه شده است که از یک مدل شکل فعال چهارده نقطهای برای توصیف کانتور خارجی لب استفاده نموده است. که بعد از فرایند بهینهسازی، مجموعه پارامترهای بهینه شامل
{ xc ,yc ,s ,θ ,b0 } بدست می آید. که xc ,yc نقطه مرکزی از مدل لب میباشد و s فاکتور مقیاس، θ زاویه چرخش و b0 بردار وزن برای بردارهای ویژه است. که بردار وزن اطلاعات شکل را شامل می شود و برای تشخیص شکلهای متفاوت دهان اهمیت اساسی دارد. چون تغییرات در s و θ به تنظیمات دوربین وابسته است این پارامترها نمی توانند به بهبود عملکرد شناسایی کمک کنند. بنابراین، این دو پارامتر نرمالیزه شده، که نسبت به مقادیر به دست آمده آنها از تصویر اول در دنباله تصویر لب، مفیدتر واقع میشوند. از این رو، بردار ویژگی تصویری{ snormalized , θnormalized ,b0 } برای توصیف کانتور خارجی لب استفاده شده است.
در [۱۲] برای استخراج اطلاعات در مورد شکل و حرکت لبها از مدلهای شکل فعال استفاده شده است. مدلی که در اینجا استفاده شده است شامل دو گروه اصلی اطلاعات سطح خاکستری و اطلاعات شکل میباشد. اطلاعات شکل برای پارامتری کردن صحبت و اطلاعات سطح خاکستری برای کمک به دنبال کردن لبها استفاده شده است. مدل شکل فعال توسط مدلی از پروفایل سطح خاکستری اطراف کانتور لب، لبها را دنبال می کند. از ۲۷ نقطه، با بردارهای پروفایل سطح خاکستری به طول ۹ که از هر نقطه میگذرد استفاده شده است. تصاویر از پایگاه داده TULIPS1 انتخاب شده اند. برای هر فریم، پارامترهای شکل و شدت روشنایی با مدل شکل فعال استخراج شده، مدلها با ۲۰ پارامتر شکل و ۱۰ پارامتر شدت روشنایی آموزش داده شده اند. در [۱۳] از مدل شکل فعال بر اساس منحنی استفاده شده است. که از ۵ منحنی سهمی شکل برای نمایش لب استفاده شده است. که برای نمایش این سهمیها سه ضریب لازم است. در این روش نسبت به مدل توزیع نقطهای پارامترهای کمتری مورد نیاز است.
۲-۴ مدلهای انعطافپذیر[۳۵]
در این روش ابتدا یک مدل هندسی برای لب مشخص شده و سپس یک تابع انرژی که پارامترهای مدل را به مرزهای شکل مرتبط می کند تعریف می شود. این تابع میزان تطبیق بین مدل و مرزهای شکل را برای هر وضعیت اندازه گیری کرده و وضعیتی را که کمترین مقدار تابع انرژی را فراهم سازد به عنوان بهترین انطباق بر میگزیند. از این رو جستجویی در تصویر گرادیان و پارامترهای الگو انجام می شود تا شکل لب در هر تصویر تعیین شود. در فریمهای بعدی از شکل و موقعیت مدل، در فریمهای قبلی استفاده شده و پارامترهای هندسی تشکیل دهنده الگو به عنوان مشخصه استخراج می شود. این روش ناحیه لب و غیر لب را بر اساس رنگ و شدت روشنایی توسط یک مدل لب هندسی ساده جدا میسازد[۱۴].
۲-۴-۱ مدل لب
شکل ۲- ۴ مدل هندسی لب
یک مدل هندسی انعطافپذیر برای لب در نظر میگیریم چون مدل هندسی اجازه میدهد که شکل لب توسط مجموعه کوچکی از پارامترها توصیف شود. معادلات مربوط به مدل شکل (۲- ۴) به شرح زیر است.
رابطه (۲- ۲۲) y1 = h1 ( ( ) ۲ )۱+ δ^۲ – h1
رابطه (۲- ۲۳) y2 = (|x – sy2| – xoff )۲ + h2
x ϵ [– w ,w] و (۰,۰) مرکز میباشد. s انحراف شکل لب و δ انحراف منحنی y2 از منحنی قائم را نشان می دهند. هنگامیکه مرکز مدل در (xc ,yc) قرار میگیرد و لب انحراف θ نسبت به مرکز مدل دارد.
x را با θ (y – yc) sin + θ (x – xc) cos و y را با θ (y – yc) cos + θ– (x – xc) sin جایگزین نموده اند.
در نتیجه مجموعه پارامترها که شکل لب را کنترل می کنند توسط مجموعه ای به صورت
{ θ xc , yc , w , h1 , h2 , xoff , δ ,s ,}=p نشان داده شده اند.
۲- ۴-۲ فرمولبندی تابع هزینه[۳۶]
هدف قطعهبندی تصویر به دو ناحیه لب و غیر لب میباشد. اگر به هر پیکسل در تصویر یک احتمال تعلق به پیکسل لب اختصاص داده شود سپس تابع هزینه که در ذیل آمده به معیار حداکثر (ماکزیمم) احتمال منجر می شود که می تواند برای مشخص نمودن بخشهای پیشزمینه و پسزمینه استفاده شود.
رابطه (۲- ۲۴) C(p) = –
که R1 و R2 به ترتیب ناحیه لب و غیر لب میباشند. Prob1(x , y) احتمال پیکسل در مکان (x , y) متعلق به پیکسلهای لب است و Prob2(x , y)= 1– Prob1(x , y) احتمال پیکسل در مکان (x , y) متعلق به پیکسلهای غیر لب میباشد. λ پارامترهای مدل را تعیین می کند. با لگاریتمگیری و بسط به فضای پیوسته داریم:
رابطه (۲- ۲۵) E(p) = –
رابطه (۲- ۲۶) g(x , y)= log prob1(x , y) – log prob2(x , y)
که x1(p) = xc – w cosθ و x2(p) = xc+ w cosθ نقاط گوشه چپ و راست لب هستند. y1 (p;x) و y2 (p;x) نقاط مرز عمودی از خط x هستند.
پارامترهای بهینه مدل تابع هزینه رابطه (۲- ۲۵) را مینیمم می کنند. در اینجا برای یافتن احتمال هر پیکسل متعلق به لب یا به ناحیه غیر لب از خوشهبندی فازی[۳۷] استفاده شده است.
ناحیه بهینه هنگامی که رابطه (۲-۲۴) ماکزیمم شود به دست می آید. ماکزیمم بودن این رابطه با مینیمم بودن رابطه (۲- ۲۵) معادل میباشد.
۲-۴-۳ بهینهسازی پارامترهای مدل
با بهره گرفتن از گرادیان نزولی تابع هزینه در رابطه (۲- ۲۵) مینیمم می شود. با مشتق گرفتن نسبت به پارامترهای مدل رابطه زیر حاصل شده است.
=
رابطه (۲- ۲۷)
که p1 = xc , p2 = yc , p3 = w , ….., p8 = s , p9 = θ میباشند.
۲- ۵ الگوهای انعطاف پذیر
در [۱۵] از الگوهای انعطاف پذیر برای مدل کردن لب استفاده شده است.
شکل ۲- ۵ الگوی لب
همان طور که در شکل بالا دیده میشود برای مدل کردن لب از سهمی و برای مدل کردن زبان از بیضی استفاده شده است. که معادلات مربوط به آنها در ذیل آورده شده است.
فرم در حال بارگذاری ...
[جمعه 1400-09-05] [ 11:24:00 ب.ظ ]
|