مزیت استفاده از این پیکره، این است که سندهای مشابه بصورت جفت شده، آماده هستند و نیازی به پیدا کردن جفت سندهای مشابه نیست –در کار مانتیانو و همکاران [۴۳] از دو پیکره خبری تک زبانه مجزا استفاده شد در نتیجه مرحله آغازین کار یافتن سندهای مشابه بود. همچنین در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران سندهای مشابه با یک نمره با یکدیگر همتراز شده‌اند که هرچه نمره همترازی بیشتر باشد نشان دهنده این است که همترازی مطمئن تری بین دو مقاله خبری وجود دارد.
اما از طرف دیگر این پیکره تطبیقی به منظور استفاده در بازیابی اطلاعات دوزبانه ساخته شده است و برای استخراج جفت جملات موازی از آن مناسب نیست. زیرا آزمایشات ما نشان داد حتی در جفت مقاله‌های خبری با نمره همترازی بالا به ندرت می‌توان جفت جملات هم‌ترجمه را یافت. به این دلیل که دو مقاله خبری مربوط به یک جفت سند همتراز شده، درباره یک رویداد مشترک صحبت می‌کنند اما نحوه بیان این رویداد بین دو خبرگزاری بسیار متفاوت است. از اینرو در آزمایشات اصلی از این پیکره استفاده نشد.
پایان نامه
پیکره تطبیقی گرفته شده از مقالات ویکی پدیا
ویکی پدیا منبع وسیعی از مقالات در موضوع‌های متنوع و به زبان‌های مختلف است که به یکدیگر لینک داده شده‌اند. برای هر مقاله در ویکی پدیا چندین لینک تحت عنوان «به زبان‌های دیگر» وجود دارد که مقاله مورد نظر را به نسخه دیگری از همان موضوع اما در زبان‌های دیگر متصل می‌کنند. این ویژگی ویکی پدیا باعث می‌شود که منبع مهمی برای تهیه یک پیکره تطبیقی باشد؛ زیرا با در نظر گرفتن دو زبان خاص - در اینجا فارسی و انگلیسی - شامل جفت مقالاتی است که به دلیل یکسان بودن عنوان با یکدیگر جفت شده‌اند و محتوایشان مشابه یکدیگر است و یا حتی در برخی موارد بخشی از آنها ترجمه یکدیگر هستند.
ویکی پدیا در حال حاضر شامل بیش از ۳۰۰ هزار مقاله به زبان فارسی و بیش از ۴ میلیون مقاله به زبان انگلیسی است و همچنان در حال رشد است. به تعبیری دیگر می‌توان گفت ویکی پدیا منبع بی انتهایی از مقالات است، از اینرو پیکره تطبیقی ساخته شده از آن نیز بی انتها خواهد بود. این یک مزیت بزرگ برای غلبه بر مشکل کمبود جفت جملات موازی است.
ما از یک خرنده برای پیمایش صفحات ویکی پدیا استفاده کردیم. برای هر مقاله فارسی اگر لینکی به مقاله انگلیسی داشته باشد هر دو نسخه فارسی و انگلیسی را دانلود می‌کنیم. فرایند پیمایش صفحات ویکی پدیا زمان‌بر است. یکی از دلایل عمده، این است که قبل از دانلود کردن صفحات باید URL آن را با URL‌های موجود در پایگاه داده صفحات پیمایش شده جهت تکراری نبودن مقایسه کرد. بنابراین هرچه تعداد مقالات دانلود شده بیشتر می‌شود زمان پیمایش صفحات جدید کندتر می‌شود. در این آزمایشات بیش از ۱۶۰۰۰جفت مقاله انگلیسی و فارسی از ویکی پدیا دانلود شد و از ۸۰۰۰ جفت مقاله برای استخراج جفت جملات موازی استفاده شد.
پارامترهای تنظیم شده و ابزار مورد استفاده
همانطور که در فصل چهارم آمد، مدل پیشنهادی این رساله از سه گام اصلی تشکیل شده است. در ادامه آزمایشات و تجربیات انجام شده را در هر یک از این گام‌ها شرح می‌دهیم. بعلاوه تنظیمات پارامترهای مدل و ابزارهای استفاده شده نیز بیان می‌شوند.
انتخاب جفت جملات کاندید:
ابتدا متن موجود در صفحات دانلود شده از ویکی پدیا را از داخل تگ‌های HTML خارج می‌کنیم، به عبارتی دیگر ساختار HTML را به متن تبدیل می‌کنیم.
برای تجزیه متن مقالات انگلیسی به جملات، از ابزار متن باز تشخیص دهنده جمله OpenNLP که بر پایه آنتروپی بیشینه ساخته شده است، استفاده می‌کنیم.
برای تجزیه متن مقالات فارسی به جملات، از راه حل اکتشافی ساده جداسازی با توجه به نقطه استفاده می‌کنیم.
برای تجزیه جمله انگلیسی به کلمات، از ابزار متن باز تشخیص دهنده کلمه OpenNLP که بر پایه آنتروپی بیشینه ساخته شده است، استفاده می‌کنیم.
برای تجزیه جمله فارسی به کلمات، از راه حل اکتشافی ساده جداسازی با توجه به کاراکتر فاصله استفاده می‌کنیم.
برای یافتن کلمات مشترک بین جمله فارسی و جمله انگلیسی، جمله انگلیسی را مبنا قرار می‌دهیم و به دنبال ترجمه کلماتش می‌رویم. زیرا ابزارهای مورد نیاز برای زبان انگلیسی در دسترس‌ترند.
برای ریشه یابی کلمات انگلیسی از ابزار پردازش صرفی کلمات انگلیسی به نام morph استفاده می‌کنیم، که پسوندها، پیشوندها و میانوند‌ها را از کلمه حذف می‌کند.
کلمات پرتکراری که از جمله انگلیسی حذف می‌شوند در شکل ۵-۲ آمده‌اند:
a, able, about, across, after, all, almost, also, am, among, an, and, any, are, as, at, be, because, been, but, by, can, cannot, could, dear, did, do, does, either, else, ever, every, for, from, get, got, had, has, have, he, her, hers, him, his, how, however, i, if, in, into, is, it, its, just, least, let, like, likely, may, me, might, most, must, my, neither, no, nor, not, of, off, often, on, only, or, other, our, own, rather, said, say, says, she, should, since, so, some, than, that, the, their, them, then, there, these, they, this, tis, to, too, twas, us, wants, was, we, were, what, when, where, which, while, who, whom, why, will, with, would, yet, you, your.
کلمات پرتکرار انگلیسی
دیکشنری مورد استفاده، انگلیسی به فارسی بوده و ترکیبی از سه دیکشنری است: (۱) دیکشنری آرین پور (قسمت انگلیسی به فارسی همراه با ویرایش) (۲) یک دیکشنری موجود در وب (۳) استخراج عناوین صفحات ویکی پدیای پیمایش شده. دیکشنری ترکیبی نهایی شامل بیش از ۸۰ هزار مدخل می‌باشد. همچنین در تلاشی دیگر یک API از google translate را مورد استفاده قرار دادیم تا ترجمه کلماتی که در دیکشنری نیستند را از این طریق بیابیم. اما به دلیل بالا بردن زمان اجرای برنامه در آزمایش نهایی استفاده نشد.
فیلتر طول جمله با توجه به الگوریتم ارائه شده توسط گیل و چرچ [۳۰] انجام شد. برای این کار از پیکره موازی میزان استفاده کردیم. و میانگین و واریانس نسبت طول جفت جملات پیکره را محاسبه کردیم. میانگین نسبت طول جملات فارسی به طول جملات انگلیسی پیکره میزان برابر است با ۹۴۸/۰ و واریانس این مقادیر برابر است با ۱۲۵/۰٫ به این معنا که نسبت طول دو جمله موازی اغلب در بازه (۸۲۳/۰ تا ۰۷۳/۱) قرار می‌گیرد. جفت جملاتی که نسبت طولشان در این بازه قرار نگیرد فیلتر می‌شوند.
به دلیل کوتاه بودن بازه به دست آمده و اینکه در این مرحله بازخوانی بالا مهم‌تر از دقت بالا است، در نهایت از حد آستانه ۵/۰ استفاده شد. یعنی نسبت طول جمله کوچکتر به طول جمله بزرگتر نباید از نصف کمتر باشد.
حد آستانه فیلتر کلمات مشترک را ۲۵% قرار دادیم. به این معنا که جفت جملاتی که تعداد کلمات مشترکشان کم‌تر از این حد آستانه باشد فیلتر می‌شوند.
اگر تعداد کلمات جمله انگلیسی را ، تعداد کلمات جمله فارسی را ، تعداد کلمات پرتکرار حذف شده از جمله را ، تعداد کلمات مشترک یافت شده را و نرخ کلمات مشترک را Score بگیریم. نرخ کلمات مشترک از فرمول زیر به دست می‌آید:

 

   

در این مرحله از ۸۰۰۰ جفت مقاله ویکی پدیا، بیش از ۱۸۰ هزار جفت جمله به عنوان جفت جملات کاندید استخراج شدند.
انتخاب جفت جملات موازی:
طبقه‌بند آنتروپی بیشینه‌ای که در اینجا استفاده می‌شود، MaxEnt است که نسخه‌ای از طبقه‌بند آنتروپی بیشینه OpenNLP می‌باشد.
پیکره موازی انگلیسی–فارسی میزان جهت آموزش دادن طبقه‌بند مورد استفاده قرار گرفت. برای این منظور از ۱۰۰ هزار جفت جمله موازی از پیکره میزان و ۱۰۰ هزار جفت جمله غیر موازی که با جفت کردن تصادفی جملات پیکره میزان به دست آمدند، استفاده شد.
جهت همترازی در سطح کلمه از ابزار Giza++ استفاده شد. این ابزار در بخش ۲-۲-۳ معرفی شد.
اکثر ویژگی‌های در نظر گرفته شده برای طبقه‌بند را می‌توان از خروجی تولید شده توسط ابزار Giza++ به دست آورد. استفاده از ابزار Giza++ همترازی در سطح کلمه بین دو جمله را آسان‌تر کرده و در عین حال ما را از قدرت این ابزار بهره‌مند می‌سازد.
در این مرحله از ۱۸۰ هزار جفت جمله کاندید، بیش از ۹۰ هزار جفت جمله به عنوان جفت جملات موازی انتخاب شدند.
بالا بردن دقت جفت جملات استخراج شده:
در این مرحله ابتدا باید جمله فارسی هر جفت جمله‌ای که موازی شناخته شده‌اند به انگلیسی ترجمه شود، برای این کار از ماشین ترجمه موزز [۵۱] که با پیکره موازی میزان آموزش داده شده است استفاده می‌کنیم.
در این مرحله می‌خواهیم معیار TER را بین جمله انگلیسی جفت جمله‌ای که موازی شناخته شده با ترجمه انگلیسی جمله فارسی آن جفت جمله محاسبه کنیم. برای این کار از ابزار tercom.7.25 استفاده شد که توسط نویسندگان مقاله [۲۹] طراحی شده است.
در این مرحله از بیش از ۹۰ هزار جفت جمله‌ای که در مرحله قبل موازی شناخته شدند، نزدیک به ۵۰ هزار جفت جمله فیلتر شدند و ۴۰ هزار جفت جمله به عنوان خروجی نهایی مدل انتخاب شدند.
ارزیابی جملات موازی استخراج شده با بهره گرفتن از ماشین ترجمه
نحوه ارزیابی جفت جملات استخراج شده پیشتر در بخش ‏۴-۵ شرح داده شد. در اینجا از ماشین ترجمه موزز جهت ارزیابی استفاده می‌کنیم. موزز یک سیستم ترجمه ماشینی آماری متن باز است که قادر است مدل‌های ترجمه را مستقل از زبان بیاموزد.
در این بخش دو آزمایش مجزا انجام شد، یکبار پیکره پایه موجود را یک میلیون جفت جمله از پیکره میزان در نظر میگیریم و سپس جفت جملات استخراج شده را به آنها می‌افزاییم و در آزمایش دوم ۱۰۰۰۰۰ جفت جمله از پیکره میزان را به عنوان پیکره پایه قرار می‌دهیم و جملات استخراج شده را به آن می‌افزاییم. تنظیمات هر بخش و نتایج به دست آمده در هر بخش شرح داده می‌شود.
پیکره پایه متشکل از یک میلیون جفت جمله
در این آزمایش تنظیماتی که برای ساخت ماشین ترجمه به کار رفت به شرح زیر است:
پیکره مورد استفاده برای tune کردن: ۳۰۰۰ جفت جمله موازی از پیکره میزان

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...