مزیت استفاده از این پیکره، این است که سندهای مشابه بصورت جفت شده، آماده هستند و نیازی به پیدا کردن جفت سندهای مشابه نیست –در کار مانتیانو و همکاران [۴۳] از دو پیکره خبری تک زبانه مجزا استفاده شد در نتیجه مرحله آغازین کار یافتن سندهای مشابه بود. همچنین در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران سندهای مشابه با یک نمره با یکدیگر همتراز شدهاند که هرچه نمره همترازی بیشتر باشد نشان دهنده این است که همترازی مطمئن تری بین دو مقاله خبری وجود دارد.
اما از طرف دیگر این پیکره تطبیقی به منظور استفاده در بازیابی اطلاعات دوزبانه ساخته شده است و برای استخراج جفت جملات موازی از آن مناسب نیست. زیرا آزمایشات ما نشان داد حتی در جفت مقالههای خبری با نمره همترازی بالا به ندرت میتوان جفت جملات همترجمه را یافت. به این دلیل که دو مقاله خبری مربوط به یک جفت سند همتراز شده، درباره یک رویداد مشترک صحبت میکنند اما نحوه بیان این رویداد بین دو خبرگزاری بسیار متفاوت است. از اینرو در آزمایشات اصلی از این پیکره استفاده نشد.
پیکره تطبیقی گرفته شده از مقالات ویکی پدیا
ویکی پدیا منبع وسیعی از مقالات در موضوعهای متنوع و به زبانهای مختلف است که به یکدیگر لینک داده شدهاند. برای هر مقاله در ویکی پدیا چندین لینک تحت عنوان «به زبانهای دیگر» وجود دارد که مقاله مورد نظر را به نسخه دیگری از همان موضوع اما در زبانهای دیگر متصل میکنند. این ویژگی ویکی پدیا باعث میشود که منبع مهمی برای تهیه یک پیکره تطبیقی باشد؛ زیرا با در نظر گرفتن دو زبان خاص - در اینجا فارسی و انگلیسی - شامل جفت مقالاتی است که به دلیل یکسان بودن عنوان با یکدیگر جفت شدهاند و محتوایشان مشابه یکدیگر است و یا حتی در برخی موارد بخشی از آنها ترجمه یکدیگر هستند.
ویکی پدیا در حال حاضر شامل بیش از ۳۰۰ هزار مقاله به زبان فارسی و بیش از ۴ میلیون مقاله به زبان انگلیسی است و همچنان در حال رشد است. به تعبیری دیگر میتوان گفت ویکی پدیا منبع بی انتهایی از مقالات است، از اینرو پیکره تطبیقی ساخته شده از آن نیز بی انتها خواهد بود. این یک مزیت بزرگ برای غلبه بر مشکل کمبود جفت جملات موازی است.
ما از یک خرنده برای پیمایش صفحات ویکی پدیا استفاده کردیم. برای هر مقاله فارسی اگر لینکی به مقاله انگلیسی داشته باشد هر دو نسخه فارسی و انگلیسی را دانلود میکنیم. فرایند پیمایش صفحات ویکی پدیا زمانبر است. یکی از دلایل عمده، این است که قبل از دانلود کردن صفحات باید URL آن را با URLهای موجود در پایگاه داده صفحات پیمایش شده جهت تکراری نبودن مقایسه کرد. بنابراین هرچه تعداد مقالات دانلود شده بیشتر میشود زمان پیمایش صفحات جدید کندتر میشود. در این آزمایشات بیش از ۱۶۰۰۰جفت مقاله انگلیسی و فارسی از ویکی پدیا دانلود شد و از ۸۰۰۰ جفت مقاله برای استخراج جفت جملات موازی استفاده شد.
پارامترهای تنظیم شده و ابزار مورد استفاده
همانطور که در فصل چهارم آمد، مدل پیشنهادی این رساله از سه گام اصلی تشکیل شده است. در ادامه آزمایشات و تجربیات انجام شده را در هر یک از این گامها شرح میدهیم. بعلاوه تنظیمات پارامترهای مدل و ابزارهای استفاده شده نیز بیان میشوند.
انتخاب جفت جملات کاندید:
ابتدا متن موجود در صفحات دانلود شده از ویکی پدیا را از داخل تگهای HTML خارج میکنیم، به عبارتی دیگر ساختار HTML را به متن تبدیل میکنیم.
برای تجزیه متن مقالات انگلیسی به جملات، از ابزار متن باز تشخیص دهنده جمله OpenNLP که بر پایه آنتروپی بیشینه ساخته شده است، استفاده میکنیم.
برای تجزیه متن مقالات فارسی به جملات، از راه حل اکتشافی ساده جداسازی با توجه به نقطه استفاده میکنیم.
برای تجزیه جمله انگلیسی به کلمات، از ابزار متن باز تشخیص دهنده کلمه OpenNLP که بر پایه آنتروپی بیشینه ساخته شده است، استفاده میکنیم.
برای تجزیه جمله فارسی به کلمات، از راه حل اکتشافی ساده جداسازی با توجه به کاراکتر فاصله استفاده میکنیم.
برای یافتن کلمات مشترک بین جمله فارسی و جمله انگلیسی، جمله انگلیسی را مبنا قرار میدهیم و به دنبال ترجمه کلماتش میرویم. زیرا ابزارهای مورد نیاز برای زبان انگلیسی در دسترسترند.
برای ریشه یابی کلمات انگلیسی از ابزار پردازش صرفی کلمات انگلیسی به نام morph استفاده میکنیم، که پسوندها، پیشوندها و میانوندها را از کلمه حذف میکند.
کلمات پرتکراری که از جمله انگلیسی حذف میشوند در شکل ۵-۲ آمدهاند:
a, able, about, across, after, all, almost, also, am, among, an, and, any, are, as, at, be, because, been, but, by, can, cannot, could, dear, did, do, does, either, else, ever, every, for, from, get, got, had, has, have, he, her, hers, him, his, how, however, i, if, in, into, is, it, its, just, least, let, like, likely, may, me, might, most, must, my, neither, no, nor, not, of, off, often, on, only, or, other, our, own, rather, said, say, says, she, should, since, so, some, than, that, the, their, them, then, there, these, they, this, tis, to, too, twas, us, wants, was, we, were, what, when, where, which, while, who, whom, why, will, with, would, yet, you, your.
کلمات پرتکرار انگلیسی
دیکشنری مورد استفاده، انگلیسی به فارسی بوده و ترکیبی از سه دیکشنری است: (۱) دیکشنری آرین پور (قسمت انگلیسی به فارسی همراه با ویرایش) (۲) یک دیکشنری موجود در وب (۳) استخراج عناوین صفحات ویکی پدیای پیمایش شده. دیکشنری ترکیبی نهایی شامل بیش از ۸۰ هزار مدخل میباشد. همچنین در تلاشی دیگر یک API از google translate را مورد استفاده قرار دادیم تا ترجمه کلماتی که در دیکشنری نیستند را از این طریق بیابیم. اما به دلیل بالا بردن زمان اجرای برنامه در آزمایش نهایی استفاده نشد.
فیلتر طول جمله با توجه به الگوریتم ارائه شده توسط گیل و چرچ [۳۰] انجام شد. برای این کار از پیکره موازی میزان استفاده کردیم. و میانگین و واریانس نسبت طول جفت جملات پیکره را محاسبه کردیم. میانگین نسبت طول جملات فارسی به طول جملات انگلیسی پیکره میزان برابر است با ۹۴۸/۰ و واریانس این مقادیر برابر است با ۱۲۵/۰٫ به این معنا که نسبت طول دو جمله موازی اغلب در بازه (۸۲۳/۰ تا ۰۷۳/۱) قرار میگیرد. جفت جملاتی که نسبت طولشان در این بازه قرار نگیرد فیلتر میشوند.
به دلیل کوتاه بودن بازه به دست آمده و اینکه در این مرحله بازخوانی بالا مهمتر از دقت بالا است، در نهایت از حد آستانه ۵/۰ استفاده شد. یعنی نسبت طول جمله کوچکتر به طول جمله بزرگتر نباید از نصف کمتر باشد.
حد آستانه فیلتر کلمات مشترک را ۲۵% قرار دادیم. به این معنا که جفت جملاتی که تعداد کلمات مشترکشان کمتر از این حد آستانه باشد فیلتر میشوند.
اگر تعداد کلمات جمله انگلیسی را ، تعداد کلمات جمله فارسی را ، تعداد کلمات پرتکرار حذف شده از جمله را ، تعداد کلمات مشترک یافت شده را و نرخ کلمات مشترک را Score بگیریم. نرخ کلمات مشترک از فرمول زیر به دست میآید:
در این مرحله از ۸۰۰۰ جفت مقاله ویکی پدیا، بیش از ۱۸۰ هزار جفت جمله به عنوان جفت جملات کاندید استخراج شدند.
انتخاب جفت جملات موازی:
طبقهبند آنتروپی بیشینهای که در اینجا استفاده میشود، MaxEnt است که نسخهای از طبقهبند آنتروپی بیشینه OpenNLP میباشد.
پیکره موازی انگلیسی–فارسی میزان جهت آموزش دادن طبقهبند مورد استفاده قرار گرفت. برای این منظور از ۱۰۰ هزار جفت جمله موازی از پیکره میزان و ۱۰۰ هزار جفت جمله غیر موازی که با جفت کردن تصادفی جملات پیکره میزان به دست آمدند، استفاده شد.
جهت همترازی در سطح کلمه از ابزار Giza++ استفاده شد. این ابزار در بخش ۲-۲-۳ معرفی شد.
اکثر ویژگیهای در نظر گرفته شده برای طبقهبند را میتوان از خروجی تولید شده توسط ابزار Giza++ به دست آورد. استفاده از ابزار Giza++ همترازی در سطح کلمه بین دو جمله را آسانتر کرده و در عین حال ما را از قدرت این ابزار بهرهمند میسازد.
در این مرحله از ۱۸۰ هزار جفت جمله کاندید، بیش از ۹۰ هزار جفت جمله به عنوان جفت جملات موازی انتخاب شدند.
بالا بردن دقت جفت جملات استخراج شده:
در این مرحله ابتدا باید جمله فارسی هر جفت جملهای که موازی شناخته شدهاند به انگلیسی ترجمه شود، برای این کار از ماشین ترجمه موزز [۵۱] که با پیکره موازی میزان آموزش داده شده است استفاده میکنیم.
در این مرحله میخواهیم معیار TER را بین جمله انگلیسی جفت جملهای که موازی شناخته شده با ترجمه انگلیسی جمله فارسی آن جفت جمله محاسبه کنیم. برای این کار از ابزار tercom.7.25 استفاده شد که توسط نویسندگان مقاله [۲۹] طراحی شده است.
در این مرحله از بیش از ۹۰ هزار جفت جملهای که در مرحله قبل موازی شناخته شدند، نزدیک به ۵۰ هزار جفت جمله فیلتر شدند و ۴۰ هزار جفت جمله به عنوان خروجی نهایی مدل انتخاب شدند.
ارزیابی جملات موازی استخراج شده با بهره گرفتن از ماشین ترجمه
نحوه ارزیابی جفت جملات استخراج شده پیشتر در بخش ۴-۵ شرح داده شد. در اینجا از ماشین ترجمه موزز جهت ارزیابی استفاده میکنیم. موزز یک سیستم ترجمه ماشینی آماری متن باز است که قادر است مدلهای ترجمه را مستقل از زبان بیاموزد.
در این بخش دو آزمایش مجزا انجام شد، یکبار پیکره پایه موجود را یک میلیون جفت جمله از پیکره میزان در نظر میگیریم و سپس جفت جملات استخراج شده را به آنها میافزاییم و در آزمایش دوم ۱۰۰۰۰۰ جفت جمله از پیکره میزان را به عنوان پیکره پایه قرار میدهیم و جملات استخراج شده را به آن میافزاییم. تنظیمات هر بخش و نتایج به دست آمده در هر بخش شرح داده میشود.
پیکره پایه متشکل از یک میلیون جفت جمله
در این آزمایش تنظیماتی که برای ساخت ماشین ترجمه به کار رفت به شرح زیر است:
پیکره مورد استفاده برای tune کردن: ۳۰۰۰ جفت جمله موازی از پیکره میزان