پروژه‌ها

ریشه یابی کلمات عربی – پیراسته سازی​

استم (میانوند) Stem: یک الگوریتم محاسباتی که کلمات هم ریشه را با تهی نمودن آن‌ها از پیشوندها و پسوندها به یک شکل مشترک باز می‌گرداند که می‌توان جایگزین آن از معادل فارسی «پیراسته»، «میانوند» یا «هسته» نیز استفاده نمود؛ به طور مثال کلمات عربی «یعلمون»، «سیعلمان»، «یعلمن»، «فیعلمونه» و «أیعلم؟» که همگی از ریشه «علم» هستند، دارای میانوند مشترک «یعلم» می­باشند.

ضرورت ساخت استمر مخصوص زبان عربی

کسب نتایج مطلوب در لایه­های نحو و معنا منوط به پردازشی دقیق در لایه­ی تجزیه صرفی کلمات است. نتایج تحقیقات نشان داده است تجزیه صرفی کلمات با استفاده از الگوی «استم» (Stem)، بیش از الگوهای دیگر همچون تشخیص ریشه (Root) و لِمّا (Lemma) در فرآیندهای هوشمندسازی اثربخش بوده است.

پیچیدگی­های زبان عربی موجب گشته است که هیچ یک از استمرهای به کار رفته در دیگر زبان‌ها با رویکردهای متفاوت خود نتوانند در زبان عربی به موفقیت در خور مثالی دست یابند.

 

ریشه یابی کلمات عربی

چالشهای ساخت استمر در زبان عربی

حذف نادرست وندها؛ «والده»

ابهام ناشی از اعراب؛ «بکر»

تک جوابی بودن؛ «لهم»

تغییر ساختار کلمات عربی؛ «قلت و مررت»

ساختارهای بی قاعده و سماعیات

مراحل ساخت استمر نور

پالایش کلمات

تفکیک کلمات غیر عربی با استفاده از برچسب‌های زبانی؛ مانند «سبزوار»

پشتیبانی از نسخه‌های مختلف نوشتار قرآن؛ مانند کلمات «یسمریّ»، «بقیت الله»، «امرأت نوح»

محاسبه وندها

نمونه‌ای از قواعد پیاده شده:

هیچ یک از پیشوند و پسوندها تکرار نمی‌گردد؛ برای مثال کلمه «کَکَلامٍ»، الا حالت «لل».

 پیشوند «س» قبل از پیشوند دیگری قرار نمی‌گیرد (صدارت طلب)؛ برای مثال در کلمات «سأعلم / ستعلم» دیگر «أ» و «ت» پیشوند نخواهند بود.

پیشوند «س» با پیشوندهای «ب» و «ال» نیز قابل جمع نیست.

 پیشوند «ف» پس از پیشوندهای «ب / ک / ل / ال» قرار نمی‌گیرد (صدارت طلب)

 پسوندهای «ان / ون / ین / ات» که جهت ساخت جمع سالم هستند، با یکدیگر جمع نمی­شوند.

الگوی تطابق ریشه

ریشه یابی کلمات عربی

الگوی بررسی استعمال

ریشه یابی کلمات عربی

 

تطبیق بر مداخل لغوی فرهنگ­نامه­ها

پیاده‌سازی قواعد اعلال و ادغام

یک نمونه از قواعد: اگر در کلمه ورودی حروف دوم و سوم ریشه (مانند ق ر ر) یکسان بوده و در میان پاسخ­های نهایی استمر نیز، یک استم سه حرفی تولید شود که حروف دوم و سوم آن همانند ریشه باشد (مانند قرر)، در اینصورت با حذف حرف سوم از استم، یک استم جدید به پاسخ­ها اضافه خواهد شد

ریشه یابی کلمات عربی

استفاده از شبکه واژگانی در ساخت استم از جمع‌های مکسر

این جمع‌ها تقریبا 10 درصد متون عربی و تقریبا 41 درصد از کل جمع‌های عربی را تشکیل می‌دهند.

ریشه یابی کلمات عربی

0 0 رای ها
رأی دهی
اشتراک در
اطلاع از
guest
0 نظر
بازخورد (Feedback) های اینلاین
نمایش همه نظرات