استم (میانوند) Stem: یک الگوریتم محاسباتی که کلمات هم ریشه را با تهی نمودن آنها از پیشوندها و پسوندها به یک شکل مشترک باز میگرداند که میتوان جایگزین آن از معادل فارسی «پیراسته»، «میانوند» یا «هسته» نیز استفاده نمود؛ به طور مثال کلمات عربی «یعلمون»، «سیعلمان»، «یعلمن»، «فیعلمونه» و «أیعلم؟» که همگی از ریشه «علم» هستند، دارای میانوند مشترک «یعلم» میباشند.
کسب نتایج مطلوب در لایههای نحو و معنا منوط به پردازشی دقیق در لایهی تجزیه صرفی کلمات است. نتایج تحقیقات نشان داده است تجزیه صرفی کلمات با استفاده از الگوی «استم» (Stem)، بیش از الگوهای دیگر همچون تشخیص ریشه (Root) و لِمّا (Lemma) در فرآیندهای هوشمندسازی اثربخش بوده است.
پیچیدگیهای زبان عربی موجب گشته است که هیچ یک از استمرهای به کار رفته در دیگر زبانها با رویکردهای متفاوت خود نتوانند در زبان عربی به موفقیت در خور مثالی دست یابند.
حذف نادرست وندها؛ «والده»
ابهام ناشی از اعراب؛ «بکر»
تک جوابی بودن؛ «لهم»
تغییر ساختار کلمات عربی؛ «قلت و مررت»
ساختارهای بی قاعده و سماعیات
پالایش کلمات
تفکیک کلمات غیر عربی با استفاده از برچسبهای زبانی؛ مانند «سبزوار»
پشتیبانی از نسخههای مختلف نوشتار قرآن؛ مانند کلمات «یسمریّ»، «بقیت الله»، «امرأت نوح»
محاسبه وندها
هیچ یک از پیشوند و پسوندها تکرار نمیگردد؛ برای مثال کلمه «کَکَلامٍ»، الا حالت «لل».
پیشوند «س» قبل از پیشوند دیگری قرار نمیگیرد (صدارت طلب)؛ برای مثال در کلمات «سأعلم / ستعلم» دیگر «أ» و «ت» پیشوند نخواهند بود.
پیشوند «س» با پیشوندهای «ب» و «ال» نیز قابل جمع نیست.
پیشوند «ف» پس از پیشوندهای «ب / ک / ل / ال» قرار نمیگیرد (صدارت طلب)
پسوندهای «ان / ون / ین / ات» که جهت ساخت جمع سالم هستند، با یکدیگر جمع نمیشوند.
یک نمونه از قواعد: اگر در کلمه ورودی حروف دوم و سوم ریشه (مانند ق ر ر) یکسان بوده و در میان پاسخهای نهایی استمر نیز، یک استم سه حرفی تولید شود که حروف دوم و سوم آن همانند ریشه باشد (مانند قرر)، در اینصورت با حذف حرف سوم از استم، یک استم جدید به پاسخها اضافه خواهد شد
این جمعها تقریبا 10 درصد متون عربی و تقریبا 41 درصد از کل جمعهای عربی را تشکیل میدهند.
تأسیس آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی دیجیتال با تأکید بر نگاه برونسازمانی، گام جدیدی برای همافزایی حداکثری با دانشگاهها، پژوهشگاهها و افراد فعال در حوزه پردازش هوشمند محتوای اسلامی است.
قم – بلوار امین – خیابان جمهوری اسلامی – ساختمان مرکز تحقیقات کامپیوتری علوم اسلامی
صندوق پستی 3857 – 37185
تلفن : 32120212 – 025
دورنگار: 32936294 – 025
رایانامه: info [at] ai.inoor.ir
سلام
ضمن تشکر از زحمات شما
چطور می شه به صورت آنلاین از این امکانات “ریشه یابی کلمات عربی” استفاده کرد؟
من ساکن ایران نیستم.
با سلام خدمت شما کاربر گرامی
فعلا از طریق همین رابط کاربری و به صورت محدد می توان کلمات مورد نظر را ریشه یابی کرد.
در آینده امکان سرویسگیری مستقیم نیز فراهم خواهد شد.