المشاریع

التصنیف الصرفی للکلمات الفارسیه

فی السنوات الأخیره، أصبح موضوع اللغویات الحاسوبیه أحد اهتمامات الباحثین فی مجال علوم الحاسوب واللغویات. وقد أتاح استخدام الحواسیب والأجهزه الذکیه إنجاز العدید من المهام المتعلقه بالنصوص بسرعه ودقه ملحوظتین. کما أتاح القدره على سبر أغوار مجالات کانت صعبه التصور. على سبیل المثال، یمکن ذکر الترجمه الذکیه، ومحرکات البحث الدلالی، والعدید من الأعمال الأخرى فی هذا المجال. کما یمکن أن تکون کل لغه من لغات العالم مخاطبًا لجمیع عملیات المعالجه اللغویه.

یعنی تصنیف المجازات اللغویه الحصول على الشکل الصرفی للکلمات فی النص. على سبیل المثال، وبافتراض مجموعه الوسوم التالیه:

الجدول 1-1 – مثال بسیط لمجموعه من تسمیات أجزاء الکلمه الصرفیه.

العلامات المکافئه للکلمات فی العباره “تم رؤیه أول کوکب خارج النظام الشمسی”. ستکون کما یلی:

مُصنِّف قائم على نموذج مارکوف المخفی (Hidden Markov Model)

یمکن اعتبار استخدام نموذج مارکوف الخفی لوسم أشکال الکلمات تجریدًا لنظریه الاحتمالات. تُنفَّذ العملیه على النحو التالی:

السؤال هو: فی حاله وجود سلسله من الکلمات، ما هو أفضل ترتیب للوسوم لتلک السلسله؟ إذا مثّلنا النص المُدخل (سلسله من الوحدات الصرفیه فی عملنا) بـ W = (wi)1<i<n، وحددنا سلسله من الوسوم فی مجموعه الوسوم بـ T = (ti)1<i<n، فسیکون هدفنا حساب القیمه التالیه:

تعبر العلاقه عن احتمال أن تنتمی سلسله العلامات T إلى سلسله الکلمات W. وباستخدام قاعده بایز وإزاله الجزء P(W)، یمکن تغییر العلاقه إلى:

یمثل P(TlW) احتمال حدوث تسلسل العلامه هذا (احتمالات انتقالات العلامه) ویمکن حسابه بواسطه نموذج N-gram التالی:

کیفیه التطبیع:

لهذا السبب.

طریقه الحساب هی کما یلی:

فی هذا المشروع، استخدمنا فی التجارب قاعده بیانات بیجان خان، وهی قاعده بیانات نصیه قیاسیه. تحتوی هذه القاعده على ما یقارب 2.6 ملیون (2,597,937) کلمه مُعَلَّمه من قاعده بیانات همشهری. تتکون مجموعه الوسوم المستخدمه فی هذه القاعده من 40 وسمًا، یمثل کل منها نوعًا صرفیًا. للتجربه، اخترنا ملیونی کلمه من هذه القاعده کبیانات تدریب والباقی کبیانات اختبار. من بین أول ملیونی کلمه، تم رصد 39 وسمًا من أصل 40 وسمًا متاحًا، وتم تعدیل مجموعه الوسوم وفقًا لذلک.

الجدول 3-2- الدقه والاسترجاع ومعیار F للمشروع بأکمله.

دقه

إعاده القراءه

معیار F

94.3%

94.3%

94.3%

0 0 رای ها
رأی دهی
اشتراک در
اطلاع از
guest
0 نظر
قدیمی ترین
تازه‌ترین بیشترین واکنش نشان داده شده(آرا)
بازخورد (Feedback) های اینلاین
نمایش همه نظرات