پروژه‌ها

تصحیح فاصله​

در بسیاری از زبان‌های موجود در دنیا (فارسی، عربی،…)، استفاده از کاراکتر فاصله باعث شناسایی کلمات و تمایز آنها از یکدیگر می شود.

با توجه به اینکه در زبان فارسی مرز میان کلمات با فاصله از یکدیگر مشخص می‌شوند، در صورتی که فاصله به‌ درستی رعایت نشود، باعث عدم خوانایی نوشته می‌شود و معنای آن از بین رفته و یا تغییر یابد.

در زبان فارسی، طبق استاندارد موجود دو نوع فاصله بین کلمات وجود دارد : فضای بین کلمات در یک جمله که به آن “فاصله(Space)” گفته می‌شود و فضای بین بخش‌های کلمات چند بخشی که به آن “نیم‌فاصله(half-Sapce)” می‌گویند. در صورتی که فاصله و نیم‌فاصله‌ها در متون به درستی رعایت شود، باعث می‌گردد برخی از پردازش‌های زبان طبیعی فارسی مانند خطایابی املایی، موتور جستجوی فارسی، خلاصه سازی فارسی، استخراج کلیدواژه‌های متن، ترجمه ماشینی و نمایه‌گذاری با بهبود قابل ملاحظه‌ای همراه باشد.

به عنوان نمونه ممکن است به اشتباه واژه‌هایی مانند “جمهوری اسلامی ” به صورت “جمهوریاسلامی” یا نرم افزار” به شکل “نرمافزار” نوشته شده باشد. لذا گروه پردازش هوشمند مرکز تحقیقات کامپیوتری علوم اسلامی نور برآن شد تا سرویس تصحیح فاصله هوشمند ماشینی را راه اندازی کند. این سرویس قادر است تا فاصله و نیم فاصله صحیح میان کلمات را تشخیص داده و اشتباهات را تصحیح کند. لذا اگر در متنی کلماتی مانند “جمهوریاسلامی” وجود داشته باشد توسط این سیستم به “جمهوری اسلامی” اصلاح می‌شود.

0 0 رای ها
رأی دهی
اشتراک در
اطلاع از
guest
0 نظر
بازخورد (Feedback) های اینلاین
نمایش همه نظرات