در بسیاری از زبانهای موجود در دنیا (فارسی، عربی،…)، استفاده از کاراکتر فاصله باعث شناسایی کلمات و تمایز آنها از یکدیگر می شود.
با توجه به اینکه در زبان فارسی مرز میان کلمات با فاصله از یکدیگر مشخص میشوند، در صورتی که فاصله به درستی رعایت نشود، باعث عدم خوانایی نوشته میشود و معنای آن از بین رفته و یا تغییر یابد.
در زبان فارسی، طبق استاندارد موجود دو نوع فاصله بین کلمات وجود دارد : فضای بین کلمات در یک جمله که به آن “فاصله(Space)” گفته میشود و فضای بین بخشهای کلمات چند بخشی که به آن “نیمفاصله(half-Sapce)” میگویند. در صورتی که فاصله و نیمفاصلهها در متون به درستی رعایت شود، باعث میگردد برخی از پردازشهای زبان طبیعی فارسی مانند خطایابی املایی، موتور جستجوی فارسی، خلاصه سازی فارسی، استخراج کلیدواژههای متن، ترجمه ماشینی و نمایهگذاری با بهبود قابل ملاحظهای همراه باشد.
به عنوان نمونه ممکن است به اشتباه واژههایی مانند “جمهوری اسلامی ” به صورت “جمهوریاسلامی” یا نرم افزار” به شکل “نرمافزار” نوشته شده باشد. لذا گروه پردازش هوشمند مرکز تحقیقات کامپیوتری علوم اسلامی نور برآن شد تا سرویس تصحیح فاصله هوشمند ماشینی را راه اندازی کند. این سرویس قادر است تا فاصله و نیم فاصله صحیح میان کلمات را تشخیص داده و اشتباهات را تصحیح کند. لذا اگر در متنی کلماتی مانند “جمهوریاسلامی” وجود داشته باشد توسط این سیستم به “جمهوری اسلامی” اصلاح میشود.
تأسیس آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی دیجیتال با تأکید بر نگاه برونسازمانی، گام جدیدی برای همافزایی حداکثری با دانشگاهها، پژوهشگاهها و افراد فعال در حوزه پردازش هوشمند محتوای اسلامی است.
قم – بلوار امین – خیابان جمهوری اسلامی – ساختمان مرکز تحقیقات کامپیوتری علوم اسلامی
صندوق پستی 3857 – 37185
تلفن : 32120212 – 025
دورنگار: 32936294 – 025
رایانامه: info [at] ai.inoor.ir
سلام و عرض ادب، وقتی متن را اصلاح کردیم امکان کپی آن وجود ندارد، لطفا بررسی و در بروزرسانی رفع اشکال کنید.
سلام و عرض ادب، اولا اگر این پایگاهها را بصورت نرم افزارهای مستقل ارائه کنید خیلی عالی خواهدبود،ثانیا امنیت متونی که اصلاح می شود را هم در نظر داشته باشید. با تشکر از زحمات شما