یکی از نیازهای زیربنایی متن کاوی، تجزیه صرفی و ساختواژی کلمات و شناسایی وندهای کلمه و اطلاعاتی از قبیل نوع کلمه، ریشه، سرواژه (مصدر فعل و مفرد اسم جمع) و … است که در اکثر فعالیت های هوشمند متنکاوی از جمله مشابه یابی، رده بندی، بهبود نتایج موتورهای جستجو و … کاربرد دارد.
تحلیلگر صرفی نور، شامل دو بخش کلی است: هسته تجزیه صرفی کلمات با استفاده از تکنیکهای قانون محور و سیستم مرتبسازی تحلیلها با استفاده از تکنیکهای یادگیری ماشین.
در مرحله اول فرایندهایی از قبیل شناسایی پیشوندها و پسوندها، شناسایی حروف اصلی کلمه، تحلیل تخصصی قواعد زبانی عربی (از جمله اعلال، ادغام، ابدال و … ) انجام می شود که طی این فرایندها از مجموعه دادگان جانبی زبانشناسی (مثل بانک کلمات جامد عربی، جمعهای مکسر، صفات مشبهه و …) استفاده می شود و در نهایت، تمامی تحلیلهای ممکن بهازای یک کلمه بهمراه بیش از 20 ویژگی صرفی شناسایی ارائه می شوند.
در مرحله دوم پس از تولید مجموعه تحلیلهای صرفی ممکن بهازای یک کلمه، با استفاده از روشهای یادگیری ماشین و تحلیل کلمات همسایه و بهره گیری از پیکره های از پیشتأیید شده توسط انسان، تحلیلها امتیازدهی می شوند.
یکی از کاربردهای مهم ابزارهای تحلیلگر صرفی، شناسایی کلمات همخانواده با یک کلمه است؛ که در همین راستا از تحلیلگر صرفی نور برای بهبود نتایج موتورهای جستجو در پایگاههای قاموس، حدیث، نورلایب و … بهرهبرداری شدهاست.
از این ابزار همچنین برای تولید پیکره صرفی اختصاصی قرآن نیز استفاده شده است.
تأسیس آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی دیجیتال با تأکید بر نگاه برونسازمانی، گام جدیدی برای همافزایی حداکثری با دانشگاهها، پژوهشگاهها و افراد فعال در حوزه پردازش هوشمند محتوای اسلامی است.
قم – بلوار امین – خیابان جمهوری اسلامی – ساختمان مرکز تحقیقات کامپیوتری علوم اسلامی
صندوق پستی 3857 – 37185
تلفن : 32120212 – 025
دورنگار: 32936294 – 025
رایانامه: info [at] ai.inoor.ir