پروژه‌ها

رده بندی متون​

سامانه دسته بند متن نور

چکیده

سامانه دسته‌بند متون[1] نور در دو زبان عربی و فارسی قابلیت کارکرد دارد. استفاده از یادگیری ماشین سبب شده تا این دستهبند انعطاف قابل قبولی در مقابل متون و کلمات دیده نشده از خود نشان دهد.موارد متعدد استفاده از دسته‌ها و رده‌های متنی در علوم و فنون مختلف، اهمیت وجود این سامانه را مشخص می‌کند.

دسته بندی متون

دسته‌بندی متون به فرآیند انتساب یک یا جند موضوع یا برچسب به یک متن بر اساس محتوای آن اطلاق می‌شود.این فرآیند در پردازش زبان طبیعی و متن کاوی یک عمل اساسی محسوب می‌شود. متون بدون ساختار به وفور وجود دارند و دسته بندی آن‌ها یک ضرورت محسوب می‌شود. فرآیند تشخیص موضوع یک متن می‌تواند به عنوان زیرساخت سایر فرآیند‌های پردازش زبان طبیعی مورد استفاده قرار گیرد. فرآیندهایی مثل ترجمه ماشینی، نویسه‌خوان نوری و تبدیل گفتار به نوشتار.

 دسته بندی متون نیز تنوع گسترده‌ای دارد.از تشخیص هرزنامه تا تشخیص احساس یک متن.

دسته‌بندی متون علمی موجب دسترس پذیری بیشتر آن‌ها برای محققین علوم مختلف خواهد شد. به ویژه زمانی که موضوعات دارای تنوع بیشتر و منطبق بر دسته بندی‌های شناخته شده باشند.

چالش اساسی در استفاده از دسته‌های متون این است که متون منتشره در فضای مجازی و سایر فضاهای علمی حوزوی و دانشگاهی ممکن است یا فاقد هرگونه دسته‌بندی باشند یا این که طبق نظر محقق دسته‌بندی نشده باشند.

راه حل رایانشی این چالش، استفاده از سامانه‌ی دسته‌بند متون است.

سیستم دسته بند متون نور

در مرکز نور، دسته بندی نور در دو زمینه‌ی متفاوت مورد توجه قرار گرفته است که بنا به نیاز کاربران زمینه‌های متفاوت دیگری نیز می‌تواند مورد نظر قرار گیرد:

نائب رئیس اتاق تعاون ایران با تشریح مزیت‌های اقتصاد تعاونی، تقویت این بخش را راهکاری برای تحقق شعار «رونق تولید» برشمرد و گفت: عبور کم هزینه از تحریم های اقتصادی و بحران های مالی جهانی با رونق اقتصادی عادلانه بر اساس الگوهای بومی ممکن است.

متون خبری فارسی

 متون فقهی عربی.

دسته بندی متون خبری فارسی

در حال حاضر دسته بندی متون خبری فارسی در دوحالت هفت کلاسه و ده کلاسه انجام می‌پذیرد. به عنوان مثال متن (شکل 1) براساس دسته‌بندی 10 کلاسه فارسی به عنوان یک متن اقتصادی دسته بندی می شود.

رده بندی متون خبری با 7 کلاس شامل کلاس‌های اقتصادی، اجتماعی، حوادث، خارجی، سیاسی، تکنولوژی و ورزشی می‌باشد.

در رده بندی 10 کلاسه متون خبری فارسی نیز کلاس‌های ادبی-هنری، اخبار کوتاه، بورس و بانک، اقتصاد جهانی، اجتماعی، علمی و فرهنگی، اقتصادی، گردش‌گری، گوناگون و حوادث وجود دارد.

دسته بندی متون فقهی عربی

این دسته بندی بر روی متون عربی انجام می‌پذیرد و می‌تواند متون فقهی عربی را در نه کلاس ذیل انجام دسته‌بندی کند:

القصاص ، الدیات، الحج، المکاسب، المیراث، النکاح، الصلاه، الطهاره و الزکوه

 کلام آخر

شکل 1 متنی که در رده‌بند 10 کلاسه فارسی به عنوان متن اقتصادی رده‌بندی می‌شود.

سیستم دسته‌بند متن نور بر اساس نیازهای جاری و احتمالی پژوهشگران محترم شکل گرفته است. بنابراین با تعامل بیشتر و بهتر این مرکز با پژوهشگران و فرهیختگان حوزه‌ی علوم اسلامی و انسانی می توان به دسته‌بند‌های متنوع‌تر و در سایر زمینه ها دست یافت.

به دلیل آن که ساختار ماشین یادگیرنده‌ی دسته بند متون مستقل از زبان و مستقل از ساختار زبان است، تنها با ایجاد و یا گردآوری داده‌هایی با دسته‌بندی متفاوت می‌توان دسته‌بندهای جدید-حتی در زبان های دیگر- پدید آورد.

[1] Text Classification

0 0 رای ها
رأی دهی
اشتراک در
اطلاع از
guest
0 نظر
بازخورد (Feedback) های اینلاین
نمایش همه نظرات