سامانه دسته بند متن نور
چکیده
سامانه دستهبند متون[1] نور در دو زبان عربی و فارسی قابلیت کارکرد دارد. استفاده از یادگیری ماشین سبب شده تا این دستهبند انعطاف قابل قبولی در مقابل متون و کلمات دیده نشده از خود نشان دهد.موارد متعدد استفاده از دستهها و ردههای متنی در علوم و فنون مختلف، اهمیت وجود این سامانه را مشخص میکند.
دسته بندی متون
دستهبندی متون به فرآیند انتساب یک یا جند موضوع یا برچسب به یک متن بر اساس محتوای آن اطلاق میشود.این فرآیند در پردازش زبان طبیعی و متن کاوی یک عمل اساسی محسوب میشود. متون بدون ساختار به وفور وجود دارند و دسته بندی آنها یک ضرورت محسوب میشود. فرآیند تشخیص موضوع یک متن میتواند به عنوان زیرساخت سایر فرآیندهای پردازش زبان طبیعی مورد استفاده قرار گیرد. فرآیندهایی مثل ترجمه ماشینی، نویسهخوان نوری و تبدیل گفتار به نوشتار.
دسته بندی متون نیز تنوع گستردهای دارد.از تشخیص هرزنامه تا تشخیص احساس یک متن.
دستهبندی متون علمی موجب دسترس پذیری بیشتر آنها برای محققین علوم مختلف خواهد شد. به ویژه زمانی که موضوعات دارای تنوع بیشتر و منطبق بر دسته بندیهای شناخته شده باشند.
چالش اساسی در استفاده از دستههای متون این است که متون منتشره در فضای مجازی و سایر فضاهای علمی حوزوی و دانشگاهی ممکن است یا فاقد هرگونه دستهبندی باشند یا این که طبق نظر محقق دستهبندی نشده باشند.
راه حل رایانشی این چالش، استفاده از سامانهی دستهبند متون است.
سیستم دسته بند متون نور
در مرکز نور، دسته بندی نور در دو زمینهی متفاوت مورد توجه قرار گرفته است که بنا به نیاز کاربران زمینههای متفاوت دیگری نیز میتواند مورد نظر قرار گیرد:
نائب رئیس اتاق تعاون ایران با تشریح مزیتهای اقتصاد تعاونی، تقویت این بخش را راهکاری برای تحقق شعار «رونق تولید» برشمرد و گفت: عبور کم هزینه از تحریم های اقتصادی و بحران های مالی جهانی با رونق اقتصادی عادلانه بر اساس الگوهای بومی ممکن است. |
متون خبری فارسی
متون فقهی عربی.
دسته بندی متون خبری فارسی
در حال حاضر دسته بندی متون خبری فارسی در دوحالت هفت کلاسه و ده کلاسه انجام میپذیرد. به عنوان مثال متن (شکل 1) براساس دستهبندی 10 کلاسه فارسی به عنوان یک متن اقتصادی دسته بندی می شود.
رده بندی متون خبری با 7 کلاس شامل کلاسهای اقتصادی، اجتماعی، حوادث، خارجی، سیاسی، تکنولوژی و ورزشی میباشد.
در رده بندی 10 کلاسه متون خبری فارسی نیز کلاسهای ادبی-هنری، اخبار کوتاه، بورس و بانک، اقتصاد جهانی، اجتماعی، علمی و فرهنگی، اقتصادی، گردشگری، گوناگون و حوادث وجود دارد.
دسته بندی متون فقهی عربی
این دسته بندی بر روی متون عربی انجام میپذیرد و میتواند متون فقهی عربی را در نه کلاس ذیل انجام دستهبندی کند:
القصاص ، الدیات، الحج، المکاسب، المیراث، النکاح، الصلاه، الطهاره و الزکوه
کلام آخر
شکل 1 متنی که در ردهبند 10 کلاسه فارسی به عنوان متن اقتصادی ردهبندی میشود. |
سیستم دستهبند متن نور بر اساس نیازهای جاری و احتمالی پژوهشگران محترم شکل گرفته است. بنابراین با تعامل بیشتر و بهتر این مرکز با پژوهشگران و فرهیختگان حوزهی علوم اسلامی و انسانی می توان به دستهبندهای متنوعتر و در سایر زمینه ها دست یافت.
به دلیل آن که ساختار ماشین یادگیرندهی دسته بند متون مستقل از زبان و مستقل از ساختار زبان است، تنها با ایجاد و یا گردآوری دادههایی با دستهبندی متفاوت میتوان دستهبندهای جدید-حتی در زبان های دیگر- پدید آورد.
[1] Text Classification
تأسیس آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی دیجیتال با تأکید بر نگاه برونسازمانی، گام جدیدی برای همافزایی حداکثری با دانشگاهها، پژوهشگاهها و افراد فعال در حوزه پردازش هوشمند محتوای اسلامی است.
قم – بلوار امین – خیابان جمهوری اسلامی – ساختمان مرکز تحقیقات کامپیوتری علوم اسلامی
صندوق پستی 3857 – 37185
تلفن : 32120212 – 025
دورنگار: 32936294 – 025
رایانامه: info [at] ai.inoor.ir