استخراج خودكار كلیدواژه ماشینی

استخراج اتوماتیك كلیدواژه‌ها یا كلیدواژه ماشینی در بسیاری از زمینه‌ها همچون شاخص‌گذاری، رده‌بندی، خلاصه‌سازی و جستجوی اسناد متنی نقش مهمی ایفا می‌كند. از این رو مركز تحقیقات كامپیوتری علوم اسلامی نور برآن شد تا تحقیقات گسترده‌ای را در این زمینه به انجام رساند. در حقیقت این تحقیقات دارای كاربردهای مختلفی در محصولات این مركز است كه رسیدن به آنها می‌تواند كمك شایانی به كاربران این محصولات باشد.

كلیدواژه ماشینی نور با استفاده از بروزترین تكنیك‌های علمی سعی در استخراج مفاهیم‌ كلیدی درون اسناد دارد. دست‌یابی به این امر نیازمند شناسایی معیارهایی است كه نویسنده یك سند متنی یا خواننده آن برای انتخاب كلیدواژه‌های آن سند در نظر می‌گیرد. از جمله معیارهای اثرگذار در انتخاب كلیدواژه عبارتند از: حضور آن عبارت در عنوان اصلی یا عنوان‌های فرعی مقاله و یا تكرار بالای آن عبارت در جای جای سند مورد نظر.

كاربردهای كلیدواژه‌ی ماشینی متعدد می باشند كه به بعضی از آن ها در زیر اشاره شده است:

الف)شاخص گذاری اسناد: حجم عظیم دیتاهای متنی و رشد روزافزون آنها شاخص‌گذاری و فهرست نویسی مداوم این دیتاها را به نحوی دچار مشكل كرده كه بنظر می‌رسد هیچ تیم كتاب شناسی قدرت انجام آن را به صورت دستی نداشته باشد. از این رو استفاده از كلیدواژه‌های اسناد به عنوان فهرست مطالب درون اسناد، راه‌كاری مناسب به نظر می‌رسد كه این امرهم با نبود كلیدواژه‌ی بسیاری از اسناد زیر سوال است. راه حل این معضل را می‌تواند تاحد زیادی كلیدواژه‌ی ماشینی دانست. با قراردادن كلیدواژه ماشینی برای اسنادی كه كلیدواژه ندارند می‌توان كار شاخص‌گذاری و فهرست نویسی این اسناد را به خوبی انجام داد.

ب)موتورهای جستجو: اغلب موتورهای جستجو، تكیه فراوانی بر كلیدواژه‌های اسناد برای ارائه آنها به عنوان پاسخ یك جستجو دارند. توضیح این امر به این صورت است كه اگر عبارت مورد جستجو كلیدواژه‌ی سند متنی مورد نظر باشد می‌توان آن سند متنی را یكی از بهترین پاسخ‌های ممكن در مقابل جستجوی انجام گرفته دانست. در حقیقت این كار از ارائه‌ی پاسخ‌هایی كه صرفا شامل عبارت مورد جستجو بوده ولی محتوای سند متنی متناظرش حول محوریت آن عبارت نبوده جلوگیری می‌كند.

ج)خلاصه‌سازی خودكار: كاربرد دیگری از كلیدواژه‌های ماشینی را می‌توان در تكنیك‌های خلاصه‌ساز ماشینی دید. همانطور كه می‌دانید خلاصه بایستی محتوی ارزشمندترین جملات یك سند متنی بوده و سعی كند در طول یك یا دو پاراگراف اصلی‌ترین مفاهیم مطرح شده در طی سند را بیان كند. از اینرو می‌توان گفت خلاصه‌ای بهتر است كه جملات آن تا حد امكان حول محور كلیدواژه‌های آن سند باشد. این معیار در راستای انتخاب جملات مناسب‌تر به عنوان خروجی خلاصه‌سازی كمك شایانی می‌كند.

د)رده‌بندی اسناد: رده‌بندی یا طبقه‌بندی اسناد متنی به نوعی شاخص‌گذاری با شاخص‌هایی است كه از لحاظ علمی مفاهیم نسبتا مستقلی شناخته می‌شوند. به عبارتی مفاهیم انتخاب شده به عنوان رده، خود می‌توانند شامل چندین زیر رده باشند كه ممكن است این رده‌ها و زیررده‌های آن‌ها همان كلیدواژه‌های درون اسناد باشند. اما انتخاب این رده‌ها و اتصال اسناد متنی به این رده‌ها به چه صورت با زمانی نسبتا معقول قابل انجام است؟ یك پیشنهاد منطقی استفاده از كلیدواژه‌های اسناد و پرهیز از مطالعه كامل آن‌ها برای انجام عمل رده‌بندی است.

این برنامه در حال حاضر در سایت حوزه نت مورد استفاده و بهره برداری قرار می گیرد.

0 پاسخ

دیدگاه خود را ثبت کنید

Want to join the discussion?
Feel free to contribute!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *