ابر کلیدواژه‌ها

کلیدواژه در واقع کلمات یا عبارات خاصی هستند که با توجه به آنها یا جستجوی آنها در بانکهای اطلاعاتی می‌توان به‌راحتی به مطالب مورد نیاز یا مقاله موردنظر دست یافت که این کلیدواژه‌ها می‌توانند چارچوب کلی یک بحث را نشان دهند. در همین راستا ابر کلیدواژه می‌تواند بر روی دسته‌ای از مقالات که یک در موضوع خاص نوشته شده‌اند تمامی کلیدواژه‌ها را بر اساس تعداد رخداد آنها نمایش دهد. در ابرکلیدواژه، کلیدواژه‌هایی که بیشترین تکرار را در مجموعه مقالات داشته‌اند به صورت بزرگتر نمایش داده می‌شوند که همین امر نشان از مهمتر بودن آن کلمات در آن مجموعه است.

امروزه بصری سازی یکی از راهکار‌های موثر در عرضه اطلاعات و بازنمایی دانش می‌باشد. در این روش معمولا با استفاده از نشانه‌های بصری شامل اشکال و نمودارها، رنگ، اندازه و … به دسته بندی داده‎ها می‌پردازند.

با توجه به رویکرد پایگاه مجلات تخصصی نور(نورمگز) در نمایه سازی نشریات تخصصی و رویکرد اکثر نشریات معتبر علمی، که در آن‌ها هر مقاله باید دارای کلیدواژه‌گانی باشد که بیانگر محتوای مقاله باشد. منجر به ایجاد پیکره ای از کلیدواژه‌ها با امکان تفکیک بر اساس نشریات مختلف و نیز پدیدآوران شده است. با دسته‌بندی کلیدواژه‌ها بر اساس عنوان نشریه به فهرستی از کلیدواژه‌ها می رسیم که هر‌کدام به تعداد دفعات مشخص در مقالات مختلف تکرار شده اند. این دسته بندی به خوبی می‌تواند بیانگر محتوای مقالات منتشر شده در آن نشریه باشد. به منظور انتقال این دانش یکی از ابزار‌های ابر کلیدواژه‌ها است که در آن کلیدواژه‌ها با تعداد تکرار بیشتر با نمای بصری بزرگتر و پررنگ تر مشخص می شوند. به نحوی که کاربر با یک نگاه در کوتاه‌ترین زمان جهتگیری موضوعی قالب مقالات منتشر شده در آن نشریه را درک می‌کند. این شیوه برای پدیدآور نیز صادق است. یعنی با مشاهده ابر کلیدواژه ترسیم شده بر اساس مقالات پدیدآور، می توان در یک نگاه حوزه‌های موضوعی مورد علاقه پدیدآور یا زمینه‌هایی که این پدیدآور در آنها صاحب نظر است را دریافت. در حال حاظر در پایگاه مجلات تخصصی نور ذیل صفحه نشریه و پدیدآور ابر کلیدواژه‌های آن‌ها قابل مشاهده می باشد. همچنین با انتخاب هر کدام از کلیدواژها می توان فهرست مقالاتی که کلیدواژه مذکور در آن‌ها آمده است را مشاهده نمود.

مدل‌سازی موضوعی

 

مدل‌سازی موضوعی یک‌سری روش است که به طور اتوماتیک ساماندهی، فهمیدن، جستجوکردن و خلاصه کردن اسناد الکترونیکی را انجام می‌دهند. یا به عبارت دیگر مدل‌سازی موضوعی یکی از روش‌های مرسوم یافتن موضوعات نهان در مجموعه‌ی اسناد می‌باشد.

با افزایش حجم اسناد و اطلاعات و از طرفی نمایش آن‌ها به صورت دیجیتال در قالب اخبار، وبلاگ‌ها، مقالات علمی، کتاب‌های الکترونیکی، عکس، صوت و تصویر و شبکه‌های اجتماعی پیدا کردن مطالبی که به دنبال آن هستیم مشکل می‌شود. ازاین‌رو نیاز به ابزار محاسباتی جدیدی برای سازمان‌دهی، جستجو و درک این حجم عظیم اطلاعات هستیم.

تابه‌حال کار ما روی اسناد آنلاین به دو طریق انجام می‌گرفت: یکی جستجو و دیگری پیوندها. کلمه‌ی کلیدی را در یک موتور جستجو وارد و مجموعه‌ای از اسناد مرتبط با آن را مشاهده می‌کردیم. در این اسناد اگر پیوند مفیدی به اسناد دیگر می‌دیدیم با کلیک روی آن به مجموعه اسناد دیگر دسترسی پیدا می‌کردیم. این دو روش‌های قدرتمندی برای کار کردن با آرشیوهای الکترونیکی بودند اما مشکلاتی نیز وجود داشت.

روش جستجویی که در بالا شرح داده شد مبتنی بر ظاهر یک کلمه بود و هنگام انجام عمل جستجو تمامی اسنادی که حاوی آن کلمه‌ی کلیدی هستند به عنوان نتیجه برگردانده می‌شوند. این اسناد اگرچه دربردارنده‌ی آن کلمه هستند ولی ممکن است متعلق به موضوعات مختلفی باشند درحالی‌که ما احتمالاً فقط به دنبال یک موضوع خاص هستیم. برای اینکه جستجوی دقیق‌تری داشته باشیم بایستی ابتدا موضوع مورد علاقه‌ی خود را در بین اسناد جستجو کرده و سپس جستجوی خود را محدود به این اسناد جدید کنیم و می‌توانیم در این اسناد جدید دوباره موضوع خود را محدودتر کنیم و همین‌طور پیش برویم تا جایی که به طور دقیق به اسناد مورد نیاز خود دسترسی پیدا کنیم.

به عنوان مثال فرض کنیم می‌خواهیم در آرشیو یک روزنامه به دنبال یک موضوع باشیم. موضوعات در دسته‌های سیاسی، اقتصادی، فرهنگی، ورزشی و حوادث قرار دارند. مثلاً می‌خواهیم در موضوع سیاسی جستجو کنیم. داخل این موضوع زیرموضوع‌های سیاست داخلی و خارجی وجود دارد که یکی را انتخاب می‌کنیم و همین‌طور پیش می‌رویم تا دقیقاً به اسناد مورد نیازمان دسترسی پیدا کنیم.

البته این‌گونه کار کردن با اسناد به‌سادگی امکان‌پذیر نیست؛ زیرا هر چه حجم اسناد و اطلاعات افزایش مییابد دسته‌بندی فوق برای انسان کار مشکل و یا غیرممکنی می‌شود؛ بنابراین نیاز به تکنیک‌های یادگیری ماشین داریم تا بتوانیم از طریق کامپیوتر دسته‌بندی فوق را انجام دهیم. پژوهش‌گران حوزه‌ی یادگیری ماشین برای این کار مجموعه‌ای از الگوریتم‌ها تحت عنوان مدل‌سازی موضوعی آماری را توسعه داده‌اند.

الگوریتم‌های مدل‌سازی موضوعی روش‌های آماری هستند که کلمات داخل یک متن را تحلیل کرده و از این طریق موضوعات داخل متون را استخراج می‌کنند. هم‌چنین ارتباط این موضوعات با یکدیگر و نیز تغییر آن‌ها در طول زمان را مشخص می‌کنند. این الگوریتم‌ها نیازی به هیچ فرض اولیه‌ای در مورد موضوعات متون و یا برچسب‌گذاری متون ندارند. بلکه ورودی آن‌ها متن اصلی است. الگوریتم‌های مدل‌سازی موضوعی به ما این امکان را می‌دهند تا سازمان‌دهی و خلاصه‌سازی آرشیوهای الکترونیکی‌مان را در ابعادی که از عهده‌ی انسان برنمی‌آید انجام دهیم.

در مدل‌سازی موضوعی سه هدف زیر را دنبال می‌کنیم:

  • پیدا کردن موضوعات نامعلوم که در مجموعه اسناد وجود دارند. (شایع هستند)
  • تفسیر کردن اسناد بر اساس موضوعات آن‌ها.
  • استفاده کردن از این تفاسیر برای سازمان‌دهی کردن، خلاصه کردن و جستجو کردن متن‌ها

بهبود برچسب گذاری ادات سخن كلمات ناشناخته‌ی متون فارسی به كمك قوانین انجمنی

 هفدهمین كنفرانس ملی انجمن كامپیوتر ایران
سال 1390
صفحه 163- 168

تحلیل‌گر هوشمند صرفی نور

در این مقاله قصد داریم تا “تحلیلگر صرفی نور” را كه یك برنامه‌ی هوشمند پردازش صرفی زبان عربی است مورد ارائه و بررسی قرار دهیم. این سامانه كلمات عربی را حتی الامكان با استفاده از قواعد معتبر زبان عربی تجزیه و تحلیل می كند و در صورت نیاز با حداقل استفاده از بانك های اطلاعاتی تعبیه شده در داخل سامانه، نتایج حاصل را به عنوان حالات معتبر مختلف صرفی برای هر كلمه ارائه می نماید.

       ورودی این برنامه یك فایل متنی زبان عربی و خروجی آن هم یك فایل از نوع ایكس ام ال می باشد. از جمله قابلیت های مهم این سامانه، توانایی تحلیل متون اعم از با اعراب یا بدون اعراب است. قابلیت مهم دیگر تحلیل و تجزیه یك كلمه به حالات مختلف پیشوندی، میانوندی و پسوندی معتبر می باشد كه هر كدام از این حالات حاوی  مقادیر ممكن به ازای فیلدهای صرفی مختلف مثل وزن، ریشه، سرواژه و … می باشد. بدلیل مبتنی بودن بر قواعد صرفی، برنامه می تواند انواع مختلف متون عربی با موضوعات گوناگون قرآنی، فقهی، سیاسی، اجتماعی و … را با دقت بالایی تحلیل كند. به طور دقیق تر این سامانه زیربنای پردازش های مورد نیاز اعم از تحلیل نحوی، معنایی، خلاصه سازی و ترجمه ی ماشینی روی متون عربی را فراهم می نماید.

مروری بر روشهای دسته بندی سلسله مراتبی اسناد متنی با ديد مقايسه ای

امروزه حجم عظيمي از اطلاعات و دانش به صورت متني و به فرم ديجيتال هستند. با توجه به روند رشد دانش، دسته بندي اسناد
براي كاهش پيچيدگي اطلاعات و دسترسي آسان و سريع به آنها، امر بسيار مهمي است. در دنياي واقعي بسياري از مسائل دسته-
بندي اسناد متني، داراي ماهيت سلسله مراتبي هستند. الگوريتم هاي دسته بندي مسطح، از يك طرف به دليل عدم درنظر گرفتن
روابط بين دستهها و از طرف ديگر به دليل تعداد زياد دسته ها، در مواجه با اينگونه مسائل كارآمدي لازم را نخواهند داشت. براي حل
اينگونه مسائل از روشهاي دسته بندي سلسله مراتبي استفاده ميشود. در اين مقاله، روشهاي متمايز براي دسته بندي سلسله مراتبي
اسناد متني مورد بررسي قرار گرفته است و مزايا و معايب هر يك از آنها با ديد مقايسه اي بيان شده است.

 

برچسب‌گذاری ادات سخن متون فارسی به كمك مدل مخفی ماركوف

منابع مقاله: ره‌آورد نور(34) ،(سمینار فناوری‌های پردازش هوشمند متون اسلامی)، بهار 1390، ص 102-106، ؛

كاربردهای داده‌كاوی در علوم اسلامی

منابع مقاله: ره‌آورد نور(34) ،(سمینار فناوری‌های پردازش هوشمند متون اسلامی)، بهار 1390، ص 7-12، ؛

كنكاشی در الگوریتم‌های خطایابی

منابع مقاله: ره‌آورد نور(34) ،(سمینار فناوری‌های پردازش هوشمند متون اسلامی)، بهار 1390، ص 83-89، ؛