مدلسازی موضوعی در نورمگز با هدف مصورسازی و ارائهی یک بازنمایی موثر مفید از دادههای این وب سایت توسعه داده شده است. این مهم با استفاده از تحلیلهای آماری پیچیده موسوم به LDA[1] میسر شده است.
استخراج اطلاعات ساختار یافته از لابهلای متون بدون ساختار محور تمام دستاوردهای فناوریهای پردازش زبان طبیعی[3] و متن کاوی[4] است.
در میان ابزارهای مختلف این فناوری دستهای از ابزارها مربوط به کاوش متونی هستند که برای مخاطب ناشناخته است. در مواردی که حجم اسناد متنی بسیار فراتر از آن است که بتوان به شکل دستی و توسط عامل انسانی صورت پذیرد، ابزارهای رایانشی نقش خود را ایفا میکنند.
یکی از نقشهایی که انجام آن در حجم زیاد به شکل دستی غیر ممکن به نظر میرسد کشف موضوعات مورد بحث در پیکرهی متون مورد نظر است.
شاید در نگاه اول، سیستم دستهبند متون انتخاب مناسبی برای این کار به نظر رسد. اما باید در نظر داشت که سیستم رده بند متون تنها محدود به ردهها و موضوعات از پیش تعیین شده است و از کشف و انتساب موضوعات جدید عاجز است.
مدل سازی موضوعی یک راهکار مناسب برای استخراج موضوعات از درون پیکره و انتساب اسناد به موضوع مرتبط با آن است.
از دیدگاه مدل سازی موضوعی، هر موضوع یک توزیع آماری از کلمات موجود در متون پیکره است. البته برخی از کلمات موجود در واژگان پیکره، در فرآیند پیش پردازش از لیست کلمات حذف میشوند.
هدف نهایی در مدل سازی موضوعی ایجاد توزیع آماری معنادار روی این واژگان است به نحوی که چنانچه کلماتی در یک موضوع وزن بیشتری دارند، عامل انسانی نیز هم موضوع بودن آنها را تایید کند.(شکل 1)
شکل 1 اختصاص وزن بیشتر کلمات هم موضوع ذیل یک موضوع هدف مدل سازی موضوعی است
مبنای اساسی برای ایجاد توزیع آماری مذکور در مدل سازی آماری، با همآیی کلمات است. هر چه کلماتی از متن بیشتر در یک سند واحد رخ داده باشند احتمال آن که آن کلمات هم موضوع باشند بیشتر است. از طرفی استقلال موضوعات تشکیل شده از یکدیگر و هم چنین تلاش برای تولید موضوعات به نحوی که کلمات هر موضوع بیشترین وزن را دریافت کنند، چارچوبی است که فرآیند مدل سازی موضوعی را شکل میدهد.
بهره گیری از مدل سازی موضوعی به شکل آزمایشی و در آزمایشگاه نورمگز اتفاق افتاده است.
در آزمایشگاه نورمگز پس از انتخاب سردستهی موضوعات، لیست نشریاتی که در آن موضوعات قلم میزنند به نمایش در میآید. پس از انتخاب نشریه مورد نظر مدل موضوعی آن نشریه به صورت گرافیکی به نمایش در میآید. این امر موجب شناخت بیشتر مخاطبین با موضوعات مطرح شده در مقالات یک نشریهی خاص میشود.(شکل 2)
مدل سازی موضوعی رهیافتی است که میتواند هم به عنوان زیر ساخت و هم به عنوان محصول نهایی مورد استفاده کاربران قرار گیرد. مثلا چنانچه یک کاربر جست و جویی انجام دهد خروجی مدل سازی
موضوعی اسناد بازیابی شده تصویر نسبتا کاملی از مفاهیم و موضوعات مورد بحث در آن اسناد را به نمایش میگذارد.
استفاده دیگر مدل سازی موضوعی استخراج عباراتی است که می توانند در توسعهی هستان شناسیها در جایگاه گرههای مفاهیم قرار گیرند چرا که این واژهها واژههای اساسی متن به حساب میآیند.
این سند جهت آشنایی محققین و فرهیختگان با ابزار مدل سازی موضوعی تهیه شده است.بهره گیری از مدل سازی موضوعی هنوز در گامهای اولیهی خود قرار دارد. به نظر میرسد در زمینههای مختلفی میتوان از مدل سازی موضوعی بهره گرفت. اما بهره گیری نهایی و کاربردی مستلزم همکاری و تبادل نظر با پژوهشگران به عنوان کاربران اصلی و نهایی این محصول است.
شکل 2یک نمونه مدل سازی موضوعی در نورمگز
[1] Latent Drichlet Allocation
[2] Topic Modelling
[3] Natural Language Processing
[4] Text Mining
تأسیس آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی دیجیتال با تأکید بر نگاه برونسازمانی، گام جدیدی برای همافزایی حداکثری با دانشگاهها، پژوهشگاهها و افراد فعال در حوزه پردازش هوشمند محتوای اسلامی است.
قم – بلوار امین – خیابان جمهوری اسلامی – ساختمان مرکز تحقیقات کامپیوتری علوم اسلامی
صندوق پستی 3857 – 37185
تلفن : 32120212 – 025
دورنگار: 32936294 – 025
رایانامه: info [at] ai.inoor.ir