پروژه‌ها

مدلسازی موضوعی​

چکیده

مدل‌سازی موضوعی در نورمگز با هدف مصورسازی و ارائه‌ی یک بازنمایی موثر مفید از داده‌های این وب سایت توسعه داده شده است. این مهم با استفاده از تحلیل‌های آماری پیچیده موسوم به LDA[1]  میسر شده است.

مدل سازی موضوعی[2]

استخراج اطلاعات ساختار یافته از لا‌به‌لای متون بدون ساختار محور تمام دستاوردهای فناوری‌های پردازش زبان طبیعی[3] و متن کاوی[4] است.

در میان ابزارهای مختلف این فناوری دسته‌ای از ابزارها مربوط به کاوش متونی هستند که برای مخاطب ناشناخته است. در مواردی که حجم اسناد متنی بسیار فراتر از آن است که بتوان به شکل دستی و توسط عامل انسانی صورت پذیرد، ابزارهای رایانشی نقش خود را ایفا می‌کنند.

یکی از نقش‌هایی که انجام آن در حجم زیاد به شکل دستی غیر ممکن به نظر می‌رسد کشف موضوعات مورد بحث در پیکره‌ی متون مورد نظر است.

شاید در نگاه اول، سیستم دسته‌بند متون انتخاب مناسبی برای این کار به نظر رسد. اما باید در نظر داشت که سیستم رده بند متون تنها محدود به رده‌ها و موضوعات از پیش تعیین شده است و از کشف و انتساب موضوعات جدید عاجز است.

مدل سازی موضوعی یک راهکار مناسب برای استخراج موضوعات از درون پیکره و انتساب اسناد به موضوع مرتبط با آن است.

موضوع از دیدگاه مدل‌سازی موضوعی

از دیدگاه مدل سازی موضوعی، هر موضوع یک توزیع آماری از کلمات موجود در متون پیکره است. البته برخی از کلمات موجود در واژگان پیکره، در فرآیند پیش پردازش از لیست کلمات حذف می‌شوند.

هدف نهایی در مدل سازی موضوعی ایجاد توزیع آماری معنادار روی این واژگان است به نحوی که چنانچه کلماتی در یک موضوع وزن بیشتری دارند، عامل انسانی نیز هم موضوع بودن آن‌ها را تایید کند.(شکل 1)

مدلسازی موضوعی

شکل 1 اختصاص وزن بیشتر کلمات هم موضوع ذیل یک موضوع هدف مدل سازی موضوعی است

اهم‌آیی کلمات مبنای تولید موضوعات

مبنای اساسی برای ایجاد توزیع آماری مذکور در مدل سازی آماری، با هم‌آیی کلمات است. هر چه کلماتی از متن بیشتر در یک سند واحد رخ داده باشند احتمال آن که آن کلمات هم موضوع باشند بیشتر است. از طرفی استقلال موضوعات تشکیل شده از یکدیگر و هم چنین تلاش برای تولید موضوعات به نحوی که کلمات هر موضوع بیشترین وزن را دریافت کنند، چارچوبی است که فرآیند مدل سازی موضوعی را شکل می‌دهد.

 

مدل‌سازی موضوعی در نورمگز

بهره گیری از مدل سازی موضوعی به شکل آزمایشی و در آزمایشگاه نورمگز اتفاق افتاده است.

در آزمایشگاه نورمگز پس از انتخاب سردسته‌ی موضوعات، لیست نشریاتی که در آن موضوعات قلم می‌زنند به نمایش در می‌آید. پس از انتخاب نشریه مورد نظر مدل موضوعی آن نشریه به صورت گرافیکی به نمایش در می‌آید. این امر موجب شناخت بیشتر مخاطبین با موضوعات مطرح شده در مقالات یک نشریه‌ی خاص می‌شود.(شکل 2)

 گام‌های بعدی

مدل سازی موضوعی رهیافتی است که می‌تواند هم به عنوان زیر ساخت و هم به عنوان محصول نهایی مورد استفاده کاربران قرار گیرد. مثلا چنانچه یک کاربر جست و جویی انجام دهد خروجی مدل سازی

موضوعی اسناد بازیابی شده تصویر نسبتا کاملی از مفاهیم و موضوعات مورد بحث در آن اسناد را به نمایش می‌گذارد.

استفاده دیگر مدل سازی موضوعی استخراج عباراتی است که می توانند در توسعه‌ی هستان شناسی‌ها در جایگاه گره‌های مفاهیم قرار گیرند چرا که این واژه‌ها واژه‌های اساسی متن به حساب می‌آیند.

 

 

کلام آخر

این سند جهت آشنایی محققین و فرهیختگان با ابزار مدل سازی موضوعی تهیه شده است.بهره گیری از مدل سازی موضوعی هنوز در گام‌های اولیه‌ی خود قرار دارد. به نظر می‌رسد در زمینه‌های مختلفی می‌توان از مدل سازی موضوعی بهره گرفت. اما بهره گیری نهایی و کاربردی مستلزم همکاری و تبادل نظر با پژوهشگران به عنوان کاربران اصلی و نهایی این محصول است.

مدلسازی موضوعی

شکل 2یک نمونه مدل سازی موضوعی در نورمگز

[1] Latent Drichlet Allocation

[2] Topic Modelling

[3] Natural Language Processing

[4] Text Mining

0 0 رای ها
رأی دهی
اشتراک در
اطلاع از
guest
0 نظر
بازخورد (Feedback) های اینلاین
نمایش همه نظرات