پروژه‌ها

ترازبندی صوت و متن

گاهی متن صحبت یا سخنرانی صوتی یا فیلم خاصّی وجود دارد ولی مشخص نیست که کدام بخش متن مربوط به کدام بخش صوت است تا در نمایش همزمان متن و صوت یا فیلم به کاربر بتوانیم از آن استفاده کنیم و یا متن را به صورت زیرنویس بروی فیلم و صوت برای کاربر نشان دهیم. برنامه ترازبندی صوت و متن برای این کار طراحی شده است.

این برنامه از یک سرویس تشخیص صحبت خارجی استفاده می‌کند. در حال حاضر سرویس تشخیص صحبت به متن در سخنرانی‌ها و جلسات از دقت خوبی برخوردار نیستند از این روی رویه کار پیچیده تر شده است.

مراحل کار به این صورت است که ابتدا فیلم و یا صوت را به فرمت قابل استفاده برای ماژول تشخیص صحبت به متن تبدیل می‌کنیم. برای اینکار لازم است صوت سخنرانی از کیفیت خوبی برخوردار باشد. پس از آن با کمک تشخیص سکوت‌ها در میان سخنرانی صوت مذکور را به قطعات کوچکتر تقسیم می‌کنیم و آنها را به ماژول تشخیص صوت می‌فرستیم. برای دقت بالاتر می‌شود در قسمت‌هایی که به طور طولانی در سخنرانی سکوتی وجود ندارد از چند قطعه بندی مختلف استفاده کرد.

خروجی ماژول تشخیص صوت یک یا چند جمله تشخیص داده شده است که تا حدودی با قطعه صوت اصلی تطبیق دارد.

پس از نرمال کردن متن اصلی سخنرانی و متن قطعات صوتی تشخیص داده شده از آن از یک الگوریتم پویا برای تطبیق دادن نقاط صوت با نقاط احتمالی بین کلمات در متن اصلی استفاده می‌کنیم. این الگوریتم از بررسی فاصله لون‌اشتاین بین جملات تشخیص داده شده کنار هم قرار گرفته با متن اصلی به دست می‌آید.

خروجی کار قطعات تقسیم شده متن اصلی است که زمانبندی هر کدام از قطعات متن در کنار آن ثبت شده است. از این خروجی برای تولید فایل استاندارد زیر نویس استفاده شده است که در پلیرها قابل پخش می‌باشد.

خروجی کار برای متن و صوت سخنرانی‌های موجود در سایت رهبری و نیز برای انطباق ترتیل و متن قرآن استفاده شده است و جواب مطلوب و دقیق دریافت شده است.

ترازبندی صوت و متن

4 1 رای
رأی دهی
اشتراک در
اطلاع از
guest
0 نظر
بازخورد (Feedback) های اینلاین
نمایش همه نظرات