دوره آموزشی پردازش گفتار و بازشناسی گوینده

توضیحات رویداد

در این دوره پژوهشگران در ابتدا با کلیات پردازش گفتار و شیوه تولید و ادراک گفتار در انسان آشنا می‌شوند. سپس بعد از آشنایی با بازشناسی گوینده و دست‌بندی‌های آن، با روش‌های مرسوم و جدید بازشناسی گوینده آشنا خواهند شد. در پایان نیز به صورت عملی یکی از روش‌های بر مبنای شبکه عصبی در جعبه ابزار پایتورچ به آنها آموزش داده خواهد شد.

این دوره آموزشی در سه بخش برگزار خواهد شد. بخش اول توسط دکتر محمدمهدی همایون‌پور، بخش دوم توسط دکتر حسین زینلی و در نهایت کارگاه عملی دوره توسط مهندس محمدرضا مولوی ارائه خواهد شد.

سرفصل‌های بخش اول (دکتر همایون‌پور):

مقدمه
واج‌شناسی، آوا، واج (همخوان، واکه)، هجا، واژک، واژه و آوانویسی
آناتومی و اجزاء سیستم تولید گفتار در انسان
بررسی سیستم شنیداری در انسان (گوش بیرونی، گوش میانی و گوش درونی)
رقمی‌سازی سیگنال گفتار و پیش‌پردازش گفتار (فریم‌بندی، پنجره‌گذاری و پیش‌تاکید)
استخراج ویژگی (انرژی، گام، فرمنت، طیف‌نگار، تحلیل پیشگویی خطی، تحلیل کپسترال)
تعریف بازشناسی گوینده، دسته‌بندی آن، ساخت مدل، آستانه‌گذاری، انواع خطاها و ارزیابی، ضرورت به‌روزرسانی مدل و سطح آستانه

سرفصل‌های بخش دوم (دکتر زینلی):

معرفی اجمالی انواع شبکه‌های عصبی، مدل‌های کدگذار و کدکشا، مدل ترنسفورمر و انواع استراتژی‌های آموزش
مدل‌های مرسوم HMM و GMM-UBM، ابر بردار میانگین و SVM، تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دسته‌بند PLDA
روش‌های استخراج بردار تعبیه گوینده با استفاده از شبکه‌های عصبی، روش‌های d-vector و x-vector، ویژگی‌های گلوگاهی، یادگیری معیارهای فاصله و توابع زیانه
روش‌های مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده، مدل‌های بر پایه یادگیری تباینی، مدل‌های چند وظیفه‌ای
معرفی چالش تصدیق هویت گوینده امسال

سرفصل‌های بخش سوم (مهندس مولوی):

معرفی اجمالی بخش‌های مختلف سامانه تصدیق هویت گوینده
آموزش استخراج ویژگی
آموزش ساخت و آموزش یک مدل نمونه
آموزش روش ارزیابی

محل برگزاری

این کارگاه به صورت آنلاین برگزار خواهد شد و جزئیات چگونگی شرکت در آن در زمان مناسب برای ثبت‌نام‌کنندگان ارسال خواهد شد.

آخرین مهلت ثبت نام در رویداد: 29 اردیبهشت 1403 ساعت 10:00:00

برنامه زمانی

این دوره به صورت ویدیوی آفلاین و جلسات آنلاین مجازی برگزار خواهد شد. در ابتدا ویدیوهای بخش اول بر اساس زمان‌بندی‌ای که در آینده اطلاع رسانی خواهد در اختیار پژوهشگران قرار خواهد گرفت. بعد از آن در یک جلسه آنلاین به سوالات شرکت‌کنندگان از بخش اول پاسخ داده خواهد شد. بخش دوم نیز به همین شکل به صورت ویدیوی آفلاین و جلسه رفع اشکال آنلاین برگزار خواهد شد. در نهایت کارگاه دوره به صورت کاملاً آنلاین خواهد بود.

شروع دوره از چهارشنبه ۲۶ اردیبهشت خواهد بود و زمان‌بندی دقیق دوره در زیر آورده شده است.

	هفته اول
۱	مقدمه - کاربردهای گفتارپردازی رقمی (ویدیوی آفلاین)	دکتر همایون‌پور	۱۵ دقیقه
۲	اهداف و ضرورت گفتارپردازی رقمی (ویدیوی آفلاین)	دکتر همایون‌پور	۴۵ دقیقه
۳	مفاهیم مرتبط با زبان (ویدیوی آفلاین)	دکتر همایون‌پور	۳۵ دقیقه
۴	سیستم تولید گفتار در انسان (ویدیوی آفلاین)	دکتر همایون‌پور	۲۸ دقیقه
۵	مشاهده سیگنال گفتار در حوزه زمان و فرکانس و طیف‌نگاشت (ویدیوی آفلاین)	دکتر همایون‌پور	۵۳ دقیقه
۶	تعریف واکه، همخوان، واژک، واژه و هجا و بیان مختصه‌های اولیه واکه‌ها وهمخوان‌ها (ویدیوی آفلاین)	دکتر همایون‌پور	۴۸ دقیقه
۷	ساختمان و عملکرد گوش انسان – بخش اول (ویدیوی آفلاین)	دکتر همایون‌پور	۲۳ دقیقه
۸	ساختمان و عملکرد گوش انسان – بخش دوم (ویدیوی آفلاین)	دکتر همایون‌پور	۴۳ دقیقه
۹	جلسه آنلاین - خلاصه هفته اول، رفع اشکال و پاسخ به سوالات	دکتر همایون‌پور	۶۰ دقیقه	تعطیل
	هفته دوم
۱۰	رقمی‌سازی سیگنال گفتار (ویدیوی آفلاین)	دکتر همایون‌پور	۴۷ دقیقه
۱۱	پیش‌پردازش سیگنال گفتار (ویدیوی آفلاین)	دکتر همایون‌پور	۵۹ دقیقه
۱۲	استخراج ویژگی – بخش اول (ویدیوی آفلاین)	دکتر همایون‌پور	۹۰ دقیقه
۱۳	استخراج ویژگی – بخش دوم (ویدیوی آفلاین)	دکتر همایون‌پور	۵۷ دقیقه
۱۴	نوای گفتار (ویدیوی آفلاین)	دکتر همایون‌پور	۶۰ دقیقه
۱۵	انواع بیومتریک‌ها، تعریف بازشناسی گوینده، کاربردها، دسته‌بندی آن، آستانه‌گذاری، وابستگی به متن، ارزیابی (ویدیوی آفلاین)	دکتر همایون‌پور	۷۰ دقیقه
۱۶	جلسه آنلاین- خلاصه هفته دوم، رفع اشکال و پاسخ به سوالات	دکتر همایون‌پور	۶۰ دقیقه	۹ خرداد از ساعت ۸ الی ۱۰
	هفته سوم
۱۷	مقدمه شبکه‌های عصبی، آموزش شبکه و شبکه‌های MLP	دکتر زینلی	۶۵ دقیقه
۱۸	آشنایی مقدماتی با شبکه‌های RNN، LSTM و CNN	دکتر زینلی	۵۰ دقیقه
۱۹	مدل‌های دنباله به دنباله با مکانیزم توجه	دکتر زینلی	۴۴ دقیقه
۲۰	مدل ترنسفورمر	دکتر زینلی	۵۸ دقیقه
۲۱	استراتژی‌های آموزش	دکتر زینلی	۲۰ دقیقه
۲۲	مدل‌های ترنسفورمری GPT و BERT	دکتر زینلی	۴۳ دقیقه
۲۳	مقدمه بازشناسی گوینده و انواع آن، شیوه ارزیابی	دکتر زینلی	۷۳ دقیقه
۲۴	جلسه آنلاین - خلاصه هفته سوم، رفع اشکال و پاسخ به سوالات	دکتر زینلی	۶۰ دقیقه	۱۶ خرداد ساعت ۱۹ تا ۲۰
۲۵	جلسه آنلاین کارگاه اول – آشنایی با انواع شبکه‌ها و پیاده‌سازی آنها در پایتورچ	مهندس مولوی	۱۰۵ دقیقه	ویدیوی آفلاین
	هفته چهارم
۲۶	مدل‌های مرسوم HMM و GMM-UBM	دکتر زینلی	۷۰ دقیقه
۲۷	مدل SVM و روش‌های مختلف نرمال‌سازی امتیاز	دکتر زینلی	۴۵ دقیقه
۲۸	تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دسته‌بند PLDA	دکتر زینلی	۵۷ دقیقه
۲۹	روش‌های استخراج بردار تعبیه گوینده با استفاده از شبکه‌های عصبی، روش‌های d-vector و x-vector، ویژگی‌های گلوگاهی	دکتر زینلی	۴۷ دقیقه
۳۰	یادگیری معیارهای فاصله و توابع زیان	دکتر زینلی	۴۳ دقیقه
۳۱	روش‌های مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده	دکتر زینلی	۳۴ دقیقه
۳۲	جلسه آنلاین - خلاصه هفته چهارم، رفع اشکال و پاسخ به سوالات	دکتر زینلی	۶۰ دقیقه	۲۳ خرداد ساعت ۹ الی ۱۰ صبح
۳۳	جلسه آنلاین کارگاه دوم – آشنایی با انواع شبکه‌ها و پیاده‌سازی آنها در پایتورچ	مهندس مولوی	۱۲۰ دقیقه	ویدیوی آفلاین
	هفته پنجم
۳۴	معرفی چالش تصدیق هویت گوینده	دکتر زینلی	۹۰ دقیقه
۳۵	جلسه آنلاین کارگاه سوم – رفع اشکال و پاسخ به سوالات	مهندس مولوی	۶۰ دقیقه	۳۰ خرداد ساعت 8 الی 9 صبح