توضیحات رویداد
در این دوره پژوهشگران در ابتدا با کلیات پردازش گفتار و شیوه تولید و ادراک گفتار در انسان آشنا میشوند. سپس بعد از آشنایی با بازشناسی گوینده و دستبندیهای آن، با روشهای مرسوم و جدید بازشناسی گوینده آشنا خواهند شد. در پایان نیز به صورت عملی یکی از روشهای بر مبنای شبکه عصبی در جعبه ابزار پایتورچ به آنها آموزش داده خواهد شد.
این دوره آموزشی در سه بخش برگزار خواهد شد. بخش اول توسط دکتر محمدمهدی همایونپور، بخش دوم توسط دکتر حسین زینلی و در نهایت کارگاه عملی دوره توسط مهندس محمدرضا مولوی ارائه خواهد شد.
سرفصلهای بخش اول (دکتر همایونپور):
- مقدمه
- واجشناسی، آوا، واج (همخوان، واکه)، هجا، واژک، واژه و آوانویسی
- آناتومی و اجزاء سیستم تولید گفتار در انسان
- بررسی سیستم شنیداری در انسان (گوش بیرونی، گوش میانی و گوش درونی)
- رقمیسازی سیگنال گفتار و پیشپردازش گفتار (فریمبندی، پنجرهگذاری و پیشتاکید)
- استخراج ویژگی (انرژی، گام، فرمنت، طیفنگار، تحلیل پیشگویی خطی، تحلیل کپسترال)
- تعریف بازشناسی گوینده، دستهبندی آن، ساخت مدل، آستانهگذاری، انواع خطاها و ارزیابی، ضرورت بهروزرسانی مدل و سطح آستانه
سرفصلهای بخش دوم (دکتر زینلی):
- معرفی اجمالی انواع شبکههای عصبی، مدلهای کدگذار و کدکشا، مدل ترنسفورمر و انواع استراتژیهای آموزش
- مدلهای مرسوم HMM و GMM-UBM، ابر بردار میانگین و SVM، تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دستهبند PLDA
- روشهای استخراج بردار تعبیه گوینده با استفاده از شبکههای عصبی، روشهای d-vector و x-vector، ویژگیهای گلوگاهی، یادگیری معیارهای فاصله و توابع زیانه
- روشهای مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده، مدلهای بر پایه یادگیری تباینی، مدلهای چند وظیفهای
- معرفی چالش تصدیق هویت گوینده امسال
سرفصلهای بخش سوم (مهندس مولوی):
- معرفی اجمالی بخشهای مختلف سامانه تصدیق هویت گوینده
- آموزش استخراج ویژگی
- آموزش ساخت و آموزش یک مدل نمونه
- آموزش روش ارزیابی
محل برگزاری
این کارگاه به صورت آنلاین برگزار خواهد شد و جزئیات چگونگی شرکت در آن در زمان مناسب برای ثبتنامکنندگان ارسال خواهد شد.
- آخرین مهلت ثبت نام در رویداد: 29 اردیبهشت 1403 ساعت 10:00:00
برنامه زمانی
این دوره به صورت ویدیوی آفلاین و جلسات آنلاین مجازی برگزار خواهد شد. در ابتدا ویدیوهای بخش اول بر اساس زمانبندیای که در آینده اطلاع رسانی خواهد در اختیار پژوهشگران قرار خواهد گرفت. بعد از آن در یک جلسه آنلاین به سوالات شرکتکنندگان از بخش اول پاسخ داده خواهد شد. بخش دوم نیز به همین شکل به صورت ویدیوی آفلاین و جلسه رفع اشکال آنلاین برگزار خواهد شد. در نهایت کارگاه دوره به صورت کاملاً آنلاین خواهد بود.
شروع دوره از چهارشنبه ۲۶ اردیبهشت خواهد بود و زمانبندی دقیق دوره در زیر آورده شده است.
هفته اول |
||||
۱ |
مقدمه - کاربردهای گفتارپردازی رقمی (ویدیوی آفلاین) |
دکتر همایونپور |
۱۵ دقیقه |
|
۲ |
اهداف و ضرورت گفتارپردازی رقمی (ویدیوی آفلاین) |
دکتر همایونپور |
۴۵ دقیقه |
|
۳ |
مفاهیم مرتبط با زبان (ویدیوی آفلاین) |
دکتر همایونپور |
۳۵ دقیقه |
|
۴ |
سیستم تولید گفتار در انسان (ویدیوی آفلاین) |
دکتر همایونپور |
۲۸ دقیقه |
|
۵ |
مشاهده سیگنال گفتار در حوزه زمان و فرکانس و طیفنگاشت (ویدیوی آفلاین) |
دکتر همایونپور |
۵۳ دقیقه |
|
۶ |
تعریف واکه، همخوان، واژک، واژه و هجا و بیان مختصههای اولیه واکهها وهمخوانها (ویدیوی آفلاین) |
دکتر همایونپور |
۴۸ دقیقه |
|
۷ |
ساختمان و عملکرد گوش انسان – بخش اول (ویدیوی آفلاین) |
دکتر همایونپور |
۲۳ دقیقه |
|
۸ |
ساختمان و عملکرد گوش انسان – بخش دوم (ویدیوی آفلاین) |
دکتر همایونپور |
۴۳ دقیقه |
|
۹ |
جلسه آنلاین - خلاصه هفته اول، رفع اشکال و پاسخ به سوالات |
دکتر همایونپور |
۶۰ دقیقه |
تعطیل |
هفته دوم |
||||
۱۰ |
رقمیسازی سیگنال گفتار (ویدیوی آفلاین) |
دکتر همایونپور |
۴۷ دقیقه |
|
۱۱ |
پیشپردازش سیگنال گفتار (ویدیوی آفلاین) |
دکتر همایونپور |
۵۹ دقیقه |
|
۱۲ |
استخراج ویژگی – بخش اول (ویدیوی آفلاین) |
دکتر همایونپور |
۹۰ دقیقه |
|
۱۳ |
استخراج ویژگی – بخش دوم (ویدیوی آفلاین) |
دکتر همایونپور |
۵۷ دقیقه |
|
۱۴ |
نوای گفتار (ویدیوی آفلاین) |
دکتر همایونپور |
۶۰ دقیقه |
|
۱۵ |
انواع بیومتریکها، تعریف بازشناسی گوینده، کاربردها، دستهبندی آن، آستانهگذاری، وابستگی به متن، ارزیابی (ویدیوی آفلاین) |
دکتر همایونپور |
۷۰ دقیقه |
|
۱۶ |
جلسه آنلاین- خلاصه هفته دوم، رفع اشکال و پاسخ به سوالات |
دکتر همایونپور |
۶۰ دقیقه |
۹ خرداد از ساعت ۸ الی ۱۰ |
هفته سوم |
||||
۱۷ |
مقدمه شبکههای عصبی، آموزش شبکه و شبکههای MLP |
دکتر زینلی |
۶۵ دقیقه |
|
۱۸ |
آشنایی مقدماتی با شبکههای RNN، LSTM و CNN |
دکتر زینلی |
۵۰ دقیقه |
|
۱۹ |
مدلهای دنباله به دنباله با مکانیزم توجه |
دکتر زینلی |
۴۴ دقیقه |
|
۲۰ |
مدل ترنسفورمر |
دکتر زینلی |
۵۸ دقیقه |
|
۲۱ |
استراتژیهای آموزش |
دکتر زینلی |
۲۰ دقیقه |
|
۲۲ |
مدلهای ترنسفورمری GPT و BERT |
دکتر زینلی |
۴۳ دقیقه |
|
۲۳ |
مقدمه بازشناسی گوینده و انواع آن، شیوه ارزیابی | دکتر زینلی | ۷۳ دقیقه |
|
۲۴ |
جلسه آنلاین - خلاصه هفته سوم، رفع اشکال و پاسخ به سوالات |
دکتر زینلی |
۶۰ دقیقه |
۱۶ خرداد ساعت ۱۹ تا ۲۰ |
۲۵ |
جلسه آنلاین کارگاه اول – آشنایی با انواع شبکهها و پیادهسازی آنها در پایتورچ |
مهندس مولوی |
۱۰۵ دقیقه |
ویدیوی آفلاین |
|
هفته چهارم |
|||
۲۶ |
مدلهای مرسوم HMM و GMM-UBM |
دکتر زینلی |
۷۰ دقیقه |
|
۲۷ |
مدل SVM و روشهای مختلف نرمالسازی امتیاز |
دکتر زینلی |
۴۵ دقیقه |
|
۲۸ |
تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دستهبند PLDA |
دکتر زینلی |
۵۷ دقیقه |
|
۲۹ |
روشهای استخراج بردار تعبیه گوینده با استفاده از شبکههای عصبی، روشهای d-vector و x-vector، ویژگیهای گلوگاهی |
دکتر زینلی |
۴۷ دقیقه |
|
۳۰ |
یادگیری معیارهای فاصله و توابع زیان |
دکتر زینلی |
۴۳ دقیقه |
|
۳۱ |
روشهای مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده |
دکتر زینلی |
۳۴ دقیقه |
|
۳۲ |
جلسه آنلاین - خلاصه هفته چهارم، رفع اشکال و پاسخ به سوالات |
دکتر زینلی |
۶۰ دقیقه |
۲۳ خرداد ساعت ۹ الی ۱۰ صبح |
۳۳ |
جلسه آنلاین کارگاه دوم – آشنایی با انواع شبکهها و پیادهسازی آنها در پایتورچ |
مهندس مولوی |
۱۲۰ دقیقه |
ویدیوی آفلاین |
هفته پنجم |
||||
۳۴ |
معرفی چالش تصدیق هویت گوینده |
دکتر زینلی |
۹۰ دقیقه |
|
۳۵ |
جلسه آنلاین کارگاه سوم – رفع اشکال و پاسخ به سوالات |
مهندس مولوی |
۶۰ دقیقه |
۳۰ خرداد ساعت 8 الی 9 صبح |