گالری

توضیحات رویداد

در این دوره پژوهشگران در ابتدا با کلیات پردازش گفتار و شیوه تولید و ادراک گفتار در انسان آشنا می‌شوند. سپس بعد از آشنایی با بازشناسی گوینده و دست‌بندی‌های آن، با روش‌های مرسوم و جدید بازشناسی گوینده آشنا خواهند شد. در پایان نیز به صورت عملی یکی از روش‌های بر مبنای شبکه عصبی در جعبه ابزار پایتورچ به آنها آموزش داده خواهد شد.

این دوره آموزشی در سه بخش برگزار خواهد شد. بخش اول توسط دکتر محمدمهدی همایون‌پور، بخش دوم توسط دکتر حسین زینلی و در نهایت کارگاه عملی دوره توسط مهندس محمدرضا مولوی ارائه خواهد شد.

سرفصل‌های بخش اول (دکتر همایون‌پور):

  1. مقدمه
  2. واج‌شناسی، آوا، واج (همخوان، واکه)، هجا، واژک، واژه و آوانویسی
  3. آناتومی و اجزاء سیستم تولید گفتار در انسان
  4. بررسی سیستم شنیداری در انسان (گوش بیرونی، گوش میانی و گوش درونی)
  5. رقمی‌سازی سیگنال گفتار و پیش‌پردازش گفتار (فریم‌بندی، پنجره‌گذاری و پیش‌تاکید)
  6. استخراج ویژگی (انرژی، گام، فرمنت، طیف‌نگار، تحلیل پیشگویی خطی، تحلیل کپسترال)
  7. تعریف بازشناسی گوینده، دسته‌بندی آن، ساخت مدل، آستانه‌گذاری، انواع خطاها و ارزیابی، ضرورت به‌روزرسانی مدل و سطح آستانه

سرفصل‌های بخش دوم (دکتر زینلی):

  1. معرفی اجمالی انواع شبکه‌های عصبی، مدل‌های کدگذار و کدکشا، مدل ترنسفورمر و انواع استراتژی‌های آموزش
  2. مدل‌های مرسوم HMM و GMM-UBM، ابر بردار میانگین و SVM، تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دسته‌بند PLDA
  3. روش‌های استخراج بردار تعبیه گوینده با استفاده از شبکه‌های عصبی، روش‌های d-vector و x-vector، ویژگی‌های گلوگاهی، یادگیری معیارهای فاصله و توابع زیانه
  4. روش‌های مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده، مدل‌های بر پایه یادگیری تباینی، مدل‌های چند وظیفه‌ای
  5. معرفی چالش تصدیق هویت گوینده امسال

سرفصل‌های بخش سوم (مهندس مولوی):

  1. معرفی اجمالی بخش‌های مختلف سامانه تصدیق هویت گوینده
  2. آموزش استخراج ویژگی
  3. آموزش ساخت و آموزش یک مدل نمونه
  4. آموزش روش ارزیابی

محل برگزاری

این کارگاه به صورت آنلاین برگزار خواهد شد و جزئیات چگونگی شرکت در آن در زمان مناسب برای ثبت‌نام‌کنندگان ارسال خواهد شد.
  • آخرین مهلت ثبت نام در رویداد: 29 اردیبهشت 1403 ساعت 10:00:00

برنامه زمانی

این دوره به صورت ویدیوی آفلاین و جلسات آنلاین مجازی برگزار خواهد شد. در ابتدا ویدیوهای بخش اول بر اساس زمان‌بندی‌ای که در آینده اطلاع رسانی خواهد در اختیار پژوهشگران قرار خواهد گرفت. بعد از آن در یک جلسه آنلاین به سوالات شرکت‌کنندگان از بخش اول پاسخ داده خواهد شد. بخش دوم نیز به همین شکل به صورت ویدیوی آفلاین و جلسه رفع اشکال آنلاین برگزار خواهد شد. در نهایت کارگاه دوره به صورت کاملاً آنلاین خواهد بود.

شروع دوره از چهارشنبه ۲۶ اردیبهشت خواهد بود و زمان‌بندی دقیق دوره در زیر آورده شده است.

 

هفته اول

 

۱

مقدمه - کاربردهای گفتارپردازی رقمی (ویدیوی آفلاین)

دکتر همایون‌پور

۱۵ دقیقه

 

۲

اهداف و ضرورت گفتارپردازی رقمی (ویدیوی آفلاین)

دکتر همایون‌پور

۴۵ دقیقه

 

۳

مفاهیم مرتبط با زبان (ویدیوی آفلاین)

دکتر همایون‌پور

۳۵ دقیقه

 

۴

سیستم تولید گفتار در انسان (ویدیوی آفلاین)

دکتر همایون‌پور

۲۸ دقیقه

 

۵

مشاهده سیگنال گفتار در حوزه زمان و فرکانس و طیف‌نگاشت (ویدیوی آفلاین)

دکتر همایون‌پور

۵۳ دقیقه

 

۶

تعریف واکه، همخوان، واژک، واژه و هجا و بیان مختصه‌های اولیه واکه‌ها وهمخوان‌ها (ویدیوی آفلاین)

دکتر همایون‌پور

۴۸ دقیقه

 

۷

ساختمان و عملکرد گوش انسان – بخش اول (ویدیوی آفلاین)

دکتر همایون‌پور

۲۳ دقیقه

 

۸

ساختمان و عملکرد گوش انسان – بخش دوم (ویدیوی آفلاین)

دکتر همایون‌پور

۴۳ دقیقه

 

۹

جلسه آنلاین - خلاصه هفته اول، رفع اشکال و پاسخ به سوالات

دکتر همایون‌پور

۶۰ دقیقه

تعطیل

 

هفته دوم

 

۱۰

رقمی‌سازی سیگنال گفتار (ویدیوی آفلاین)

دکتر همایون‌پور

۴۷ دقیقه

 

۱۱

پیش‌پردازش سیگنال گفتار (ویدیوی آفلاین)

دکتر همایون‌پور

۵۹ دقیقه

 

۱۲

استخراج ویژگی – بخش اول (ویدیوی آفلاین)

دکتر همایون‌پور

۹۰ دقیقه

 

۱۳

استخراج ویژگی – بخش دوم (ویدیوی آفلاین)

دکتر همایون‌پور

۵۷ دقیقه

 

۱۴

نوای گفتار (ویدیوی آفلاین)

دکتر همایون‌پور

۶۰ دقیقه

 

۱۵

انواع بیومتریک‌ها، تعریف بازشناسی گوینده، کاربردها، دسته‌بندی آن، آستانه‌گذاری، وابستگی به متن، ارزیابی (ویدیوی آفلاین)

دکتر همایون‌پور

۷۰ دقیقه

 

۱۶

جلسه آنلاین- خلاصه هفته دوم، رفع اشکال و پاسخ به سوالات

دکتر همایون‌پور

۶۰ دقیقه

۹ خرداد از ساعت ۸ الی ۱۰

 

هفته سوم

 

۱۷

مقدمه شبکه‌های عصبی، آموزش شبکه و شبکه‌های MLP

دکتر زینلی

۶۵ دقیقه

 

۱۸

آشنایی مقدماتی با شبکه‌های RNN، LSTM و CNN

دکتر زینلی

۵۰ دقیقه

 

۱۹

مدل‌های دنباله به دنباله با مکانیزم توجه

دکتر زینلی

۴۴ دقیقه

 

۲۰

مدل ترنسفورمر

دکتر زینلی

۵۸ دقیقه

 

۲۱

استراتژی‌های آموزش

دکتر زینلی

۲۰ دقیقه

 

۲۲

مدل‌های ترنسفورمری GPT و BERT

دکتر زینلی

۴۳ دقیقه

 

۲۳

مقدمه بازشناسی گوینده و انواع آن، شیوه ارزیابی دکتر زینلی ۷۳ دقیقه

 

۲۴

جلسه آنلاین - خلاصه هفته سوم، رفع اشکال و پاسخ به سوالات

دکتر زینلی

۶۰ دقیقه

۱۶ خرداد ساعت ۱۹ تا ۲۰

۲۵

جلسه آنلاین کارگاه اول – آشنایی با انواع شبکه‌ها و پیاده‌سازی آنها در پایتورچ

مهندس مولوی

۱۰۵ دقیقه

ویدیوی آفلاین

 

هفته چهارم

 

۲۶

مدل‌های مرسوم HMM و GMM-UBM

دکتر زینلی

۷۰ دقیقه

 

۲۷

مدل SVM و روش‌های مختلف نرمال‌سازی امتیاز

دکتر زینلی

۴۵ دقیقه

 

۲۸

تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دسته‌بند PLDA

دکتر زینلی

۵۷ دقیقه

 

۲۹

روش‌های استخراج بردار تعبیه گوینده با استفاده از شبکه‌های عصبی، روش‌های d-vector و x-vector، ویژگی‌های گلوگاهی

دکتر زینلی

۴۷ دقیقه

 

۳۰

یادگیری معیارهای فاصله و توابع زیان

دکتر زینلی

۴۳ دقیقه

 

۳۱

روش‌های مبتنی بر یادگیری خود نظارتی برای بازشناسی گوینده

دکتر زینلی

۳۴ دقیقه

 

۳۲

جلسه آنلاین - خلاصه هفته چهارم، رفع اشکال و پاسخ به سوالات

دکتر زینلی

۶۰ دقیقه

۲۳ خرداد ساعت ۹ الی ۱۰ صبح

۳۳

جلسه آنلاین کارگاه دوم – آشنایی با انواع شبکه‌ها و پیاده‌سازی آنها در پایتورچ

مهندس مولوی

۱۲۰ دقیقه

ویدیوی آفلاین

 

هفته پنجم

 
۳۴

معرفی چالش تصدیق هویت گوینده

دکتر زینلی

۹۰ دقیقه

 

۳۵

جلسه آنلاین کارگاه سوم – رفع اشکال و پاسخ به سوالات

مهندس مولوی

۶۰ دقیقه

۳۰ خرداد ساعت 8 الی 9 صبح

 

کمیته فنی

دکتر محمدمهدی همایون‌پور

مدرس دوره - دانشگاه صنعتی امیرکبیر
دکتر حسین زینلی

مدرس دوره - دانشگاه صنعتی امیرکبیر
مهندس محمدرضا مولوی

مدرس دوره - دانشگاه صنعتی امیرکبیر

مسابقات مربوط به این رویداد

آواتار

چالش تصدیق هویت گوینده وابسته به متن

رقابت متخصصین پردازش گفتار برای ارائه راهکارهای نوین برای موفقیت رمز گفتاری