لیگ تشخیص موجودیت‌های نامدار متون فارسی

شرح مسابقه

هدف از این مسابقه رقابت میان تیم‌های مختلف شرکت کننده برای پیاده‌سازی یک سیستم تشخیص موجودیت‌های نامدار در متون فارسی می‌باشد. در زمان مسابقه مجموعه‌ای از متون فارسی مختلف در اختیار هر یک از شرکت کنندگان قرار داده می‌شود و هر تیم می‌بایست کلیه موجودیت‌های نامدار شناسایی شده در هر سند را گزارش نماید. تیم‌های شرکت کننده مجاز به استفاده از هر گونه داده آموزشی هستند. منابع آزمون ویکی پدیای فارسی و متون خبری فارسی خواهند بود.

نحوه ارزیابی

شرکت کنندگان در این مسابقه بر اساس تعداد تشخیص‌های درست و غلط ارزیابی خواهند شد. برای بررسی درستی خروجی سیستم، میانگین نتیجه نهایی سیستم بر مبنای معیار اف در سطح کلمه و در سطح عبارت معیار ارزیابی می‌باشد. پس از بررسی خروجی برنامه تیم‌ها و انتخاب تیم‌های برتر، تیم‌های برگزیده برای رتبه‌بندی نهایی از لحاظ الگوریتم به‌کار رفته نیز ارزیابی می‌شوند. برای این منظور الگوریتم به‌کار رفته توسط تیم‌های انتخاب شده در شرایط داده‌ای کاملاً مساوی مقایسه می‌گردد. به‌ این صورت که در محل مسابقات سیستم‌ها باید مدل خود را با استفاده از داده آموزش و اعتبارسنجی ارائه شده در مدت زمان مشخص آموزش دهند و سپس با داده آزمون محک بزنند. در این بخش چنانچه روش مورد استفاده نیاز به بردار تعبیه کلمات داشته باشند پیکره جهت ساخت بردار نیز در اختیار تیم‌ها قرار خواهد گرفت.

مشخصات داده

داده‌های ورودی مسابقه به‌صورت یک فایل متنی خواهد بود که هر سطر آن شامل یک واژه و برچسب آن است که با tab جدا شده‌اند. مرزبندی جملات در یک سطر مجزا و با عبارت <s> مشخص شده‌ است.

دادگان دارای چهار نوع موجودیت شخص، مکان، سازمان و تاریخ است. با در نظر گرفتن نوع برچسب‌زنی IOB دادگان تعداد ۹ نوع برچسب مختلف را شامل می‌شود که در جدول زیر آمده‌است.

تعریف فارسی برچسب

تعریف انگلیسی برچسب

برچسب

هیچ

out

o

اسم شخص

Person

b-PER

i-PER

مکان

Location

b-LOC

i-LOC

سازمان

Organization

b-ORG

i-ORG

تاریخ

Date

b-DTE

i-DTE

 

در ادامه یک نمونه داده مسابقه داده شده است:

<s>

ابوالفضل     b-PER

محمد        i-PER

بن i-PER

عبیدالله      i-PER

بلعمی        i-PER

مشهور        o

به o

خواجه        b-PER

بلعمی        i-PER

 درگذشت   o

۱۰           b-DTE

صفر          i-DTE

۳۲۹         i-DTE

قمری         i-DTE

از  o

دانشمندان   o

و  o

وزیران        o

دوره          b-DTE

سامانی       i-DTE

است          o

<s>

ارزیابی

شرکت کنندگان در این مسابقه بر اساس تعداد تشخیص‌های درست و غلط ارزیابی خواهند شد.

قوانین لیگ

  1. کلیه تیم های شرکت کننده در این مسابقه موظف به رعایت کلیه قوانین عمومی مسابقات هوش مصنوعی امیرکبیر هستند.
  2. خروجی برنامه بایستی به شکل برخط ثبت شود.

شرکت کنندگان

ردیف نام تیم دانشگاه/شرکت مسئول تیم کشور
۱ QubicAI بینیازیان
۲ genesistext
۳ Exa Exa DataScience Lab زمانیان
۴ TexMex دانشگاه امیرکبیر مولوی
۵ excited نوروزی
۶ Miras دانشگاه شریف بهنام ثابتی
۷ tensor  موسوی نیا
۸ NanoText دانشگاه ملایر مجتبی فر
۹ aali علی زادی
۱۰ ITRC پژوهشکده مخابرات بکائی
۱۱ AI 96 IUST دانشگاه علم و صنعت شنگیپور
۱۲ NERizers دانشگاه امیرکبیر سالاری
ردیف نام تیم دانشگاه/شرکت مسئول تیم کشور
۱ NanoText Malayer university
۲ ITRC Faculty Member
۳ NERizers AUT
۴ FarsiYar Iranian Research Institute for Information Science and Technology(IranDOC)
۵ DeepLab MUT Saeedeh Sadat Sadidpour

نتایج

…: پس از پایان مسابقات :…

اعضای کمیته فنی و اجرایی‎

دکتر محمد مهدی همایون پور

دکتر محمد مهدی همایون پور

عضو کمیته علمی و فنی
عضو هیئت علمی دانشگاه صنعتی امیرکبیر
دکتر سعیده ممتازی

دکتر سعیده ممتازی

عضو کمیته فنی و مسئول لیگ‎
عضو هیئت علمی دانشگاه صنعتی امیرکبیر