کد خبر: 38827
ف
۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد
سازمان فناوری اطلاعات ایران از نهایی شدن ۳۰ هزار جمله پیکره گفتمان در فضای مجازی با همکاری مرکز علوم و تحقیقات کامپیوتری علوم اسلامی خبر داد.
به گزارش ثریا به نقل از سازمان فناوری اطلاعات ایران، مرکز علوم و تحقیقات کامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیکره گفتمان PENN (Pensilvania)، به تهیه پیکره‌های زبانی پرداخته و به عنوان خروجی نهایی طرح، ۳۰ هزار جمله پیکره گفتمان که علاوه بر برچسب‌های گفتمانی شامل برچسب‌های اجزای کلام، نحوی و معنایی نیز است را ارائه داد.
 
داده‌های بزرگ به فناوری‌های فوق‌العاده‌ای برای پردازش داده‌های عظیم در مجموعه‌های بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش داده‌ها باشد.
 
این داده‌ها نحوه کار سازمان‌ها و افراد را تحت تأثیر قرار می‌دهد. پردازش زبان‌های طبیعی یکی از زیرشاخه‌های با اهمیت در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبان‌شناسی محاسباتی است که به تعامل بین کامپیوتر و زبان‌های طبیعی می‌پردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبان‌های طبیعی به شمار می‌رود.
 
مدل‌سازی توانایی زبانی انسان در مقاصد بسیاری از جمله موارد زیر کاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان‌های زبانی بزرگ یا در اینترنت برای یافتن پاسخ‌های لازم به پرسش‌های متفاوت، پردازش متن و گفتار، دریافت فرمان‌های صوتی توسط ماشین و اجرای دقیق آن‌ها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصه‌سازی متون، تهیه بانک‌های اطلاعاتی، تهیه بانک‌های اصطلاحات علمی و...
 
درک چگونگی عملکرد زبان و مدل‌سازی آن برای رایانه از موارد مهم و حیاتی است. رایانه می‌تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده‌های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند.
 
به عبارتی می‌توان برای بخش‌های مختلف زبان که ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیکره‌ای تعریف کرد که در فضای مجازی و برای اهداف مختلف قابل استفاده باشد. به طور مثال برای نرم‌افزار STT یا «تبدیل گفتار به متن» ابتدا باید یک پیکره آوایی و واجی از آن زبان و بر اساس مدل‌هایی که رایانه قادر به درک آن باشد تهیه کرد.
 
تصور کنید در یک جلسه تخصصی حقوقی برای اینکه گفتار افراد حاضر در جلسه توسط نرم‌افزار STT به متن تبدیل شود، باید داده‌ها یا پیکره‌های آوایی و واژگانی تخصصی رشته حقوق موجود باشد. برای تبدیل متن به گفتار یا TTS نیز نیاز به پیکره‌های متنی آن موضوع است.
 
بنابراین برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به داده‌ها یا پیکره‌های موردنیاز آن زبان است. این پیکره‌ها داده‌های پایه‌ای تحلیل ماشینی خواهند بود. که در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر از جمله گفتمان، قابل تقسیم‌بندی هستند.
 
به طور مثال در مباحث مربوط به ترجمه‌های ماشینی پیکره‌های متنی و معنایی در سطح کلمه و جمله خواهیم داشت. در تحلیل‌هایی که نیاز به پردازش سطحی بالاتر از جمله باشد، با گفتمان و برچسب‌های گفتمانی که برای رایانه قابل فهم باشد، سر و کار خواهیم داشت.
 
تصور کنید شما تمایل داشته باشد تا ابزار الکترونیکی شما (مثلاً رایانه) بدون حضور شما به پست‌های الکترونیکی شما پاسخ بدهد. در این صورت ماشین نیاز دارد تا به درک جملات و پاراگراف‌ها بپردازد. به عبارتی نیاز به داده‌های برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الکترونیکی شما و در نتیجه تهیه پاسخ برای آن (با توجه به اطلاعاتی که از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی که به شما ای میل زده است و بسیاری موارد دیگر…) بپردازد.
 
در همین راستا در بررسی‌ها و داده‌کاوی‌های مربوط به زبان فارسی در هر حوزه مثلاً کسب و کار نیز می‌توانیم از پیکره‌های مربوط به آن استفاده کرد.
 
مزیت داشتن پیکره‌ها در یک زبان علاوه بر موارد ذکر شده این است که با وجود پیکره‌ها پردازش و تحلیل آسان‌تر شده و سرعت آن افزایش می‌یابد.

مرتبط ها
ارسال نظر
حداکثر تعداد کاراکتر نظر 200 ميياشد .
نظراتی که حاوی توهین یا افترا به اشخاص ،قومیت ها ،عقاید دیگران باشد و یا با قوانین کشور وآموزه های دینی مغایرت داشته باشد منتشر نخواهد شد - لطفاً نظرات خود را با حروف فارسی تایپ کنید.

مشوق‌هایی برای اضافه تدریس معلمان در نظر گرفته‌ایم/تعیین تکلیف داوطلبان آموزگاری تا تیر

آغاز آزمون استخدامی دبیری و هنر آموزی از فردا

معرفی نامزدهای جایزه شعر بهاران

کتاب تازه امین فقیری در نمایشگاه کتاب

اختتامیه رویداد ستفاتک در جهاددانشگاهی اصفهان

روایت کتاب‌ها از موسیقی؛ لطف مفخّم تا مضراب

اتمام سنجش‌سلامت نوآموزان تاپایان اردیبهشت/هنوز۳۰ درصد نوآموزان‌ برای سنجش مراجعه نکرده‌اند

جزییات برگزاری امتحانات پایان نیم سال دوم پیام نور اعلام شد

آزمون صلاحیت بالینی پزشکی در دانشگاه های علوم پزشکی برگزار شد

ضوابط جدید ارزشیابی مدارک مقاطع داروسازی خارج از کشور اعلام شد

قیمت غذای دانشجویی تا مهرماه افزایشی ندارد

قبل از بحرانی شدن اعتراضات دانشجویی اطلاع رسانی کنید

ایجاد و بازسازی ۱۰۰۰ هنرستان تا پایان برنامه هفتم توسعه

توصیه‌هایی به دانش‌آموزان برای حضور در آزمون‌های نهایی؛ از موارد ممنوعه تا نحوه درج پاسخ‌ها

۲۰ درصد سوالات امتحانی «دشوار» است/ اخذ آزمون مجدد از افراد مشکوک

دانشگاه‌ها برای افزایش بهره‌وری به میدان بیایند

جزییات ثبت نام پذیرفته شدگان بدون آزمون رشته‌های ارشد اعلام شد

فهرست ۶۷۳ دانشگاه‌ برتر جوان در رتبه‌بندی تایمز منتشر شد

زمان اعلام نتایج اولیه آزمون کارشناسی‌ارشد دانشگاه معارف اسلامی

قدیمی ترین عینک فروشی تهران

جزئیات پوشش بیمه ای در عینک سازی ها

پاسخ وکیل به آیا قانون تجارت تغییر می‌کند؟

قنات در سرزمین قنوت و قناعت - استان یزد

تحقق اقتصاد مقاومتی دانش بنیان و مردم پایه توسط اساتید بسیجی

پرداخت حقوق معلمان خرید خدمات و حق‌التدریس به روز شد

رونمایی ۱۵ کتاب با موضوع اهل‌بیت به زبان‌های اروپایی و آفریقایی در نمایشگاه کتاب

نسل جوان آمریکایی به حاکمیت معترض است/اعتراضات دانشجویی ادامه خواهد داشت

دانشگاه تهران میزبان اجلاس رؤسای دانشگاه‌ها شد

بدهی آموزش و پرورش به فرهنگیان بابت پاداش پایان خدمت ۱۴۰۲/ معوقاتی که تا اسفند پارسال تسویه شد

مسئولان از پیشرفت‌های علمی پشتیبانی کنند

استفاده ۱۳۹هزار دانشجو از بن اعتباری خرید کتاب از نمایشگاه

۴۶ دانشگاه ایران در میان برترین دانشگاه های جوان

پشت‌پرده برگزاری آزمون‌های کشوری ششمی‌ها و نهمی‌ها/ برگزاری آزمون شفاهیفارسی در مقطع ابتدایی‌

خبر خوش برای متقاضیان رشته پزشکی/ گام بلند دانشگاه‌های ایران در ارتقای جایگاه جهانی

تشکیل دبیرخانه دائمی صنایع و خانه صنعت در معاونت پژوهش و فن‌آوری دانشگاه تهران

سامانه him نمونه بهره‌وری درون دانشگاهی علوم پزشکی شهید بهشتی است

کاهش نگران کننده دانشجویان دانشگاه‌های غیردولتی

نخستین بیانیه مد موقر شیراز منتشر شد

مسؤولیت امتحانات نهایی از سال آینده با سازمان ملی سنجش خواهد بود

غیرانتفاعی‌ها بیشترین حذف کد رشته را در آمایش آموزش عالی داشتند

مشارکت ۳۰هزار استاد و کارمند دانشگاه در ارزیابی موسسات غیرانتفاعی

استخدام یک روزه اساتید در دانشگاه‌های غیرانتفاعی

نوجوانان با «هفت‌خوان» به استقبال بزرگداشت فردوسی می‌روند

تأکید وزیر علوم بر رعایت اخلاق دیپلماسی علمی در پذیرش دانشجویان بین‌الملل

ساخت و تحویل ۷۰۰۰ مدرسه در دولت سیزدهم

آیین بزرگداشت ۱۷۵۷ سال سنت آموزش عالی در ایران ۸ خرداد برگزار می‌شود

۱۰ خرداد؛ برگزاری سومین کنگره شهدای دانشگاه آزاد

اعطای مالکیت ۱۴۰۰ واحد مسکونی به اعضای هیات علمی و کارکنان دانشگاه علامه

کارت آزمون استخدامی رشته شغل دبیری و هنرآموز منتشر شد

المپیاد علمی دانشجویان فرصتی برای اصلاح نگاه و تفکر علمی است

کارت شرکت در آزمون انتخاب سردفتر اسناد رسمی سال ۱۴۰۳ منتشر شد

وزیر سابق علوم: شهریه‌های دانشگاه‌های غیرانتفاعی کفاف هزینه‌های دانشگاه را نمی‌دهد

لزوم مدیریت رشته‌های یک بار پذیرش در دانشگاه‌های غیردولتی و غیرانتفاعی همانند دانشگاه آزاد

ایجاد دو آزمایشگاه تخصصی برای توسعه میادین نفتی در دانشگاه صنعتی امیرکبیر

شناسایی ۸۷۴ هزار بازمانده از تحصیل با کد ملی/ بازگشت این افراد به تحصیل امکانپذیر است

نظارت وزارت کشور بر تامین «امنیت» حوزه‌های آزمون‌های نهایی/ همکاری فراجا و آتش‌نشانی

نماد سنت آموزش عالی در ایران در دانشگاه تهران رونمایی شد

ارائه مهلت جدید ثبت نام آزمون دکتری تخصصی داروسازی

نتایج پذیرش بدون کنکور دانشگاه تهران اعلام شد

دانشجویان یونانی شب گذشته در حمایت از فلسطین تظاهرات برپا کردند

تحصیل ۸ درصد دانشجویان کل کشور در دانشگاه‌های غیردولتی/صدور مجوز دانشگاه‌ علوم پزشکی غیرانتفاعی

ترجمه ماجرای زندگی و آثار الیور استون منتشر شد

حضور نمایندگان دانشگاه سن پترزبورگ روسیه در دانشگاه صنعتی شریف

حافظ» جلوتر از همه شاعران و نویسندگان ایرانی!

مناظره با گزاره «مداخله دولت در حوزه نشر از هر جهت زیان‌بار است» با حضور دو گروه از دانشگاه‌های الزهرا و تهران، در سی‌وپنجمین نمایشگاه بین‌المللی کتاب تهران برگزار شد.

دستگاه‌ها برای کمک به آموزش و پرورش فراتر از سخن گام بردارند

امروز؛ آخرین مهلت ثبت‌نام دانشجویان در المپیاد ورزش‌های فناورانه

دانشکده رسانه فارس دانشجو می‌پذیرد

آغاز توزیع کارت آزمون استخدامی آموزش و پرورش از امروز

۱۰۷۳ مدرسه کانکسی بالای ۱۰ دانش‌‌آموز تا مهر امسال ساماندهی می‌شوند

نحوه انتخاب موضوعات پایان نامه برای پذیرش دانشجوی استاد محور

پرونده چهارمین مسابقه خودنویس در نمایشگاه کتاب تهران بسته می‌شود

بزرگداشت فردوسی در تماشاخانه مهر حوزه هنری برگزار می‌شود

نیاز سالانه سازمان نوسازی مدارس به ۱۶۸ هزار میلیاردتومان اعتبار/ساخت ۲۰۰ مدرسه بزرگ در سال جاری

تقدیر وزیر علوم از شیمیدان‌ها / درخواست کمک برای دانشجویان علوم پایه/ تحقیر کمدین یهودی

اساسنامه سازمان ملی سنجش و ارزشیابی نظام آموزش کشور ابلاغ شد

مصدومیت جزیی ۱۰ دانشجوی دانشگاه رازی در پی ریزش بخشی از سقف کاذب

‌دنبال تجمیع دانشگاه‌های آزاد نیستیم/ ایجاد سرای نوآوری

دستگیری چهار نفر در ارتباط با فروش سوالات آزمون وکالت

آزمون ارتقای دستیاران تخصصی دندانپزشکی چهارم مرداد برگزار می‌شود

چطور شد که شفق قطبی در ایران دیده شد؟ +عکس

کاسبی عجیب و پرسود چند ایرانی در آمازون+عکس

استور بازی موبایل ایکس باکس در تابستان از راه می‌رسد

اپل برای ساخت و پخش تبلیغات زشت‌اش عذرخواهی کرد

تصویر ناسا از شفق قطبی بر فراز لهستان پربازدید شد+عکس

به روزرسانی طوفانی واتساپ تغییرات اساسی در ظاهرش ایجاد کرد+عکس

ترفند مخفیانه و زشت اپل در فروش یکی از محصولاتش لو رفت+عکس

هوش مصنوعی قرار است انسان‌ها را نابود کند؟

زاکربرگ می‌خواهد این شبکه معروف خبری را بخرد

اشتباه بی‌سابقه گوگل سالمندان را سردرگم کرد

نحوه انتخاب موضوعات پایان نامه برای پذیرش دانشجوی استاد محور

تمام اقدامات برای دستیاران پزشکی/ از افزایش حقوق تا بورسیه تحصیلی

شفق قطبی برای اولین بار در ایران هم دیده شد+عکس

نحوه برگزاری امتحانات نهایی و تصحیح اوراق دانش‌آموزان اعلام شد

پذیرش ۲۶ هزار دانشجوی دکتری در دانشگاه‌ها/ نحوه محاسبه نمره دکتری

دو خبر خوش وزیر علوم برای جامعه دانشگاهی اعلام شد

تولیدات دانشگاه‌ها نظم دنیا را تغییر داده است

سوپرآلیاژ انقلابی ناسا شروع به کار کرد

حضور نمایندگان دانشگاه سن پترزبورگ روسیه در دانشگاه صنعتی شریف

دانشجویان یونانی شب گذشته در حمایت از فلسطین تظاهرات برپا کردند

دانشجویان در شش محور در کرسی‌های آزاد اندیشی با هم رقابت می‌کنند

آغاز توزیع کارت آزمون استخدامی آموزش و پرورش از امروز

راه‌اندازی ۱۰۰ واحد مسکونی متاهلی برای دانشجویان و کارکنان دانشگاه علوم پزشکی تهران

آیین بزرگداشت ۱۷۵۷ سال سنت آموزش عالی در ایران ۸ خرداد برگزار می‌شود

راهنمای عملی آزمون‌های نهایی دوره دوم متوسطه نظری منتشر شد

چرا هوش مصنوعی این‌قدر برای دیگران پرهزینه است؟

استادان نمونه دانشگاه علامه‌طباطبائی معرفی شدند

۲۵۰ واحد دانشگاهی پیام نور آماده واگذاری شد

اعلام زمان دریافت کارت آزمون استخدامی آموزش و پرورش ویژه دبیری و هنرآموز

اجرای منتورشیپ روانشناختی برای دستیاران ۲۷ گروه دانشگاه علوم پزشکی شهید بهشتی با حفظ محرمانگی