کد خبر: 38827
ف
۳۰ هزار جمله پیکره گفتمان در فضای مجازی نهایی شد
سازمان فناوری اطلاعات ایران از نهایی شدن ۳۰ هزار جمله پیکره گفتمان در فضای مجازی با همکاری مرکز علوم و تحقیقات کامپیوتری علوم اسلامی خبر داد.
به گزارش ثریا به نقل از سازمان فناوری اطلاعات ایران، مرکز علوم و تحقیقات کامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیکره گفتمان PENN (Pensilvania)، به تهیه پیکره‌های زبانی پرداخته و به عنوان خروجی نهایی طرح، ۳۰ هزار جمله پیکره گفتمان که علاوه بر برچسب‌های گفتمانی شامل برچسب‌های اجزای کلام، نحوی و معنایی نیز است را ارائه داد.
 
داده‌های بزرگ به فناوری‌های فوق‌العاده‌ای برای پردازش داده‌های عظیم در مجموعه‌های بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش داده‌ها باشد.
 
این داده‌ها نحوه کار سازمان‌ها و افراد را تحت تأثیر قرار می‌دهد. پردازش زبان‌های طبیعی یکی از زیرشاخه‌های با اهمیت در حوزه گسترده علوم رایانه، هوش مصنوعی و نیز دانش زبان‌شناسی محاسباتی است که به تعامل بین کامپیوتر و زبان‌های طبیعی می‌پردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبان‌های طبیعی به شمار می‌رود.
 
مدل‌سازی توانایی زبانی انسان در مقاصد بسیاری از جمله موارد زیر کاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان‌های زبانی بزرگ یا در اینترنت برای یافتن پاسخ‌های لازم به پرسش‌های متفاوت، پردازش متن و گفتار، دریافت فرمان‌های صوتی توسط ماشین و اجرای دقیق آن‌ها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصه‌سازی متون، تهیه بانک‌های اطلاعاتی، تهیه بانک‌های اصطلاحات علمی و...
 
درک چگونگی عملکرد زبان و مدل‌سازی آن برای رایانه از موارد مهم و حیاتی است. رایانه می‌تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده‌های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند.
 
به عبارتی می‌توان برای بخش‌های مختلف زبان که ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیکره‌ای تعریف کرد که در فضای مجازی و برای اهداف مختلف قابل استفاده باشد. به طور مثال برای نرم‌افزار STT یا «تبدیل گفتار به متن» ابتدا باید یک پیکره آوایی و واجی از آن زبان و بر اساس مدل‌هایی که رایانه قادر به درک آن باشد تهیه کرد.
 
تصور کنید در یک جلسه تخصصی حقوقی برای اینکه گفتار افراد حاضر در جلسه توسط نرم‌افزار STT به متن تبدیل شود، باید داده‌ها یا پیکره‌های آوایی و واژگانی تخصصی رشته حقوق موجود باشد. برای تبدیل متن به گفتار یا TTS نیز نیاز به پیکره‌های متنی آن موضوع است.
 
بنابراین برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به داده‌ها یا پیکره‌های موردنیاز آن زبان است. این پیکره‌ها داده‌های پایه‌ای تحلیل ماشینی خواهند بود. که در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر از جمله گفتمان، قابل تقسیم‌بندی هستند.
 
به طور مثال در مباحث مربوط به ترجمه‌های ماشینی پیکره‌های متنی و معنایی در سطح کلمه و جمله خواهیم داشت. در تحلیل‌هایی که نیاز به پردازش سطحی بالاتر از جمله باشد، با گفتمان و برچسب‌های گفتمانی که برای رایانه قابل فهم باشد، سر و کار خواهیم داشت.
 
تصور کنید شما تمایل داشته باشد تا ابزار الکترونیکی شما (مثلاً رایانه) بدون حضور شما به پست‌های الکترونیکی شما پاسخ بدهد. در این صورت ماشین نیاز دارد تا به درک جملات و پاراگراف‌ها بپردازد. به عبارتی نیاز به داده‌های برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الکترونیکی شما و در نتیجه تهیه پاسخ برای آن (با توجه به اطلاعاتی که از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی که به شما ای میل زده است و بسیاری موارد دیگر…) بپردازد.
 
در همین راستا در بررسی‌ها و داده‌کاوی‌های مربوط به زبان فارسی در هر حوزه مثلاً کسب و کار نیز می‌توانیم از پیکره‌های مربوط به آن استفاده کرد.
 
مزیت داشتن پیکره‌ها در یک زبان علاوه بر موارد ذکر شده این است که با وجود پیکره‌ها پردازش و تحلیل آسان‌تر شده و سرعت آن افزایش می‌یابد.

مرتبط ها
ارسال نظر
حداکثر تعداد کاراکتر نظر 200 ميياشد .
نظراتی که حاوی توهین یا افترا به اشخاص ،قومیت ها ،عقاید دیگران باشد و یا با قوانین کشور وآموزه های دینی مغایرت داشته باشد منتشر نخواهد شد - لطفاً نظرات خود را با حروف فارسی تایپ کنید.

رییس کمیسیون تخصصی مدیریت و اقتصاد شورای علوم تحقیقات منصوب شد

هم‌افزایی دانشگاه‌ها و صنعت برای رفع چالش‌های کشور

زیر خط جنگ با دیگری را چه کسی نوشته است؟

دانشگاه از امور روزمره به سمت کارآفرینی تغییر جهت دهند

۴ هدف از اجرای پرسش مهر

نمایشگاه لباس پاکستان برگزار می‌شود

کتاب جدید حمیدرضا شاه‌آبادی رونمایی می‌شود

کتاب عایده نقد و بررسی می‌شود

بدون همکاری‌های دانشگاهی، بهبود اقتصادی کشورهای بریکس ممکن نیست

دانشجویان دانشگاه علامه‌ برگزیده مسابقه جهانی جاده ابریشم شدند

نقاط ضعف سامانه تاد لو رفت+عکس

رقابت ۱۱ هزار نفر در آزمون دکتری تخصصی علوم پایه پزشکی برگزار شد

آخرین وضعیت بازنگری سهمیه‌های علوم پزشکی در کنکور از زبان وزیر بهداشت

مهلت ثبت نام آزمون المپیاد علمی کارکنان گمرک تمدید شد

آخرین وضعیت بازنگری در سهمیه های علوم پزشکی در کنکور سراسری

همکاری‌ علمی دانشگاه علوم پزشکی شهید بهشتی با مراکز علمی مجارستان

نقد و بررسی لایحه بودجه توسط حوزویان

تلاش دانشگاه الزهرا برای ورود نشریات علمی به پایگاههای معتبر

دانشجویان دانشگاه علامه‌ برگزیده مسابقه جهانی جاده ابریشم شدند

ایجاد دانشکده ویژه بانوان در دانشگاه جامع انقلاب اسلامی

سرپرست معاونت فناوری‌های دیجیتالی دانشگاه تهران منصوب شد

نخبگانی که در تنور عوام‌گرایی می‌سوزند

نشست هم اندیشی «سیزدهمین دوره مسابقات مناظرات دانشجویان» برگزار شد

المپیاد علمی طلاب حوزه‌های علمیه خواهران برگزار می‌شود

قصه خودت را بساز!

دانشجویان و استادان ما بیش از هر چیز به آرامش نیاز دارند

جزییات برگزاری آزمون اخذ پروانه کارشناسی رسمی دادگستری اعلام شد

کاهش خدمت سربازی برای دانشجویان ماهر

تغییر سازمان تعلیم و تربیت کودک در دستور کار آموزش و پرورش نیست

کاظمی: در بودجه ۱۴۰۴ موضوع توزیع شیر در مدارس دیده شده است

کاظمی: در بودجه ۱۴۰۴ موضوع توزیع شیر در مدارس دیده شده است

دانشکده روانشناسی و سلامت اجتماعی افتتاح شد

آزمون وکالت کانون‌های وکلای دادگستری ۱۷ آبان برگزار می شود

آزمون وکالت کانون‌های وکلای دادگستری ۱۷ آبان برگزار می شود

ثبت‌نام مسابقات قرآن و عترت حوزه علمیه اصفهان آغاز شد

اهمیت علوم انسانی و ضرورت تقویت آن برای مرجعیت علمی کشور

پیشرفت‌های صنعت و فناوری در دنیا حاصل توجه به علوم انسانی است

جایگاه ویژه دانشگاه‌ها در نظام حکمرانی کشور

فراخوان پیشگیری از آسیب‌های اجتماعی در محیط دانشگاه منتشر شد

آغاز مراسم رونمایی تقریظ رهبر انقلاب بر ایستگاه خیابان روزوِلت

مهلت ثبت نام غیرحضوری پذیرفته شدگان کارشناسی ۱۴۰۳ تمدید شد

برگزاری مسابقه کتابخوانی تب‌ ناتمام با شعار «مقاومت نماد عزت»

امشب آخرین مهلت ثبت‌نام در آزمون دکتری ۱۴۰۴/ فرصت تمدید نمی‌شود

امشب آخرین مهلت ثبت‌نام در آزمون دکتری ۱۴۰۴/ فرصت تمدید نمی‌شود

کسب مقام سوم مسابقات سدید توسط دانش‌آموخته دانشگاه امیرکبیر

اساس تشکیل حوزه‌های علمیه، هجرت، تفقه و انذار همگانی است

کنکور سال آینده با مصوبه کنونی برگزار می‌شود

۲۸۰۰ مدرسه شهر تهران با نرم افزار تخصصی HSE ارزیابی می‌شوند

عرضه اقتصاد خوردنی در کتابفروشی‌ها

تلاش وزارت علوم برای ارتقای جایگاه پژوهشی ایران در رتبه‌بندی جهانی

فراخوان حمایت از پایان نامه‌های دانشجویان خواجه نصیر اعلام شد

تمدید مهلت ثبت‌نام پذیرفته‌شدگان دوره‌های کاردانی و کارشناسی علمی کاربردی

زنان فارغ‌التحصیل دانشگاهی و راه‌های ورود به بازار کار

شرط معدل از وام‌های دانشجویی حذف شد

چرا کودکان باید دوره پیش‌دبستانی را طی کنند؟

اولین اجلاس روسای دانشگاه های علوم پزشکی برگزار شد

داوری مرحله نهایی جشنواره قلم ۷ دانشگاه آزاد اسلامی برگزار شد

جشنواره نشا آغاز مدرسه با شادی و سرور، راه‌اندازی شد

جشنواره نشا آغاز مدرسه با شادی و سرور، راه‌اندازی شد

بارزترین مصداق عدالت آموزشی خدمت به دانش آموز استثنایی است

مشق دف از دیدار تا شیدایی خواندنی شد

تاکید معاون وزیر علوم بر پیگیری مطالبات صنفی کارکنان دانشگاه‌ها

عرضه یازده روایت از زندگی آوارگان فلسطینی در لبنان

دومین رویداد رقابتی حک برگزار می‌شود

من شیرین ابوعاقله هستم به بازار نشر رسید

ایران ۱۰ و ۱۱ آبان‌ میزبان المپیاد بین‌المللی ترکیبیات/ حضور دانش‌آموزان ۶۵ کشور در این المپیاد

مدارس کانکسی بالای ۱۰ نفر جمع می‌شود

چمران: ساخت و ساز در دانشگاه تهران تعطیل شد

تحصیل بیش از ۱۲ هزار دانشجو در دانشگاه تهران

افتتاح اولین زورخانه دانشگاهی کشور در دانشگاه فرهنگیان اصفهان

ثبت نام آزمون EPT آبان ماه دانشگاه آزاد اسلامی آغاز شد

نشست هم‌اندیشی در حوزه تحول پژوهشی در علوم انسانی برگزار شد

دستاوردهای پژوهشی حوزه علمیه خراسان به نمایش گذاشته می‌شود

اعتبارسنجی مدرک ۲۱ هزار دانش‌آموخته جامعه‌الزهرا(س)

آمار ثبت‌نام در آزمون دکتری سال ۱۴۰۴ از ۱۰۰ هزار نفر گذشت

رشد ۵۰ برابری انعقاد قراردادهای تحقیقاتی و آموزشی

واکنش دانشگاه تهران به انتقاد شورای شهر درباره ساخت برج‌های ۳ قلو

کارنامه سلامت روان دانشجویان بازنگری شد

تاریخ شفاهی خلبان محمود اسکندری به چاپ سوم رسید

ناهماهنگی مسؤولان و بازی با روان داوطلبان کارشناسی ارشد

نقاط ضعف سامانه تاد لو رفت+عکس

نظام رتبه‌بندی موضوعی دانشگاه‌های عضو بریکس راه‌اندازی می‌شود

اعمال دو نوع سهمیه در آزمون دکتری نیمه‌متمرکز سال ۱۴۰۴

خاطرات پشت وانت با عکسی از یک گوسفند!

دانشجویان مستعد تا ۱۰ میلیون تومان حمایت می‌شوند

کاهش سهم ۳.۳ درصدی بودجه آموزش و پرورش از بودجه عمومی دولت

شرط موفقیت مسئولین نهاد نمایندگی مقام معظم رهبری در دانشگاه‌ها

عضویت رایگان در مراکز کانون پرورش فکری کودکان و نوجوانان

امروز، آخرین مهلت نام نویسی متقاضیان دکتری

سرپرستان ۳ واحد دانشگاه آزاد اسلامی منصوب شدند

حضور رئیس دانشگاه شهیدبهشتی در اجلاس روسای دانشگاه‌های عضو بریکس

حکمرانی فضای مجازی به هم‌گرایی تصمیم‌گیران و قانونگذاران نیازمند است

فرصت‌های جدید همکاری‌ علمی ایران با کشورهای عضو بریکس

‌دسترسی دانش‌آموزان ایرانی خارج از کشور به شاد در آینده نزدیک

کسب رتبه ۲۴ دانشجوی دانشگاه امیرکبیر در ۱۰ رشته المپیاد دانشجویی

حضور ۱۰۵۶ پژوهشگر ایرانی در بین پژوهشگران پراستناد یک درصد برتر جهان

حیات دوباره رباعی به چاپ ششم رسید

اعطای بورس تحصیلی به دانشجویان دختر لبنانی و فلسطینی

تاکید معاون وزیر علوم بر پیگیری مطالبات صنفی کارکنان دانشگاه‌ها

ترجمه خلاف زمان منتشر شد

معرفی نامزدهای بخش نقالی جشنواره مجازی فردوسی

وزیر آموزش و پرورش: کلاس خالی از معلم نداریم

از شریف تا لس‌آنجلس منتخب پنجمین دوره مسابقات مجازی هشت‌بهشت

ثبت نام وام شهریه دانشجویی دانشگاه جامع علمی کاربردی به زودی

ضرورت تغییر الگوهای خدمت‌رسانی به دانش‌آموزان استثنایی؛ برنامه‌‌ جامع چهارساله تدوین شود‌

تشریح جزئیات اعلام فراخوان اعضای هیأت علمی

۲۵ درصد امکانات رفاهی دانشگاه‌ها صرف دانشجویان سنواتی می‌شود

فهرست جدید دانشگاه‌های خارجی مورد تأیید وزارت علوم اعلام شد

۸ عضو هیئت علمی دانشگاه آزاد اسلامی به مرتبه استادی ارتقا یافتند

فردا، آخرین مهلت ثبت نام آزمون دکتری