Comparative Quality Evaluation of the Output of Free Online Translation Machines between Arabic and Persian Based on the DQF-MQM Model

Niazi, Shahryar; Bijankhan, Mahmood; Pashaei, Mazyar

doi:10.22054/rctall.2024.78817.1724

Comparative Quality Evaluation of the Output of Free Online Translation Machines between Arabic and Persian Based on the DQF-MQM Model

Document Type : Research Paper

Authors

¹ Associate Professor, Department of Arabic Language and Literature, University of Tehran, Tehran, Iran

² Professor, Department of Linguistics, University of Tehran, Tehran, Iran

³ PhD Student in Arabic Translation Studies, University of Tehran, Tehran, Iran

10.22054/rctall.2024.78817.1724

Abstract

Abstract
Man's need to translate with more efficiency has made him endeavor to achieve advanced translation technologies. Most of the efforts in this field have been devoted to achieving machine (automatic) translation (without human intervention), which, although it does not have the quality of human translation, has other advantages such as speed and high availability and low cost. The peak of these benefits can be seen in free online translation machines. Some of these machines (i.e. Google, Bing, Yandex, Reverso, ModernMT, and NiuTrans) support Arabic to Persian translation and vice versa. The purpose of this research is to compare the quality of Arabic<>Persian translations provided by these machines with each other. In order to achieve this goal, first, two small Arabic and Persian corpuses, each containing 60 sentences with random types and topics, were selected from the sentences in the two Arabic and Persian frequency dictionaries published by Routledge, then these sentences were entered one by one into the aforementioned translation machines. and the received output was scrutinized by human evaluation method based on the DQF-MQM error classification and analysis model. The translation machines in order from highest to lowest output quality are: Google, Bing, Yandex, ModernMT, Reverso, and NiuTrans. This is not an absolute and constant result, but a statistical and probabilistic one; lower-ranked machines translate some sentences better than the higher-ranked machines.
Keywords: Translation Studies, Translation Technology, Machine Translation Evaluation, Google Translate, Bing Translator, Yandex Translate, Reverso, ModernMT, NiuTrans
Introduction
Translation technology has been an important branch of translation studies. In 1972, at the third conference of applied linguistics, James Holmes introduced the field of translation technology as a sub-branch of the "applied" branch of the emerging interdisciplinary science of "translation studies". He divided this field into three categories: theories of translation by humans, by machines, and by both (Machine-Aided Human Translation or Human-Aided Machine Translation).
Most of the efforts in the field of translation technology have been focused on making the machine able to translate without human intervention. This type of translation is called “machine translation”. Machine translation will not be able to beat professional human translation in the field of quality, but it has other advantages such as high speed, low cost and easy access.
The pinnacle of convenient access and low cost for translation services can be seen in free online translation machines. They can be accessed and used for free through any system with a browser and connection to the Internet; Some also have a specific smartphone application that provides additional features such as offline translation.
The evaluation of the phenomenon of machine translation generally includes many topics; Different aspects of it can be examined in different ways in response to the different needs of the people involved (including: end user, developer, and investor). Our focus in this article is on evaluating the quality of the output or product of the translation machines. The questions of the research are:
1- Which free online translation machine do produce Arabic to Persian translation with better quality?
2- Which free online translation machine do produce Persian to Arabic translation with better quality?
A brief and widely used definition of “translated text quality” is as follows: “A quality translation demonstrates accuracy and fluency required for the audience and purpose and complies with all other specifications negotiated between the requester and provider, taking into account end-user needs”
Literature Review
Several scientific studies have dealt with the subject of comparative evaluation of machine translation for Arabic-English or Persian-English language pairs, but no research in this field has been published for Arabic-Persian language pairs. These researches have generally selected a test suite first, then translated it by several translation machines and studied the output using one or more special methods of machine translation evaluation. Here we present the summary of most recent researches. Ben Milad (2022), Almahasees (2020) and Al-Shalabi (2017) tested several machine translations between Arabic and English with different methods and all concluded that Google Translate produces better quality translations, just Abu-Ayyash (2017) concluded that Google Translate and Bing Translator produce similar quality outputs.
Research Methodology
There are various methods to evaluate machine translation quality. They are divided into two main subcategories of human and automatic evaluation. In this research we use a standard and up to date human evaluation model called DQF-MQM, and especially a subset of it that is appropriate for machine translation quality evaluation and is as follows: Four high-level error types of Accuracy, Fluency, Locale Convention, and Terminology. Accuracy type is further subdivided into four granular error types of Addition, Omission, Mistranslation, and Untranslated. Fluency type is further subdivided into three granular types of: Grammatical, Grammatical Register and Spelling.
We used the excel template on the formal website of DQF-MQM to evaluate 60 Arabic-Persian and 60 Persian-Arabic translated sentences done by 6 online free translation machines that support Arabic<>Persian translation. The sentences were selected from two Arabic and Persian Frequency dictionaries and had random modes, genres and subjects.
Conclusion

Keywords

Main Subjects

Translation in Arabic language and literature

Full Text

. مقدمه

فناوری ترجمه شاخه‌ای مهم از حوزۀ مطالعات ترجمه بوده است. جیمز هلمز[1] در سال 1972 در سومین کنفرانس زبان‌شناسی کاربردی، حوزۀ فناوری ترجمه را به عنوان زیرشاخه‌ای از شاخۀ «کاربردی» از علم میان‌رشته‌ای نوظهور «مطالعات ترجمه» معرفی کرد (Malmkjær, 2013: 32- 31). وی نظریه‌های ترجمه را با توجه به فاعل آن به سه گروه تقسیم می‌کند: نظریه‌های ترجمه توسط انسان، توسط ماشین و توسط هر دو (ترجمۀ انسان به کمک ماشین یا ترجمۀ ماشین به کمک انسان) (Holmes, 1988: 74).

با گذشت زمان و پیشرفت فناوری جایگاه فناوری ترجمه در مطالعات ترجمه اهمیت بیشتری یافت. ماری اسنل- هورنبی[2] فرآیند جهانی‌سازی و پیشرفت چشمگیر فناوری اطلاعات و ارتباطات را عواملی خارجی می‌داند که صنعت‌های زبانی [مانند صنعت ترجمه] را همچون سایر جوانب زندگی مدرن دچار تحولات عمیقی کرد. این دگرگونی که در دهۀ 1990 در حوزۀ مطالعات ترجمه رخ داد «چرخش جهانی‌سازی»[3] خوانده شده است و می‌تواند به اهمیت چرخش قبلی مطالعات ترجمه که در دهۀ 1980 رخ داد؛ یعنی «چرخش فرهنگی»[4]، باشد (Snell-Hornby, 2010: 367- 368).

بخش عظیمی از تلاش‌ها در حوزۀ فناوری ترجمه بر این متمرکز بوده است که ماشین بتواند بدون دخالت انسان عمل ترجمه را انجام دهد. این نوع از ترجمه، ترجمۀ ماشینی نام گرفته است. ترجمۀ ماشینی نخواهد توانست ترجمۀ انسانی حرفه‌ای را در میدان کیفیت شکست دهد، اما از مزیت‌هایی دیگر مانند سرعت بالا، هزینه پایین و دسترسی راحت برخوردار است. متقاضیان همیشه به ترجمه با کیفیت بالای مناسب برای انتشار نیاز ندارند، بلکه گاهی نیاز دارند به درکی کلی از یک متن با زبان بیگانه برسند و ترجیح می‌دهند این کار با سرعت زیاد و هزینۀ کم انجام شود؛ هر چند کیفیت آن پایین باشد. همچنین گاهی نیاز است که متون با زبان بیگانه که به سرعت و با حجم بالا در فضای مجازی در حال تولید شدن هستند، ترجمه شوند. این نوع از تقاضا در بازار ترجمه نیز تنها با مزیت عرضه شده توسط ماشین قابل پاسخگویی است. حتی در صورتی که نیاز به متن ترجمه شده با کیفیت بالا داشته باشیم، باز هم ماشین بلااستفاده نیست و می‌توان از آن برای تهیه سریع و راحت نسخۀ اولیه ترجمه استفاده کرد و آن را برای ویرایش به مترجمین حرفه‌ای سپرد تا آن را به نسخۀ ترجمه با کیفیت مبدل کنند. بنابراین در شرایط ویژۀ عصر اطلاعات، ترجمۀ ماشینی در کنار ترجمۀ انسانی نقشی مهم و حیاتی ایفا می‌کند (Hutchins, 2003: 5- 7 & 22- 24).

اوج دسترسی راحت و هزینه پایین برای خدمت ترجمه را می‌توان در ماشین‌های ترجمه برخط رایگان دید. آن‌ها از طریق هر سامانۀ دارای مرورگر و متصل به اینترنت به صورت رایگان قابل دسترسی و استفاده هستند؛ برخی نیز دارای برنامۀ کاربردی خاص تلفن هوشمند هستند که قابلیت‌های اضافه همچون ترجمۀ سیار برون‌خط (بدون اتصال به اینترنت) را فراهم می‌کنند. بعضی از این سامانه‌ها دارای امکانات مهم دیگری نیز هستند، از جمله: ترجمۀ صوت، تصویر و دستخط، و پخش صوتی متن مبدأ و مقصد ترجمه. بعضی از سامانه‌های ترجمۀ ماشینی برخط رایگان از زبان‌های عربی و فارسی پشتیبانی می‌کنند و می‌توانند متون را از عربی به فارسی و برعکس ترجمه کنند (رجوع شود به جدول (1)).

ارزیابی پدیدۀ ترجمۀ ماشینی به طور عام شامل مباحث بسیاری می‌شود؛ می‌توان با روش‌های مختلفی جنبه‌های مختلفی از آن را در پاسخ به نیازهای مختلف افراد دخیل (از جمله: کاربر نهایی، توسعه‌دهنده و سرمایه‌گذار) مورد بررسی قرار داد (White, 2003: 222).

تمرکز ما در این مقاله بر ارزیابی خروجی یا محصول ترجمۀ ماشینی خواهد بود. از آنجا که هدف از ماشین ترجمه، تولید همین محصول است، ارزیابی آن مورد توجه خاص تمامی افراد دخیل است و به عنوان یک معیار اصلی ارزیابی ترجمۀ ماشینی به طور عام شناخته می‌شود (Kit & Wong, 2023: 225).

این پژوهش قصد دارد کیفیت محصول ترجمۀ سامانه‌های ترجمۀ ماشینی برخط رایگان از عربی به فارسی و برعکس را مورد ارزیابی تطبیقی قرار دهد. سؤالات اصلی پژوهش عبارتند از:

- محصول ترجمۀ عربی به فارسی کدام ماشین ترجمه برخط رایگان کیفیت بهتری دارد؟

- محصول ترجمۀ فارسی به عربی کدام ماشین ترجمه برخط رایگان کیفیت بهتری دارد؟

مبانی نظری

1-2. تعریف کیفیت محصول ترجمۀ ماشینی

یک تعریف موجز کیفیت متن ترجمه که جامع نظریات ترجمه از جمله اسکوپوس است و به طور گسترده در زمینۀ ترجمۀ ماشینی نیز استفاده می‌شود از این قرار است: «صحت^[5] و سلاست[6] به مقتضای مخاطب و هدف و مطابقت با سایر مشخصات توافق شده بین درخواست‌کننده و ارائه‌دهندۀ خدمت ترجمه با در نظر گرفتن نیازهای کاربر نهایی». بنابراین کیفیت ترجمه سه معیار اصلی دارد: 1- سلاست، فهم‌پذیری[7] یا پذیرفتگی^[8] متن به زبان مقصد، 2- صحت، بسندگی^[9] یا وفاداری^[10] به معنای تعادل معناشناسی و کاربردشناسی میان متن مبدأ و مقصد و 3- مطابقت با مشخصات خاص درخواست‌دهنده؛ در صورت وجود (Chatzikoumi, 2020: 2).

2-2. روش‌های ارزیابی کیفیت ترجمۀ ماشینی

ارزیابی کیفیت ترجمۀ ماشینی معمولاً طی دو مرحلۀ اساسی انجام می‌شود؛ ابتدا واحدهایی زبانی از زبان مبدأ انتخاب شده (مجموعۀ آزمایش[11]) و وارد ترجمۀ ماشینی می‎شوند، سپس خروجی سامانه به زبان مقصد دریافت شده و مورد بررسی و قضاوت قرار می‌گیرد. ۀدوم از این فرآیند می‌تواند به صورت دستی و مستقیماً توسط انسان انجام شود، یا به صورت اتوماتیک توسط ماشین انجام شود. بر این اساس ارزیابی ترجمه به دو نوع انسانی و خودکار (یا ماشینی) تقسیم می‌شود (Chatzikoumi, 2020: 3 and Kit & Wong, 2023: 227).

ارزیابی‌های خودکار و انسانی خود به انواع روش‌های دیگری تقسیم می‌شوند. ارزیابی ماشینی معمولاً به سه نوع تقسیم می‌شود:

1- مبتنی بر ترجمه مرجع[12]: در این روش، میزان شباهت یا نزدیکی متون ترجمه شده توسط ماشین با ترجمه‌هایی انجام شده توسط مترجم‎های انسانی حرفه‌ای که ترجمۀ مرجع خوانده می‌شوند، سنجیده می‌شود.

2- تخمین کیفیت[13]

3- ارزیابی تشخیصی مبتنی بر نقاط بازرسی[14]

ارزیابی انسانی نیز معمولاً به شش نوع تقسیم می‌شود:

1- برآورد کیفیت[15]: در این روش انسان به صورت فی‌البداهه نظر خود را دربارۀ یک ترجمه بیان می‌کند؛ با تعیین سطح (برای مثال خوب، بد یا متوسط) یا نمره‌دهی (برای مثال از 0 تا 100).

2- رتبه‌بندی: چینش چندین ترجمه به ترتیب کیفیت از بهترین تا بدترین

3- تحلیل و طبقه‌بندی خطا[16]: بر خلاف دو روش قبل که بر قضاوت مستقیم ارزیاب متکی هستند و ممکن است تنها منعکس‌کننده نظرهایی شخصی باشند در این روش ارزیاب سعی می‌کند متن را تحلیل کند و انواع خطای رخ داده در ترجمه را شناسایی و سطح‌بندی کند. سپس نمرۀ منفی تعلق گرفته بر این اساس محاسبه می‌شود؛ بنابراین، قابل اعتمادتر از سطح/ نمره تعلق گرفته در روش‌های قبل است.

4- استخراج اطلاعات[17]

5- آزمون درک مطلب[18]

6- پس‌ویرایش[19] (Chatzikoumi, 2020: 4- 9 and Kit & Wong, 2023: 227- 237).

یک عامل بسیار مهم در فرآیند ارزیابی انسانی، قضاوت‌کنندگان^[20] هستند که به آن‌ها نشان‌گذار[21] نیز گفته می‌شود که باید دارای ویژگی‌های خاصی باشند تا قضاوتشان قابل اعتماد باشد. بسته به نوع ارزیابی، قضاوت‌کنندگان می‌توانند تک زبانه یا دوزبانه باشند؛ یعنی افراد بومی یا شبه بومی زبان مقصد یا هر دو زبان مبدأ و مقصد. آموزش فرآیند به قضاوت‌کنندگان، دستورالعمل ارزشیابی به همراه مثال و همچنین آشنایی قضاوت‌کننده با حوزۀ موضوع متن از پیش‌نیازهای پروژه ارزیابی است. توصیه می‌شود که زبان مقصد زبان مادری قضاوت‌کننده باشد (Chatzikoumi, 2020: 10).

2-3. مدل DQF-MQM برای ارزیابی ترجمۀ ماشینی

در اینجا یکی از مدل‌های ارزیابی انسانی مبتنی بر تحلیل و طبقه‌بندی خطا به نام DQF-MQM که در این پژوهش از آن استفاده خواهد شد، توضیح داده می‌شود. این طبقه‌بندی تلفیقی است از دو مدل MQM [22] و DQF^[23] که توسط دو گروه اروپایی متخصص بر اساس تلاش‌های گذشته در حوزۀ مطالعات و صنعت ترجمه طراحی شده‌اند. این مدل در سال 2014 پیشنهاد شد و در حال تبدیل شدن به یک استاندارد جهانی برای ارزیابی کیفیت ترجمه است (Lommel, 2018: 109- 110).

طبقه‌بندی DQF-MQM دارای هفت نوع خطای سطح بالا^[24] است و برای هر کدام از این نوع خطاها انواعی از خطاهای ریزدانه‌ای^[25] تعریف می‌کند. ذکر تمامی این موارد از حوصله این پژوهش خارج است و در اینجا تنها به بیان مواردی که برای طبقه‌بندی خطای ترجمۀ ماشینی مناسب هستند، اکتفا می‌شود (لومل و دیگران[26]، 2015: 6؛ تاوس[27]، بی‌تا). این موارد از این قرار هستند:

2-3-1. خطای صحت

* اضافه[28]: متن مقصد شامل متنی است که در متن مبدأ موجود نیست.

* حذف[29]: محتوایی در متن مقصد از قلم افتاده است که در متن مبدأ وجود دارد.

* سوءترجمه[30]: محتوای متن مقصد محتوای متن مبدأ را به درستی بازتاب نمی‌دهد.

* بلاترجمه[31]: محتوایی که باید ترجم[32]ه می‌شد بدون ترجمه شدن و به زبان مبدأ به متن مقصد منتقل شده است.

2-3-2. خطای سلاست

اگر متن کاملاً غیر قابل فهم باشد، ما آن را به عنوان خطایی سطح بالا در سلاست در نظر می‌گیریم و اگر تا حدی قابل فهم باشد، اما دارای خطاهایی جزئی باشد یکی از انواع خطای ریزدانه ذیل را برای آن در نظر می‌گیریم:

* دستور زبان[33]: خطاهای مربوط به دستور زبان یا نحو.

* سیاق دستوری[34]: متن مقصد از سیاق دستوری اشتباه استفاده می‌کند؛ وقتی انتظار می‌رود از حالت‌های غیررسمی فعل یا ضمیر استفاده شود از حالت‌های رسمی استفاده شود؛ برای مثال انتظار رود از ضمیر محاوره‌ای «اونا» استفاده شود، اما از حالت رسمی آن؛ یعنی «ایشان» استفاده شود.

* املاء[35]: مسائل مربوط به غلط‌های املایی یا تایپی در کلمات.

2-3-3. خطای قرارداد محلی^[36]

متن به قراردادهای ظاهری ویژه محل پایبند نیست و الزامات ارائه محتوا در منطقه زبان مقصد را نقض می‌کند. برای مثال، در یک متن فارسی به جای استفاده از گیومه («») از علامت نقل قول غربی (“”) استفاده شود.

2-3-4. خطای اصطلاح شناسی^[37]

یک اصطلاح (واژۀ مختص به حوزه‌ای خاص) با اصطلاح دیگری که دور از انتظار است، ترجمه شود.

برای ارزیابی یک سامانه معمولاً شمردن خطاها کافی نیست، بلکه ارزیابان باید بدانند هر کدام از این خطاها چقدر شدت^[38] دارند. شدت به طبیعت خطای یافته شده فی نفسه و اثر آن بر میزان مفید بودن ترجمه بستگی دارد. هر چه خطا شدیدتر باشد احتمال و شدت اثر منفی آن بر مخاطب بیشتر می‌شود. (Lommel, 2018: 120) مدل DQF-MQM دارای چهار نوع شدت خطا به این شرح (تاوس، بی‌تا) است:

* وخیم[39]: خطاهایی که ممکن است حامل پیامدهای ناگوار بهداشتی، ایمنی، حقوقی، یا مالی باشند، از دستورالعمل‌های استفاده ژئوپلتیکی تخطی کنند، به اعتبار شرکت آسیب بزنند، باعث اختلال در عملکرد نرم افزار، محصول، یا خدمات شوند، توهین آمیز تلقی شوند، یا ...

* عمده[40]: خطاهایی که ممکن است باعث سردرگمی یا گمراهی مخاطب شوند، یا مانع استفاده صحیح محصول/ خدمت توسط کاربر شوند؛ چون تغییر قابل توجهی در معنا رخ داده است یا خطاها در بخشی قابل مشاهده یا مهم از محتوا رخ داده‌اند.

* خرده[41]: خطاهایی که باعث از دست رفتن معنا و سردرگمی یا گمراهی مخاطب نمی‌شوند، اما مورد توجه واقع می‌شوند، از کیفیت اسلوبی، سلاست و وضوح یا جذابیت متن می‌کاهند.

* خنثی[42]: برای بایگانی اطلاعات اضافی، مسائل یا تغییراتی که باید انجام شوند، اما خطا شمرده نمی‌شوند؛ برای مثال آن‌ها صرفاً منعکس‌کننده انتخاب یا سبک ترجیحی بازبین هستند، اشتباهاتی هستند که تکرار شده‌اند، یا تغییراتی در دستوالعمل یا واژه‌نامه هستند که هنوز پیاده‌سازی نشده‌اند و یا تغییری است که باید انجام شود، اما مترجم از آن بی‌خبر بوده است.

می‌توان از این سطوح شدت برای دادن نمره‌هایی منفی به هر کدام از خطاهای موجود در مجموعه‌ای از ترجمه‌ها استفاده کرد و از آن‌ها برای محاسبه سنجه‌ای برای ارزیابی[43] کلی کیفیت مجموعه بهره برد. به ازای هر سطح شدت جریمه یا نمرۀ منفی خاصی در نظر گرفته می‌شود؛ برای مثال برای هر خطای سطح وخیم 10 نمرۀ منفی، برای سطح عمده 5 نمرۀ منفی، برای سطح خرده 1 نمرۀ منفی و برای سطح خنثی 0 نمرۀ منفی در نظر گرفته می‌شود)، سپس این مقادیر با هم جمع می‌شوند تا مقدار نمرۀ منفی کل به دست بیاید. سپس می‌توان با این فرمول (Lommel, 2018: 121- 122) مقدار امتیاز کل کیفیت ترجمه‌های مورد نظر را به دست آورد:

پیشینۀ پژوهش

چند مقاله به ترجمۀ ماشینی بین عربی و فارسی پرداخته‌اند. نظری (1393) در مقالۀ «گونه‌شناسی چالش‌ها و جایگاه ترجمۀ ماشینی از عربی به فارسی» چالش‌های پیش رو در ترجمۀ ماشینی از عربی به فارسی از جمله مسائل ابهام نوشتاری، واژگانی و اعراب را به تفصیل بیان می‌کند. وی همچنین نمونه‌ای از ترجمۀ انجام شده توسط ماشین‌های ترجمه برخط رایگان را ارائه می‌دهد که نشان می‌دهد هنوز راه درازی تا رسیدن به ترجمۀ ماشینی عربی به فارسی قابل قبول پیش رو داریم (نظری، 1393: 40 و 54).

بشار (2021) در مقالۀ «إشکالیات الترجمة الآلیة بین العربیة والفارسیة» به توضیحاتی در مورد ابهام‌های واژگانی مشکل‌آفرین برای ترجمه بین عربی و فارسی و همچنین به بررسی ترجمۀ متونی از انواع مختلف با مترجم گوگل می‌پردازد و نتیجه می‌گیرد که هنوز به کیفیت مطلوب نرسیده است. اگرچه برای انواعی از متون (فنی و غیر ادبی) بهتر از انواعی دیگر (شامل امثال و کنایات و اصطلاح‌ها) عمل می‌کند (بشار، 2021: 192-193).

عبدالعباس (2021) در مقالۀ «واکاوی ترجمۀ ماشینی تارنماهای خبری فارسی به عربی» ترجمۀ ماشینی برخی متون خبری را از فارسی به عربی مورد ارزیابی قرار می‌دهد و انواع اشتباهات موجود در آن را گزارش می‌دهد (عبدالعباس، 2021: 514 و 534)

چندین پژوهش علمی با موضوع ارزیابی تطبیقی ترجمۀ ماشینی به جفت‌زبان‌های عربی- انگلیسی یا فارسی- انگلیسی پرداخته‌اند، اما هنوز هیچ پژوهشی در این حوزه برای جفت زبان عربی- فارسی منتشر نشده است. این پژوهش‌ها عموماً ابتدا یک مجموعه آزمایش انتخاب کرده‌اند، سپس ترجمۀ آن را توسط چند ماشین ترجمه انجام داده و خروجی را با استفاده از یک یا چند یک از روش‌های خاص ارزیابی ترجمۀ ماشینی مورد مطالعه قرار داده‌اند. در ادامه خلاصه‎‌ای از جدیدترین مطالعات این حوزه آمده است.

بن میلاد (2022) در پژوهشی با عنوان «ارزیابی تطبیقی کیفیت ترجمه ماشینی عصبی در ترجمه انگلیسی عربی»[44] متونی عربی و متونی انگلیسی هر کدام حدود 100 جمله را از یک پیکره موازی متون خبری انتخاب کرد، و آن‌ها را توسط ماشین‌های ترجمۀ رایگان و غیررایگان از جمله گوکل، بینگ و یاندکس به زبان مقابل ترجمه کرد. وی متون به دست آمده را با دو روش، ارزیابی انسانی برآورد کیفیت و ارزیابی خودکار با دو مدل مختلف، مورد بررسی قرار داد. ارزیابی انسانی گوگل را به برتری شناخت، اما مدل‌های ارزیابی خودکار مختلف نتایج متفاوتی به همراه داشت و بر برتری هیچ‌کدام از آن‌ها اتفاق نداشت (بن میلاد، 2022: 142).

المحاسیس (2020) در رسالۀ دکتری خود با عنوان «ارزیابی درزمانی گوگل ترنزلیت، مترجم مایکروسافت و صخر در ترجمه انگلیسی به عربی»[45] پیکره‌ای حدوداً 4500 واژه‌ای از انواع مختلف متون عربی و انگلیسی می‌سازد و ترجمۀ آن به انگلیسی و عربی توسط سامانه‌هایی شامل گوگل و بینگ را به دو روش انسانی برآورد کیفیت و تحلیل خطا مورد ارزیابی قرار داد، و به این نتیجه رسید که گوگل ترجمۀ بهتری ارائه می‌دهد (المحاسیس، 2020: 3).

ابوعیاش (2017) در مقاله‌ای با عنوان «خطاها و عدم خطاها در ترجمه ماشینی انگلیسی به عربی ساختارهای جنسیتی در متون فنی»[46] چند متن فنی انگلیسی با حدود 400 واژه را به چند ماشین‌ ترجمه شامل گوگل و بینگ داد و ترجمۀ عربی خروجی را به روش ارزیابی انسانی مبتنی بر نقاط بازرسی (تطابق جنس فعل- فاعل، صفت- موصوف، و ضمیر- مرجع) مورد مطالعه قرار داد و به این نتیجه رسید که گوگل و بینگ تعداد خطای برابری داشتند (ابوعیاش، 2017: 73، 79).

الشلبی و دیگران (2017) در پژوهشی با عنوان «ارزیابی ترجمه ماشینی از عربی به انگلیسی و بالعکس»[47] پیکرۀ موازی عربی- انگلیسی شامل 60 جمله را از اینترنت جمع‌آوری کردند، سپس ترجمۀ هر جمله را به زبان دیگر توسط ماشین‌های ترجمۀ گوگل، بینگ، بابیلون و سیسترن مورد ارزیابی خودکار قرار دادند و به این نتیجه رسیدند که گوگل ترجمۀ عربی به انگلیسی و برعکس بهتری ارائه می‌دهد (الشلبی و دیگران، 2017: 1).

روش پژوهش

اولین گام برای اجرای ارزیابی ترجمۀ ماشینی، انتخاب مجموعه آزمایش است. همچنان که در سؤالات پژوهش منعکس شده است، این پژوهش سعی دارد به مقایسه کیفیت خروجی ماشین‌های ترجمۀ عربی به فارسی و برعکس بپردازد و به نوع خاصی از متون این دو زبان محدود نباشد. برای رسیدن به این هدف از جملات موجود در دو کتاب فرهنگ بسامدی عربی^[48] و فارسی^[49] انتشارات راتلج استفاده شد؛ چون این جملات از پیکره‌هایی با انواع مختلف متون نوشتاری و صوتی انتخاب شده‌اند و همچنانکه از عنوان کتاب‌ها نیز برمی‌آید سعی شده طوری انتخاب شوند که نمایندۀ زبان‌های عربی و فارسی باشند و محدود به نوع خاصی از متون نباشند (Miller, et al., 2018: 1- 2 and Buckwalter & Parkinson, 2010: 3- 4). 60 جملۀ اول از هر کدام از این دو کتاب به عنوان مجموعه آزمایش برای هر کدام از دو جهت ترجمۀ عربی به فارسی و برعکس انتخاب شدند. این جملات به حالت‌های[50] مختلف نوشتاری و گفتاری، انواع مختلف خبری، داستانی، علمی و... و موضوعات مختلف سیاسی، دینی، تاریخی، جغرافیایی و... هستند.

گام دوم انتخاب ماشین‌های ترجمۀ مورد آزمایش است. در اینجا همانطور که در مقدمه اشاره شد، سامانه‎‌های برخط رایگان پشتیبانی‌کننده از عربی و فارسی انتخاب شدند. با جست‌وجو در اینترنت شش سامانه با این مشخصات به دست آمدند: گوگل ترنزلیت^[51]، بینگ ترنزلیتور^[52]، یاندکس ترنزلیت^[53]، رورسو^[54]، مادرن‌ام‌تی^[55]، و نیوترنس^[56]. در جدول (1) معرفی اجمالی این سامانه‌ها و قابلیت‌های ادعایی‌شان آمده است.

جدول 1. معرفی اجمالی مشخصات و قابلیت‌های ادعایی ترجمه‌های ماشینی برخط رایگان

نام ماشین ترجمه	گوگل	بینگ	یاندکس	رورسو	مادرن‌ام‌تی	نیوترنس
کشور توسعه‌دهنده	آمریکا	آمریکا	روسیه	فرانسه	ایتالیا	چین
تعداد زبان پشتیبانی شده	133	88	100	26	200	450+
حداکثر تعداد نویسه	5000	1000	10000	2000	5000	5000
ترجمه صوت	ü	ü	ü	û	û	û
پخش صوت	ü	ü	ü	ü	û	û
ترجمه تصویر	ü	û	ü	û	û	û
ترجمه سند	ü	û	ü	ü	û	û
ترجمه وبسایت	ü	û	ü	ü	û	û
ترجمه دستخط	ü	ü	ü	û	û	û
ترجمه برونخط (آفلاین)	ü	ü	ü	û	û	û

گام سوم انتخاب روشی برای ارزیابی خروجی ترجمۀ ماشینی است. در این پژوهش از ارزیابی انسانی استفاده خواهد شد که بر روش‌های ماشینی برتری کلی دارد (Kit & Wong, 2023: 227). روش‌های ارزیابی خودکار مبتنی بر ترجمه مرجع مخصوصاً برای زبان‌هایی مثل عربی و فارسی که از نظر صرفی غنی هستند یا از نظر منابع پیکره‌ای کمبود دارند، مناسب نیست (Beseiso, M., et al., 2022: 189).

از میان روش‌های انسانی روش مبتنی بر تحلیل و طبقه‌بندی خطا استفاده خواهد شد که بیش از همه از جانب‌گیری و نظر شخصی که از اصالت علمی پژوهش می‌کاهد به دور هستند. مدل‌های بسیاری برای این نوع از ارزیابی وجود دارد که در اینجا طبقه‌بندی موسوم به DQF-MQM که یک مورد به روز و استاندارد است (راتول و دیگران[57]، 2023: 107) اختیار شده است.

گام چهارم در ارزیابی انسانی انتخاب نشان‌گذار(ان) است. در اینجا نویسندۀ مسئول این مقاله خود نقش نشان‌گذار را نیز بازی کرده است. زبان فارسی زبان اصلی پژوهشگر است و به زبان‌های عربی و انگلیسی نیز تسلط نسبی دارد. ترجمۀ انگلیسی جملات مجموعۀ آزمایش در کتاب‌های مورد اشاره موجود هستند و می‌توانند به نحوی همچون ترجمۀ مرجع عمل کنند. بنابراین، به نظر می‌رسد پژوهشگر شایستگی کافی برای ایفای نقش نشان‌گذاری این پیکره را دارا باشد.

گام پنجم انتخاب ابزاری برای تسهیل اجرای فرآیند ارزیابی است. در اینجا از قالب اکسل مخصوص مدل DQF-MQM، موجود روی سایت رسمی شرکت ابداع کننده آن، استفاده می‌شود.[58] این قالب اکسل دارای هشت زبانه است؛ زبانۀ اول عنوان را دربر دارد. زبانۀ دوم مقدمه‌ای است که نحوۀ استفاده از قالب را توضیح داده است. زبانۀ سوم جدولی است که مشخصات کلی متن مبدأ همچون تعداد کلمات در آن وارد می‌شود. زبانۀ چهارم جدولی است که ارزیاب متن مبدأ را بخش به بخش[59] در آن وارد می‌کند و خطا(های) موجود در هر بخش را با انتخاب گزینه مربوطه مشخص می‌کند. زبانۀ پنجم نمرۀ منفی و امتیاز ترجمه را به صورت خودکار محاسبه کرده و نمایش می‌دهد. زبانه‌های بعدی به توضیح سطوح و شدت‌های مختلف خطاها پرداخته‌اند که در بخش ادبیات پژوهش آمد (TAUS, Undated).

گام ششم اجرای عملی فرآیند ارزیابی است. جملات مجموعۀ آزمایش تک تک وارد ماشین‌های ترجمه شدند و خروجی آن‌ها دریافت شد. هر کدام از این جملات به عنوان یک بخش محسوب می‌شوند که باید در خانه‌های مربوطه در قالب اکسل وارد شوند. این جملات وارد فایل اکسل شده و خطاها در خانه‌های مربوطه تعیین شدند. طبقه‌بندی خطای موجود در این قالب دارای شاخه‌ها و زیرشاخه‌های بسیاری است که همگی برای ارزیابی ترجمۀ ماشینی مناسب نیستند؛ نشان‌گذار خود را محدود می‌کند به زیر مجموعه‌ای از این طبقه‌بندی که برای ارزیابی ترجمۀ ماشینی توصیه شده و در بخش سوم مبانی نظری شرح آن آمد.

یافته‌ها

در این بخش گزارشی از داده‌های به دست آمده از فرآیند تحلیل و طبقه‌بندی خطای انجام شده، ارائه می‌شود. داده‌های مربوط به هر کدام از ماشین‌های ترجمه برای هر کدام از دو جهت عربی به فارسی و فارسی به عربی در قالب‌های اکسل جداگانه‌ای قرار دارد که همگی از طریق اینترنت قابل دسترسی است^[60]. حجم این داده‎‌ها بیش از این است که در این مقابله قابل گنجاندن باشد. در ادامه توضیحات و مثال‌هایی دربارۀ انواع و شدت‌های مختلف خطاهای مشاهده شده در ترجمه‌ها آورده می‌شود:

* گوگل جملۀ شمارۀ 28 عربی «اللی بیدخن وما بیعمل ریاضة نهائیا بیتعب بربع ساعة» را به «هر کس سیگار می‌کشد و اصلاً ورزش نمی کند در یک ربع خسته می‌شود» ترجمه کرده است که کلمۀ «اصلًا» در آن اضافه است؛ بنابراین به عنوان خطای صحت از نوع اضافه محسوب شد. با توجه به اینکه این خطا تغییر چندانی در معنا حاصل نمی‌کند، خطایی از شدت خرده دانسته شد.

* رورسو جملۀ شمارۀ 27 فارسی «افراد معمولی هم میتوانند برند.» را به «یمکن للناس العادیین أیضًا» ترجمه کرده که معادل کلمۀ «برند» در آن وجود ندارد؛ بنابراین، خطای صحت از نوع حذف در آن رخ داده است. با توجه به اینکه این حذف موجب سردرگمی خواننده می‌شود، خطایی از شدت عمده رخ داده است.

* نیوترنس جملۀ شمارۀ 36 فارسی «من هم بهائی هستم.» را به «أنا أیضا أحمق.» ترجمه کرده است که خطای صحت از نوع سوءترجمه رخ داده است، و با توجه به اینکه ممکن است، توهین‌آمیز تلقی شود، سطح شدت خطا وخیم تشخیص داده شد.

* یاندکس جملۀ شمارۀ 7 فارسی «چند روز در هفته ورزش میکنی؟» را به «کم یوما فی الأسبوع هل ممارسة؟» ترجمه کرده که نا مفهوم است؛ بنابراین، خطای از نوع سلاست رخ داده است. این نوع خطا در طبقه‌بندی MQM با اصطلاح نامفهوم^[61] شناخته می‌شود که در DQF-MQM معادلی ندارد؛ بنابراین، در قالب اکسل تنها با خطای سطح بالای سلاست مشخص شده است و نوع آن تعیین نشده است (Lommel, et al., 2015: 16 and TAUS, Undated)).

* مادرن‌ام‌تی جمله اخیر را به «کم عدد الأیام فی الأسبوع التی تمارس فیها الریاضة؟» که بهتر بود به جمله کوتاه‌تر «کم یوما فی الأسبوع تمارس الریاضة؟» ترجمه می‌شد، ترجمه کرده است؛ بنابراین، می‌توان آن را خطای سلاست از نوع دستوری دانست. با توجه به اینکه امکان دارد این مورد اصلاً خطا محسوب نشود از شدت خنثی شناسایی شده است.

* نیوترنس جملۀ شمارۀ 1 عربی «أمضى البائع حیاته فی البحث عن الألماس» را به «اون فروشنده تمام عمرش رو به دنبال الماس گذاشته بود» ترجمه کرد. کلمات «اون» و «رو» در حالت گفتاری یا عامیانه هستند و با حالت نوشتاری یا رسمی متن مبدأ هماهنگی ندارند؛ بنابراین، خطای سلاست از نوع سیاق دستوری رخ داده است.

* نیوترنس جملۀ شمارۀ 23 فارسی «رسید به سیصد تومن.» را به «وصل إلى ثلاثمائة تومین» ترجمه کرد که در کلمۀ «تومین» خطای سلاست از نوع املائی دارد.

* یاندکس جملۀ شمارۀ 7 عربی «سقط الحاج محمود على الأرض من شدة وقع الخبر على نفسه» را به جمله‌ای فاقد نقطه ترجمه کرد؛ بنابراین، خطای سلاست از نوع علائم نگارشی رخ داد. این نوع از خطا در زیرمجموعۀ پیشنهاد شده در مبانی نظری نیامده بود، اما نشان‌گذار در عمل متوجه شد که برای ثبت کامل خطاها به آن نیاز دارد.

* رورسو جملۀ شمارۀ 8 عربی «هل هذا یعنی أنکم ستدعمون موقف سوریا؟» را به «آیا این به این معنی است که شما از موضع سوریه حمایت می‌کنید؟» ترجمه کرده که در آن از علامت سؤال لاتین استفاده شده است؛ بنابراین، خطای قرارداد محلی رخ داده است.

* رورسو جملۀ شمارۀ 18 عربی «عین فی قسم الهیستولوجی بدلا من الجراحة العامة التی کان یحلم بها» را به «او به جای جراحی عمومی که در خواب دید، به سمت دپارتمان هیدرولوژی منصوب شد» ترجمه کرده که در آن اصطلاح «الهیستولوجی» اشتباهاً به «هیدرولوژی» ترجمه شده است؛ بنابراین ،خطای اصطلاح‌شناسی رخ داده است.

در زبانۀ پنجم هر کدام از فایل‌های اکسل مربوط به هر یک از ماشین‌های ترجمه برای هر یک از دو جهت ترجمه از عربی به فارسی و برعکس، تعداد انواع خطاها و امتیاز منفی آن‌ها محاسبه و نمایش داده شده است که در دو جدول (2) و (3) به صورت خلاصه ارائه شده‌اند

جدول 2. تعداد و نمرۀ منفی برای هر نوع خطا برای ترجمه از عربی به فارسی

نام ماشین ترجمه	گوگل		بینگ		یاندکس		رورسو		مادرن‌ام‌تی		نیوترنس
خطای صحت	31	99	29	81	27	75	33	122	29	93	36	129
خطای سلاست	7	7	17	30	18	52	11	74	9	38	18	84
قرارداد محلی	0	0	0	0	1	0	4	0	0	0	0	0
اصطلاح شناسی	0	0	0	0	0	0	0	0	0	0	1	1
تعداد/جریمه کل	38	106	46	111	46	127	48	196	38	131	55	214
امتیاز	84%		83%		81%		70%		80%		67%

جدول 3. تعداد و نمرۀ منفی برای هر نوع خطا برای ترجمه از فارسی به عربی

نام ماشین ترجمه	گوگل		بینگ		یاندکس		رورسو		مادرن‌ام‌تی		نیوترنس
خطای صحت	24	60	21	73	22	90	29	101	24	84	26	95
خطای سلاست	1	1	1	5	2	6	3	7	2	10	8	33
قرارداد محلی	0	0	0	0	2	0	0	0	0	0	0	0
اصطلاح شناسی	0	0	0	0	0	0	0	0	0	0	0	0
تعداد/جریمه کل	25	61	22	78	26	96	32	108	26	94	34	128
امتیاز	87%		83%		79%		76%		79%		72%

برای محاسبه امتیاز کل هر کدام از ماشین‌های ترجمه باید تعداد کلمات کل جملات (برای عربی 656 کلمه و برای فارسی 454 کلمه) و میزان نمرۀ منفی کل مورد اشاره در جدول‌های بالا را در فرمول بیان شده در مبانی نظری جایگذاری کنیم. امتیازهای موجود در سطر آخر جدول‌های بالا از این طریق محاسبه شدند. نمودارهای (1) و (2) امتیاز کل (رنگ نارنجی) و نمرۀ منفی کل (رنگ آبی) ماشین‌های ترجمه از عربی به فارسی و برعکس را نمایش می‌دهند.

نمودار 1. نمرۀ منفی کل (آبی) و امتیاز کل (نارنجی) ماشین‌های ترجمه برخط رایگان برای ترجمه از عربی به فارسی

نمودار 2. نمرۀ منفی کل (آبی) و امتیاز کل (نارنجی) ماشین‌های ترجمه برخط رایگان برای ترجمه از فارسی به عربی

نشان‌گذار در عمل اجرای ارزیابی با مواردی مواجه شد که با زیرمجموعۀ DQF-MQM پیشنهادی برای ارزیابی ترجمۀ ماشینی ارائه شده در مبانی نظری، سازگاری نداشت. خطای بلاترجمه اصلاً مشاهده نشده است؛ بنابراین ظاهراً کاربرد چندانی برای ارزیابی ماشین‌های ترجمه امروزی ندارند. علاوه بر این، خطای سلاست علائم نگارشی در زیرمجموعۀ پیشنهادی موجود نبود، اما برای نشان‌گذاری کامل مورد نیاز بود.

نشان‌گذار در فرآیند نشان‌گذاری با مشکلات دیگری نیز مواجه شد. گاهی تعیین دقیق طبقه‌بندی امکان‌پذیر نبود؛ برای مثال، جملۀ «بسیاری از کردهای ترکیه به استانبول مهاجرت کرده‌اند» توسط مادرن‌ام‌تی این‌گونه ترجمه شده «هاجر العدید من الأکراد الأتراک إلى اسطنبول» که از طرفی می‌توان گفت که «الأکراد الأتراک» یک سوءترجمه از «کردهای ترکیه» است و از طرفی دیگر می‌توان گفت که «الأکراد الأتراک» همان «أکراد ترکیا» است که صورت دستوری غلط‌اندازی به خود گرفته است.

همچنین تصمیم‌گیری در مورد شدت برخی از خطاها نیز سخت بود. برای مثال اسم خاص «عجلون» در جملۀ عربی شمارۀ 26 در ترجمۀ یاندکس به صورت «اجلون» آمده است؛ تصمیم‌گیری در مورد اینکه آیا این کلمه توسط خواننده درک خواهد شد و بنابراین شدت خرده داشته باشد، یا اینکه املای این واژه به گونه‌ای تغییر کرده که موجب سردرگمی خواننده می‌شود و بنابراین شدت عمده داشته باشد، سخت است. این مشکل در حقیقت از مجهول بودن خواننده در این پژوهش نشأت می‌گیرد؛ اگر درک کافی از نوع مخاطب وجود داشته باشد، شاید تصمیم‌گیری در چنین مواردی راحت‌تر باشد.

مشکل دیگری که در تعیین شدت خطاها با آن مواجه شدیم، این بود که ممکن بود یک ماشین ترجمه، یک ترجمۀ نامفهوم از یک جمله ارائه دهد و بنابراین نمرۀ منفی سطح عمده بگیرد؛ در حالی که یک ماشین دیگر تنها بخشی کوچک از آن جمله را اشتباه ترجمه کند و آن هم نمرۀ منفی سطح عمده بگیرد. برای مثال جملۀ شمارۀ 29 عربی «قال إن المحافظة استعدت جیدا لهذه المناسبة» توسط رورسو به «او گفت که بخشدار به این مناسبت به خوبی آماده شده است» ترجمه شده که نامفهوم است و چون خواننده را سردرگم می‌کند باید نمرۀ منفی سطح عمده بگیرد. علاوه بر این، این جمله توسط مادرن‌ام‌تی به «او گفت که فرمانداری به خوبی برای این مناسبت آماده شده است» ترجمه شده است که خطای سوءترجمه فقط در کلمۀ «فرمانداری» رخ داده است و چون خواننده نمی‌تواند به واژۀ صحیح که «استان» است، پی ببرد؛ بنابراین، باید شدت از سطح عمده در نظر گرفته شود. در این صورت هر دو نمرۀ منفی برابری خواهند گرفت، اما واضح است که باید رورسو نمرۀ منفی بیشتری بگیرد، چون اشتباهات بیشتری مرتکب شده است که موجب نامفهوم شدن کل جمله شده است. برای جلوگیری از این مشکل، نشان‌گذار از سطح شدت وخیم برای ترجمۀ نامفهوم استفاده کرد.

همچنانکه در جدول‌های پیشینی مشاهده می‌شود، تعداد خطاهای اصطلاح‌شناسی و قرارداد محلی بسیار کم بود. کم بودن تعداد خطاهای اصطلاح‌شناسی ناشی از کم بودن تعداد اصطلاحات تخصصی در مجموعه آزمایش بود. اما کم بودن تعداد خطاهای قرارداد محلی بیشتر به طبیعت خود این نوع خطا برمی‌گردد؛ این نوع خطا منحصر است به عدم رعایت قالب محلی در مواردی معدود همچون علائم نگارشی، آدرس، تلفن، تاریخ، واحدهای اندازه گیری و ارز که تنوع یا کاربرد کمی دارند. جالب است که ماشین‌های ترجمه مواردی همچون تبدیل قالب تاریخ را به صورت هوشمند انجام می‌دهند؛ برای مثال، تمامی ماشین‌های ترجمه بجز نیوترنس در ترجمۀ جملۀ شمارۀ 5 عربی سال 1979 را به 1357 (اما در یک مورد به 1358) ترجمه کردند.

نکته دیگری که در جدول‌ها و نمودارهای بالا به چشم می‌خورد این است که عموماً کیفیت ترجمه در جهت فارسی به عربی بالاتر از جهت عربی به فارسی بود. این مورد می‌تواند به این دلیل باشد که در این پژوهش جملات مجموعۀ آزمایشی فارسی از جملات جملات مجموعۀ آزمایشی عربی ساده‌تر بودند و لزوماً به این معنا نیست که کیفیت ترجمۀ ماشینی در جهت فارسی به عربی بهتر از جهت عربی به فارسی است.

بحث و نتیجه‌گیری

در این پژوهش کیفیت ترجمۀ عربی به فارسی و برعکس شش سامانه ترجمۀ ماشینی برخط رایگان با استفاده از مدل DQF-MQM مورد ارزیابی واقع شد. همچنان که در جدول‌های (2) و (3) و نمودارهای (1) و (2) دیده می‌شود، این سامانه‌ها برای ترجمۀ عربی به فارسی به ترتیب کیفیت خروجی بالا به پایین از این قرار هستند: 1- گوگل، 2- بینگ، 3- یاندکس، 4- مادرن‌ام‌تی، 5- رورسو و 6- نیوترنس و برای ترجمه از فارسی به عربی از این قرار: 1- گوگل، 2- بینگ، 3- یاندکس و مادرن‌ام‌تی، 4- رورسو و 5- نیوترنس. همچنین می‌توان آن‌ها را در سه رده قرار داد که ماشین‌های هر رده امتیازهای نزدیک به هم دارند: 1- گوگل و بینگ، 2- یاندکس و مادرن‌ام‌تی و 3- رورسو و نیوترنس. این نتایج با آنچه در بخش پیشینۀ پژوهش آمد، مبنی بر اینکه گوگل غالباً توانسته بود ترجمه (بین عربی و انگلیسی) بهتری به نسبت سایر ماشین‌های ترجمه ارائه دهد، سازگاری دارد.

لازم به ذکر است که این رتبه‌بندی به معنای برتری مطلق یکی از این ماشین‌های ترجمه بر دیگری نیست. برای مثال، نیوترنس رتبه آخر شده است، اما در ترجمۀ جملۀ فارسی شمارۀ 5 بهتر از گوگل عمل کرده است. بنابراین، می‌توان گفت که نتایج در بهترین حالت تنها بر یک برتری احتمالی دلالت دارند.

همین برتری احتمالی هم ممکن است، با گذر زمان تغییر کرده و در آینده ماشین ترجمۀ دیگری بر گوگل و بینگ فائق آید. بنابراین، توصیه می‌شود، چنین آزمایش‌هایی به صورت دوره‌ای تکرار شود. همچنین توصیه می‌شود، آزمایش‌های دیگر با تفکیک انواع متن صورت پذیرد تا به درک بهتری از ترجمۀ ماشینی عربی به فارسی و برعکس انواع مختلف متون برسیم. همچنین آزمایش‌های دیگری با روش‌های دیگر بیان شده در بخش مبانی نظری انجام شود یا به جای وارد کردن جمله به جمله که در این پژوهش انجام شد، متون به صورت کامل به ماشین ترجمه وارد شوند.

تعارض منافع

تعارض منافع ندارم.

ORCID

Shahryar Niazi		https://orcid.org/0000-0002-5157-0009
Mahmood Bijankhan		https://orcid.org/0000-0002-4175-6854
Mazyar Pashaei		https://orcid.org/0000-0002-9633-5715

[1]. Holmes, J.

[2]. Snell-Hornby, M.

[3]. Globalization Turn

[4]. Cultural Turn

[5]. Accuracy

[6]. Fluency

[7]. Intelligibility

[8]. Acceptability

[9]. Adequacy

[10]. Fidelity

[11]. تعریف اصطلاح «مجموعه آزمایش» (Test Suite/Set): مجموعه‌ای از متون، جمله‌ها یا عبارات که به یک سامانه ترجمه ماشینی وارد می‌شود تا خروجی یا محصول آن مورد ارزیابی قرار بگیرد. (Rothwell et al., 2023: xxi)

[12]. Reference Translation-based

[13]. Quality Estimation

[14]. Diagnostic Evaluation Based on Checkpoints

[15]. Quality Assessment

[16]. Error Analysis and categorization

[17]. Information Extraction

[18]. Comprehension Test

[19]. Post-editing

[20]. Judge

[21]. تعریف اصطلاح «نشانه گذاری» (annotation): به فرایند اضافه کردن اطلاعات زبانی به یک پیکره نشان گذاری گفته می‌شود. برای مثال ممکن است نقش‌های دستوری کلمات به پیکره اضافه شود. به فردی که این کار را می‌کند نشانه گذار (annotator) گفته می‌شود. (Sin-Wai, 2004: 12)

[22]. Multidimensional Quality Metrics

[23]. Dynamic Quality Framework

[24]. High-level error type

[25]. Granular error type

[26] .Lommel, A., et al.

[27]. TAUS

[28]. Addition

[29]. Omission

[30]. Mistranslation

[31]. Untranslated

[32]. Lommel, A., et al.

[33]. Grammar

[34]. Grammatical Register

[35]. Spelling

[36]. Locale Convention

[37]. Terminology

[38]. Severity

[39]. Critical

[40]. Major

[41]. Minor

[42]. Neutral

[43]. تعریف اصطلاح «سنجه ارزیابی» (evaluation metric): معیار یا اندازه‌ای که برای سنجش و اندازه‌گیری کیفیت به کار می‌رود (Rothwell et al., 2023: xiii). تفاوت «سنجه» با مفهوم ساده «اندازه» در این است که سنجه با هدف خاصی اندازه‌گیری و محاسبه می‌شود؛ برای مثال، اینکه خانه‌ای 60 متر مربع مساحت دارد صرفاً یک اندازه است، اما اینکه به ازای هر نفر از خانواده‌ای سه نفره 20 متر مربع مساحت دارد، یک سنجه است که به هدف پی بردن به مناسب بودن یا نبودن این خانه برای این خانواده محاسبه شده است (Lommel & Melby, 2018: 7).

[44]. Comparative Evaluation of Neural Machine Translation Quality in Arabic English Translation

[45]. Diachronic Evaluation of Google Translate, Microsoft Translator and Sakhr in English-Arabic Trasnlation

[46]. Errors and non-errors in English-Arabic machine translation of gender-bound constructs in technical texts

[47]. Evaluating Machine Translations from Arabic into English and Vice Versa

[48]. A Frequency Dictionary of Arabic: Core Vocabulary for Learners (by Buckwalter & Parkinson)

[49]. A Frequency Dictionary of Persian: Core Vocabulary for Learners (by Miller et al.)

[50]. Mode

[51]. Google Translate: https://translate.google.com/

[52]. Microsoft Translator: https://www.bing.com/translator

[53]. Yandex Translate: https://translate.yandex.com/

[54]. Reverso: https://www.reverso.net/text-translation

[55]. ModernMT: https://www.modernmt.com/translate

[56]. NiuTrans: https://translate.niutrans.com/

[57]. Rothwell, A., et al.

[58]. آدرس صفحه دانلود:

https://info.taus.net/dqf-mqf-error-typology-template-download

[59]. تعریف اصطلاح «بخش» (Segment): واحدهای کمینه‌ای که می‌توان متن مبدأ را به آن شکست و بخش متناظر با هر کدام را در متن مقصد (ترجمه شده توسط ماشین یا به کمک ماشین) یافت؛ برای مثال جمله، تیتر و محتویات یک خانه از یک جدول. شبیه به مفهوم واحد ترجمه در مطالعات ترجمه است. (Rothwell et al., 2023: xix; Sin-Wai, 2004: 203)

[60]. https://github.com/mazyar1990/MTE-Spreadsheets

[61]. Unintelligible

References

Translated References to English

AbdulAbbas, O. A. (2021). Criticism and analysis of the machine translation of news websites from Persian into Arabic. Al-Adab magazine, 138 (1), 513-536. [In Persian]

Bashar, Zainab Mohammad Ibrahim al-Dsoqi. (2021). Problems of machine translation between Arabic and Persian. Journal of the Faculty of Arts and Human Sciences of Al Suez University, 39 (2), 150-205. [In Arabic]

Nazari, A. (2013). Typology of challenges and position of machine translation from Arabic to Persian. Translation Researches in the Arabic Language and Literature, 4(11), 29-56. DOR: 20.1001.1.22519017.1393.4.11.2.6 [In Persian]

Translation Researches in the Arabic Language And Literature

Article View: 1,809
PDF Download: 520

Comparative Quality Evaluation of the Output of Free Online Translation Machines between Arabic and Persian Based on the DQF-MQM Model

Full Text

Shahryar Niazi

https://orcid.org/0000-0002-5157-0009

Mahmood Bijankhan

https://orcid.org/0000-0002-4175-6854

Mazyar Pashaei

https://orcid.org/0000-0002-9633-5715

References

Volume 14, Issue 30
March 2024
Pages 71-98

Files

Share

How to cite

Statistics

Comparative Quality Evaluation of the Output of Free Online Translation Machines between Arabic and Persian Based on the DQF-MQM Model

Full Text

Shahryar Niazi

https://orcid.org/0000-0002-5157-0009

Mahmood Bijankhan

https://orcid.org/0000-0002-4175-6854

Mazyar Pashaei

https://orcid.org/0000-0002-9633-5715

References

Volume 14, Issue 30March 2024Pages 71-98

Files

Share

How to cite

Statistics

Volume 14, Issue 30
March 2024
Pages 71-98