Машина которуу (MT) Табигый тилди иштетүүнүн (NLP) маанилүү компоненти болуп саналат. natural-language-processing-nlp) текстти бир тилден экинчи тилге механикалык түрдө которууга багытталган. Бул тармак адам тилдерин түшүнүү жана генерациялоо үчүн чоң тил моделдерин (LLM) колдонуу менен тилдер аралык байланышты жана эл аралык маалымат алмашууну жакшыртат. Котормонун тактыгын жогорулатуу МТнын глобалдык байланыш боштуктарын жабуу үчүн негизги максаты болуп саналат.
Машина үйрөнүүдөгү негизги маселе - бул жогорку сапаттагы, ар түрдүү окуу маалыматтарын тандоо. Бул чечим өтө маанилүү, анткени ал тил моделдери ар кандай контексттерде жана тилдерде жакшы иштешине кепилдик берет, ката котормолорду же өткөрүп жиберилген нюанстарды болтурбоо. Салттуу изилдөөлөр машина котормосун өркүндөтүү үчүн ар кандай ыкмаларды карап чыкты, мисалы, адистештирилген котормо үлгүсүн тандоо жана өнүккөн декоддоо стратегиялары. Белгилүү замандар [Тим](tim](tim](tim](https://www.researchgate.net/publication/316996209_a_frameword_for_defining_and_evalating_technoustion_of_real-world_ofills) жана gpt-4 Концентрат COMET жана BLEU сыяктуу комплекстүү баалоо метрикасын колдонуу менен бул функцияларды оптималдаштыруу боюнча.
ByteDance Research изилдөөчүлөрү G-DIG деп аталган жаңы техниканы иштеп чыгышты, ал машина үйрөнүү үчүн эң оптималдуу окутуу маалыматтарын тандоо үчүн градиентке негизделген ыкмаларды колдонот. Тышкы моделдерге көз каранды болбостон, бул ыкма маалыматтарды тандоонун ар түрдүүлүгүн жана сапатын жогорулатууга багытталган. G-DIG эки этапта иштейт: биринчиден, ал жогорку сапаттагы маалыматтарды тандоо үчүн маалымат топтомун түзөт, андан кийин окутуу мисалдарынын моделдин иштешине тийгизген таасирин талдоо үчүн таасир функцияларын колдонот. Андан кийин, ал окутуу инстанцияларынын градиенттерине кластердик алгоритмдерди колдонуу менен ар түрдүүлүктү жакшыртат, аларды градиенттин окшоштугунун негизинде ар кандай категорияларга коет.
WMT22 жана FLORES сыяктуу бир нече котормо тапшырмалары боюнча кеңири тестирлөө G-DIG маалыматтарды тандоонун учурдагы ыкмаларынан кыйла ашып түшөрүн жана алдыңкы моделдер менен жакшы атаандашарын көрсөттү. G-DIG BLEU жана COMET критерийлериндеги котормо упайларын бир топ жакшыртып, кытай тилинен англисче жана немисчеден англисчеге котормолордун мыкты көрсөткүчтөрүн көрсөттү. Маанилүү нерсе, G-DIG тарабынан тандалган маалыматтар адамдын күтүүлөрүнө жана сапат талаптарына көбүрөөк ылайык келген котормолорго алып келди.
G-DIGди киргизүү МТдагы маалыматтардын сапаты жана ар түрдүүлүгү маселелерин чечүүдө олуттуу секирик болуп саналат. Градиентке негизделген тандоону колдонуу менен, модель кошумча тышкы баалоосуз өз ишин жакшыртат. Бул өнүгүү G-DIGтин котормолордун тактыгын жана моделдин натыйжалуулугун жогорулатуу мүмкүнчүлүгүн көрсөтүп, татаал жана ишенимдүү машина котормо системаларын көрсөтөт. G-DIGдин ийгиликтүү ишке ашырылышы дүйнөлүк коммуникация жана маалымат алмашуунун талаптарына жооп берген тил моделдерин иштеп чыгуу үчүн өтө маанилүү болгон окутуу маалыматтарындагы сапаттын жана ар түрдүүлүктүн маанилүүлүгүн баса белгилейт.
Жыйынтыктап айтканда, ByteDance Research компаниясынын G-DIG ыкмасы машиналык котормодогу олуттуу прогресс болуп саналат, ал ар кандай котормо тапшырмаларында тил моделдеринин натыйжалуулугун жогорулатуу үчүн жаңы мүмкүнчүлүктөрдү ачат. Бул ыкма котормонун сапатын жакшыртуу жана адамдын буйруктары менен моделди тууралоо жөндөмүнөн улам машиналык котормодогу олуттуу өнүгүүнү билдирет.