Sainmhíniú
Is méadrach é BLEU (BiLingual EvaluationUunderstudy) a úsáidtear i bpróiseáil teanga nádúrtha (NLP) agus in aistriúchán meaisín chun cáilíocht an téacs ginte a mheas i gcomparáid le chéile. aistriúchán tagartha ardchaighdeáin amháin nó níos mó. Tomhaiseann sé cé chomh cosúil agus atá téacs meaisínghinte le téacs tagartha amháin nó níos mó a ghintear ag an duine.
Oibríonn BLEU trí n-gram (seichimh n focal as a chéile) a chur i gcomparáid idir an téacs ginte agus na téacsanna tagartha. Ríomhann sé beachtas, ag cur san áireamh cé mhéad n-gram sa téacs ginte a mheaitseálann leis na cinn sa téacs(anna) tagartha. Déantar an scór beachtas a mhodhnú ansin trí phionós gearrtheachtaithe ionas nach mbeifeá i bhfabhar aistriúcháin níos giorra.
Is eol go bhfuil comhghaol maith idir scór BLEU agus breithiúnas daonna ar cháilíocht an aistriúcháin.
Tá beachtas agus pionós gearrta i gceist leis an bhfoirmle chun an scór BLEU a ríomh. Seo leagan simplithe den fhoirmle:
Cá
-
Is é BP an pionós gearra chun fad an téacs a ghintear i gcomparáid leis an téacs tagartha nó na téacsanna tagartha a chur san áireamh.
-
is é n an t-ord uasta n-gram a mheastar (4 de ghnáth).
-
Is é P_i beachtas an i-gram idir an téacs ginte agus an téacs(í) tagartha.
Ríomhtar an beachtas p_i do gach i-ghraim tríd an líon i-ghraim mheaitseála sa téacs ginte a roinnt ar líon iomlán na n-i-gram sa téacs ginte. Déantar an luach beachtas seo a iolrú le chéile do gach ordú i-gram agus ansin ardaítear é go dtí cumhacht chómhalartach n (an t-ord uasta n-gram).
Gearrtar pionós ar aistriúcháin níos giorra trí fhad an téacs ginte a chur i gcomparáid leis an téacs tagartha is gaire i dtéarmaí faid. Ríomhtar é mar:
Cá
-
is é c fad an téacs ginte
-
Is é r fad an téacs tagartha is gaire
Cuireann an pionós seo cosc ar aistriúcháin róghearr ó scóir dhíréireacha a fháil.
Coinnigh i gcuimhne gur míniú simplithe é seo ar fhoirmle scórála BLEU. D’fhéadfadh go mbeadh teicnící breise smúdála nó modhnuithe d’athruithe sonracha ar BLEU a úsáidtear i gcomhthéacsanna éagsúla i gceist leis an ríomh iarbhír.
Léiriú
Tá an scór BLEU idir 0 agus 1, áit a léiríonn 1 meaitseáil foirfe idir an téacs ginte agus an téacs(í) tagartha. De ghnáth tugann scóir BLEU níos airde cáilíocht aistriúcháin níos fearr le fios, ach tá sé ríthábhachtach na srianta a bhaineann leis a mheas, mar gan brí shéimeantach nó líofacht a chur san áireamh.
Ní tomhas iomlán é an scór BLEU, agus ní bhíonn sé cruinn scóir BLEU a chur i gcomparáid idir sleachta, teangacha, nó fiú sa teanga chéanna le huimhreacha éagsúla aistriúcháin tagartha (dá mhéad aistriúcháin is dóichí go meaitseálfaidh siad leis an iarrthóir n-gram).
Is féidir an [léirmhíniú] seo a leanas (https://cloud.google.com/translate/automl/docs/evaluate#interpretation), áfach, a úsáid chun [smaoineamh garbh] a fháil (https://www.cs.cmu. edu/%7Ealavie/Presentations/MT-Evaluation-MT-Summit-Tutorial-19Sep11.pdf) de cháilíocht na n-aistriúchán:
<tábla>
BLEU Léiriú ﹤0.1 Beagnach gan úsáid 0.1-0.19 Is deacair an scéal a fháil 0.2-0.29 Tá an brí soiléir, ach tá earráidí suntasacha gramadaí ann 0.3-0.39 Intuigthe go haistriúcháin mhaithe 0.4-0.49 Aistriúcháin ar ardchaighdeán 0.5-0.59 Aistriúcháin an-ardchaighdeáin, leordhóthanacha agus líofa ≥0.6 Is minic a bhíonn cáilíocht níos fearr ná daoineIs fiú a thabhairt faoi deara nach bhfuil BLEU ach ar cheann amháin de roinnt méadracht a úsáidtear chun aistriúchán meaisín agus giniúint téacs a mheas, agus is minic a úsáidtear é in éineacht le modhanna meastóireachta eile chun measúnú níos cuimsithí a dhéanamh ar fheidhmíocht na samhla.