Udforsk vores forskning
De fleste eksisterende neurale maskinoversættelsesmodeller bruger grupper af tegn eller hele ord som input- og outputenheder. Vi foreslår en hierarkisk char2word-kodningsmodel, der tager individuelle tegn både som input og output.
Vi argumenterer først for, at denne hierarkiske repræsentation af tegnkoderen reducerer beregningskompleksiteten og viser, at den forbedrer oversættelsesydelsen.
For det andet lærer modellen ved kvalitativt at studere opmærksomhedsdiagrammer fra afkoderen at komprimere almindelige ord til en enkelt indlejring, mens sjældne ord, såsom navne og steder, repræsenteres tegn for tegn.