Framtidens maskinöversättning

Den 54 konferensen för Asssociation of Computational Linguistics, ACL, pågår för fullt i Berlin just nu. På söndagen hölls en genomgång av maskinöversättningssystem baserade på artificiella neurala nätverk (ofta kallat Neural Machine Translation, NMT). Denna hölls av tre av de mest framstående forskarna inom området just nu, Christopher Manning, Minh-Tangh Luong och Kyunghyun Cho.

manning-nmt-history
En illustration över historiska maskinöversättningssystem och deras kvalitet. Bilden kommer från Christopher Manning.

Ett antal tekniker för maskinöversättning har utvecklats och använtsunder de senaste årtiondena. Ett av de mer använda på sistone, frasbaserad statistisk maskinöversättning (phrase-based statistical machine translation), den teknik som används i bland annat Google Translate, har inte förbättrats mycket under de senaste tre åren. Istället har mer uppmärksamhet riktats mot neurala nätverk och neural maskinöversättning (NMT). Dessa system introducerades på riktigt 2014 och har gått igenom ett antal förbättringar sen dess. De kallas också sekvens-till-sekvens-modeller (sequence to sequence models) eller encoder-deoder-nätverk. Från början utgjordes dessa helt enkelt av två delar som var och en för sig var ett recurrent neural network, ett neuralt nätverk med återkommande delar som lämpar sig för att modellera sekventiell data såsom text. Den första delen (encoder-nätverket) tar en mening i källspråket som indata, och skapar en intern vektor-representation av denna. Den andra delen är en så kallad neural språkmodell som är tränad för att beräkna hur sannolik en textsträng är, och kan användas för att generera språk som låter väldigt bra. När man kopplar ihop delarna, och låter språkmodellen vara betingad på representationen som skapats av encodern så har vi skapat en översättningsmodell. (Se Sequence to Sequence Learning with Neural Networks by
Ilya Sutskever, Oriol Vinyals, Quoc V. Le. NIPS 2014, PDF, arXiv). Dessa tidiga NMT-system arbetade på sekvenser av ord, vilket betyder att de såg varje ord som en symbol, samt att genereringssteget bara kunde välja ord från ett fast vokabulär.

bahdanau-etal-alignment
Ett översättningssystem med attention mechanism (fokus-mekansm) kan producera en matchning mellan orden i källmeningen och målmeningen. Bilden kommer från Neural Machine Translation by Jointly Learning to Translate and Align av Dzmitry Bahdanau, KyungHuyn Cho, and Yoshua Bengio. ICLR 2015. (PDF, arXiv)

Dessa översättningsmodeller gav lovande resultat men hade vissa problem. För det första, ju längre källmeningen är, desto svårare har modellen att fånga hela betydelsen i den vektorbaserade interna representationen (vars längd inte beror på längden av meningen). För det andra, så fungerar systemen bara med ett relativt begränsat ordförråd.

Det första av dessa två problem fick en lösning 2015, när man introducerade “attention mechanisms” eller fokusmekanismer, något som låter encoder-nätverket att fokusera på olika delar av källmeningen medan målmeningen genereras. Fokusmekanismer används också i så kallade multi-modala system, såsom automatisk bildtextgenerering där man låter systemet ha fokus på olika delar av bilden medan texten genereras.

Det andra problemet har tidigare hanterats genom att NMT-systemet får välja ett särskilt ord som får symbolisera alla okända ord, <UNK>. Sedan kör man systemet som vanligt, och efter att översättningen är klar, så efterbearbetar man resultatet och kollar upp de okända orden i en ordlista, eller helt enkelt kopierar ordet från källspråket. (Se <em>”Addressing the Rare Word Problem in Neural Machine Translation”</em> av Minh-Thang Luong, Ilya Sutskever, Quoc Le, Oriol Vinyals, Wojciech Zaremba. ACL 2015
PDF, arXiv).
Denna hantering kan leda till att översättningen får ord som är i fel form, eller rent av fel språk (vilket i de värsta fallen till och med kan innebära ett annat alfabet). Bättre hantering av ord som inte finns med i systemets vokabulär (“OOV” för engelskans “out of vocabulary”) har varit något som fått uppmärksamhet från en del forskare under 2016, och några artiklar relaterade till detta presenteras i år på ACL.

I <em>Neural Machine Translation of Rare Words with Subword Units</em> av
Rico Sennrich and Barry Haddow and Alexandra Birch från University of Edinburg (PDF, aclweb.org), presenteras ett system som istället för att arbeta med hela ord arbetar med delar av ord. Systemet delar upp ord med hjälp av en algoritm som kallas “Byte Pair Encoding” (BPE)
(read about this on Wikipedia) och bygger upp ett vokabulär som består av sådana ord-delar. Metoden skapar internt vetkorrepresentationer för dessa delar, och har därför blivit kritiserad för att inte kunna relatera ord till varandra på det sätt som ordbaserade modeller kan. Under presentationen fick Rico Sennrich chansen att bemöta detta, och kunde argumentera för att det finns inget som säger att ordavgränsningar är det bästa sättet att definiera de språkliga symbolerna. Ett sammansatt ord i ett språk kan översättas till en sekvens av ord i ett annat språk. Artikeln beskriver en enkel och elegant modell, och får bra BLEU-värden (läs mer om BLEU på Wikipedia) i den experimentella utvärderingen. Utvärderingen är gjord på engelska-tyska, samt engelska-ryska.

luong-hybrid-nmt
Ett ordbaserat neuralt översättningssystem med bokstavsbaserad hantering av ord som inte finns i vokabuläret. Bild av Minh-Thang Luong.

En artikel av Junyoung Chung, Kyunghyun Cho, and Yoshua Bengio från
New York University och Universit&eacute; de Montr&eacute;al,
med titeln <em>A Character-level Decoder without Explicit Segmentation for Neural Machine Translation</em> (PDF, aclweb.org), presenterar en modell som också använder ett vokabulär skapat med BPE (se ovan), kombineat med något de kallar <em>”bi-scale recurrent neural network”</em>, ett recurrent neural network (läs mer om detta på Wikipedia), eller sekvensmodell, som har två olika upplösningar på de moduler som återkommer. Detta ger systemet ett visst mått av hierarki i uppbyggnaden. Slutsatserna här är att BPE-vokabuläret är bra för encoder-nätverket, men i decoder-nätverket använder man en helt teckenbaserad modell istället. Man utvärderar detta på fyra olika språkpar (engelska-tyska, engelska-ryska, engelska-tjeckiska samt engelska-finska), och får relativt bra resultat.

I Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models
av Minh-Thang Luong and Christopher D. Manning från Stanford (PDF, aclweb.org), presenteras en hybridmodell som fungerar som ett normalt ordbaserat NMT-system så länge den jobbar med text vars ord finns i vokabuläret. När den dyker på ett ord som inte finns i vokabuläret, så används en separat sekvensmodell som tittar på ordet tecken för tecken. Denna modell skapar en representation för vilket ord som helst som kan skrivas med det aktuella alfabetet, och de experimentella resultat som presenteras visar att dessa representationer delar många av egenskaperna som man kan se hos vektorrepresentationer för ord. (Läs mer om ordvektorer på Wikipedia). Man visar upp stora förbättringar i BLEU-värden, i synnerhet när man använder ett litet ordvokabulär. Modellen utvärderas på översättning mellan engelska och tjeckiska.

Dessa är några av de presentationer som jag ser fram emot mest på årets ACL.

Detta inlägg finns också i en version på engelska på mogren.one/blog

Advertisements

One thought on “Framtidens maskinöversättning

  1. […] Lösningen är tilltalande, och tar bort några av de problem som är förknippade med de konventionella neurala modellerna som arbetar på ordnivå, men den kräver segmentering av ord som ett förbehandlingssteg, något som en teckenbaserad modell borde ha kunnat lära sig. (Se även mitt blogginlägg om de senaste trenderna i neural maskinöversättning). […]

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s