
Den 7:e till 12:e augusti hölls den stora konferensen för Association of Computational Linguistics (ACL) vid Humboldt-universitetet i Berlin. I konferensen deltog cirka 1700 personer, och hundratals forskningsartiklar presenterades.
I det här blogginlägget tänkte jag ge en översikt över några av mina favoriter på ACL i år. Urvalet har gjorts utifrån mina personliga intryck från artiklarna och presentationerna.
Blogginlägget har också publicerats på engelska på mogren.one.
Read this post in English at mogren.one.
Måndag
Generating Factoid Questions with RNNs, Iulian Vlad Serban; Alberto García-Durán; Caglar Gulcehre; Sungjin Ahn; Sarath Chandar; Aaron Courville; Yoshua Bengio
Denna artikel presenterar ett stort korpus på 30 miljoner par av frågor och svar, avsedda att användas i utvecklingen av QA-system byggda med maskininlärning. Datan har skapats syntetiskt med hjälp av information från Freebase och en modell baserad på artificiella neurala nätverk (Wikipedia). Datan har utvärderats och jämförts med frågor som genererats av en enklare metod.
Iulian Serban gav en riktigt bra presentation, med en ganska kreativ lösning på ett intressant problem.
Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models, Minh-Thang Luong and Christopher D. Manning
Denna artikel presenterar en modell för maskinöversättning baserad på artificiella neurala nätverk (mer på engelska Wikipedia) där ord som inte finns med i systemets vokabulär (OOV för engelskans out-of-vocabulary) behandlas som en sekvens av tecken. På detta sätt visar man stora förbättringar över modeller som hanterar dessa ord genom att slå upp dem i en tabell.
När det dyker upp ett sådant OOV-ord, använder man en djup LSTM (mer på engelska Wikipedia) tränad på teckennivå. Det slutliga interna tillståndet som denna del beräknar används som representationen för detta OOV-ord. Man visar att de representationer som skapats på detta sätt är jämförbara med mer konventionella vektor-representationer för ord. Detta kommer som en ren bieffekt av inlärningen, ingen explicit inlärningssignal behövs för att detta ska ske.
Lösningen är tilltalande, och tar bort några av de problem som är förknippade med de konventionella neurala modellerna som arbetar på ordnivå, men den kräver segmentering av ord som ett förbehandlingssteg, något som en teckenbaserad modell borde ha kunnat lära sig. (Se även mitt blogginlägg om de senaste trenderna i neural maskinöversättning).
Improving Neural Machine Translation Models with Monolingual Data, Sennrich, Haddow, and Birch
Neurala modeller för maskinöversättning kan ses som språkmodeller (Wikipedia) betingade på en mening på källspråket. Denna artikel föreslår att vi kan förbättra systemet genom att träna det med syntetisk tvåspråkig parallell data. Denna skapar man genom att ta ett enspråkigt korpus i målspråket och översätter det tillbaka till källspråket (med vanlig maskinöversättning). När detta är gjort, används denna syntetiska parallelldata, blandat med äkta parallell data som skrivits av professionella översättare, för att träna översättningssystemet. Metoden förbättrar prestandan med upp till tre BLEU-enheter. Resultatet är intressant, eftersom det möjliggör ett slags “semi-supervised” (läs om detta på engelska Wikipedia) metod för att träna maskinöversättningssystem, och vi drar samma slutsats som vi är vana vid med neurala modeller: mer data är viktigare än att datan har hög kvalitet.
Together we stand: Siamese Networks for Similar Question Retrieval,
Arpita Das, Harish Yenala, Manoj Chinnakotla, and Manish Shrivastava
Denna artikel presenterar en modell baserad på convnets som beräknar representationer för inlägg i QA-system. Modellen använder en dubbel layout med bundna vikter och tränas med ett kontrastivt träningskriterie. Detta gör att man slår befintliga metoder som bygger på översättningsmodeller, och topic models. Den föreslagna metoden är ett ganska elegant sätt att lära sig liknande representationer för semantiskt liknande frågor, och en vettig metod för att hitta liknande inlägg i ett diskussionsforum.
I vår egen artikel, Assisting Discussion Forum Users using Deep Recurrent Neural Networks, som presenterades vid en workshop på torsdagen,
löser vi ett liknande problem, men i stället för convnets använder vi LSTMs för att representera foruminläggen. Läs mer (på engelska).
Tisdag
Neural Machine Translation of Rare Words with Subword Units, Rico Sennrich, Barry Haddow, and Alexandra Birch
Här presenteras en neural maskinöversättningsmodell (NMT) som fungerar på delar av ord för att komma förbi problemet med ord som inte ingår i ordförrådet (out-of-vocabulary, OOV). NMT-system får problem om man har för stort vokabulär, och i tidigare system har hanteringen av OOV-ord varit i bästa fall primitiva. Den aktuella lösningen bygger ett ordförråd med hjälp av “byte-pair encoding” (BPE) (läs om detta på engelska Wikipedia), en algoritm som kan användas för att dela upp ord i n-grams. Rico Sennrich sa att det kan ses som en “teckenbaserad modell som arbetar med komprimerad teckendata”. Detta är en av åtminstone tre olika artiklar som presenterar forskning om problemet med sällsynta ord i NMT-system under detta års ACL. Modellen är vettig, sällsynta ord behöver ingen speciell behandling efter segmenteringen av indatan, och modellen ger bra resultat. (Se även mitt blogginlägg om de senaste trenderna i neural maskinöversättning).
Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, William Hamilton, Jure Leskovec and Dan Jurfsky

Detta arbete presenterar en lösning som använder neurala vektorrepresentationer för ord för att spåra betydelseförändringar över tid, tillsammans med några intressanta iakttagelser.
A Character-Level Decoder without Explicit Segmentation for Neural Machine Translation, Junyoung Chung, Kyunghyun Cho, Yoshua Bengio
Denna artikel presenterar ytterligare en lösning på problemet med ovanliga ord i neural maskinöversättning. Liksom i modellen från Sennrich et.al. 2016 representeras indatan av delar av ord, beräknade med hjälp av “byte-pair encoding” (BPE) (läs om detta på engelska Wikipedia) men för att generera måltexten används en rent teckenbaserad modell. Traditionellt arbetar översättningssystem på ord-nivå, och neurala system kan fungera sämre om vokabuläret blir för stort. Detta är anledningen till att vi ser ett antal system som försöker råda bot på detta genom att modellera delar av ord, tecken, eller både och. (Se även mitt blogginlägg om de senaste trenderna i neural maskinöversättning).
Onsdag

ACL: s lifetime achivement award 2016 gavs till lingvistikprofessor Joan Bresnan från Stanford som gav ett fint tacktal om hennes transition från att se på naturligt språk genom linsen av formell grammatik till att arbeta med probabilistiska metoder för att modellera språk. Professor Bresnan doktorerade under handledning av Noam Chomsky (Wikipedia), och tillbringade den första delen av sitt akademiska liv med grammatiska formalismer, och på 1970-talet arbetade hon med att utveckla ett teoretiskt formellt grammatiskt ramverk kallat Lexical Functional Grammars, LFG (läs mer på engelska Wikipedia).
I sitt tal berättade hon hur hon för några år sedan fick ett uppvaknande då hon insåg att grammatiska regler kan vara oförenliga med varandra. Med tillgång till stora mängder datorläsbara texter, och med inspiration från artificiella neuronnät och visualiseringar av kvantitativa data, gjorde hon “språnget från trädgården [i lingvistik] till busken [datadriven forskning]”, som hon själv formulerade det. En av de första publikationerna efter denna övergång var “Predicting the dative alternation”
(PDF, web.stanford.edu).
On-line active reward learning for policy optimization in spoken dialogue systems (outstanding paper), Su, Gasic, Mrksic, Barahona, Ultes, Vandyke, Wen, Young
I ett målorienterat dialogsystem har användaren ett tydligt mål, men att träna ett policybaserat system för att ge användbara svar kräver ett bra kvalitetsmått. I denna artikel föreslås ett dialogsystem som bygger på reinforcement learning (mer på engelska Wikipedia) där belöningsfunktionen tränas samtidigt som policyn för dialogen. Belöningsfunktionen tränas för att modellera hur nöjd användaren är med interaktionen och policyn används för att generera svar.

Dialogen representeras internt av en vektorrepresentation som beräknas med hjälp av ett neuralt sekvens-till-sekvens-nätverk med dubbelriktade LSTM-enheter (mer på engelska Wikipedia), tränad som en autoencoder.
Policy-optimeringen får en liten negativ “belöning” på -1 för varje varv i dialogen, och en stor positiv belöning om slutförandet blir framgångsrikt. Utgången av dialogen modelleras som en gaussisk process (GP) (mer på engelska Wikipedia), och eftersom det kan vara tidskrävande och kostsamt att få explicit feedback från användare, så uppmanas användarna att ge sådan respons endast om GP-modellen är osäker. Denna feedback (kommer antingen från GP-modellen, i de fall då dess osäkerhetsuppskattning är låg, eller direkt från användaren) används därefter som belöningssignal för policyträningen.
Policyträningen använder en variant av SARSA-algoritmen (engelska: Reinforcement Learning Algorithms at UNSW), men artikeln är lite tunn på detaljer om hur policyn formuleras och hur dess optimering går till. BiLSTM-autoencodern används endast för att generera vektorrepresentationer för dialogen; man kunde föreställa sig bygga vidare på detta och låta den neurala modellen ta hand om en större del av jobbet. Men artikeln är välskriven, tanken är vettig, och presentationen på ACL var mycket bra!
Thorough examination of CNN/Daily Mail reading comprehention task (outstanding paper), Danqi Chen, Jason Bolton, Chris Manning
Ett välgjort arbete som inkluderar två metoder för att lösa CNN / Daily Mail reading comprehension task (maskinläsförståelse). Ett relativt enkelt grundsystem med en featurebaserad klassificerare slår de bästa tidigare kända lösningarna med mer än 5%, något som tyder på att svårare uppgifter för maskinläsförståelse behövs. Lustigt nog presenterades två relaterade datamängder vid ACL bara en dag före denna presentation: LAMBADA från Denis Paperno et.al. (PDF, aclweb.org) och WikiReading från Daniel Hewlett et.al. på Google Research (PDF, aclweb.org).
Datamängden CNN / Daily Mail innehåller artikeltexter ihopparat med frågor baserade på sammanfattningar i form av punktlistor från de webbsidor där de hämtades. Denna artikel presenterade också ett neuralt nätverk med en fokusmekanism (engelska: attention mechanism, läs mer på wildml.com), tränade för att bestämma en entitet. Detta slår baslinjen med en liten marginal. (Men kom ihåg att den enkla baslinjen slår tidigare rekordet med stor marginal)!
Artikeln är mycket välskriven, och presentationen var bra. Det är trevligt att se när man har lagt ner arbete på att skapa starka baslinjer.

Learning language games through interaction (outstanding paper), Sida Wang, Percy Liang, Chris Manning
Denna artikel presenterar ett system som lär sig att kommunicera med en användare baserat på ett spel inspirerat av det klassiska AI-programmet SHRDLU (mer på engelska Wikipedia) (Winograd 1972). Användaren ger kommandon på sitt eget språk som programmet ska utföra, och på så vis ska användaren och datorn samarbeta mot det gemensamma målet. Inledningsvis vet datorn inte någonting om det språk som används, eller om målet för interaktionen.
Detta är både en studie om hur datorer kan lära sig språk från ett interaktivt spel, liksom om hur människor agerar i en sådan miljö. Genom Mechanical Turk (mer på engelska Wikipedia) fick användare i uppdrag att interagera med systemet.
När programmet får ett kommando, använder det vad det har lärt sig hittills, föreslår möjliga åtgärder, och sen är det användarens uppgift att acceptera en av dem som korrekt.
Språkinlärningen använder n-grams (mer på engelska Wikipedia) i kombination med tree-grams för att representera parsningar. En log-linear model (mer på engelska Wikipedia) över så kallade logical forms
(mer på engelska Wikipedia) lär sig att tolka uttalanden.
Presentationen var underhållande, och problemet är intressant. Man har valt en ganska begränsad miljö, där man bara kan utföra vissa åtgärder (precis de åtgärder som är någorlunda intuitiva för användarna). Emellertid är det en snygg lösning, och analysen ger en inblick både gällande strategier från mänskliga spelare, och vad som bidrar till ett lyckat resultat av spelet. Systemet kan anpassas till olika språkbruk, men de bästa spelarna lär sig också från spelet och anpassar sig vilket gör att inlärningen går smidigare, exempelvis så skriver de mer konsekvent och använder mindre synonymer. Man kan se hur detta skulle kunna vara användbart för språkbaserade interaktioner i många riktiga applikationer.
Sammanfattningsvis
Massor av intressant forskning presenterades vid ACL 2016. Omkring 1700 personer deltog i konferensen, upp till sju sessioner löpte parallellt, och intresset från industrin inom området har vuxit enormt på sistone. Google, IBM, Amazon, Mendeley och Maluuba var några av de företag som närvarade med bås i utställningshallen.
Nästa år hålls ACL i Vancouver. Vi ses där!
Olof Mogren