Hvordan sprogmodellering har ændret NLP

Dette er det første af en serie på fire indlæg om teknologien bag Raffle produkter, fremtiden for AI og NLP.

Artikel

Læsetid:

Af

Raffle

INDHOLDSFORTEGNELSE

Opdag Raffle Søg

En AI-søgemaskine, der forenkler datahåndtering, analyse og insights for smartere forretningsbeslutninger og markedsstrategier.

Oplev nu

Dette er det første af en serie på fire indlæg om teknologien bag vores produkter, og hvad fremtiden har at byde på inden for AI og naturlig sprogbehandling. Læs mere i del to, treog fire.

Raffle laver AI-værktøjer til at realisere vores vision om at give medarbejdere eller slutbrugere problemfri adgang til virksomhedsinformation. Vi bruger NLP-maskinlæring (Natural Language Processing), så brugeren kan søge med naturlig tekst på samme måde, som man ville stille spørgsmål til mennesker.

Maskinlæring har brug for træningsdata for at fungere - og jo mere, jo bedre. At skabe data, f.eks. ved at mærke historiske forespørgsler (der forbinder dem med de rigtige svar), er tidskrævende og derfor dyrt og vil forsinke, hvornår din AI-løsning fungerer godt nok til at blive implementeret.

Så det lyder, som om naturlig tekstsøgning er uden for rækkevidde for virksomheder, der ikke har ressourcer til at skabe tilstrækkelige træningsdata. Men det er faktisk ikke længere tilfældet.

Før-træning for at opnå gevinster

‍NLPhar gjort store fremskridt i de senere år på grund af det, vi kalder prætræning.Det har virkelig været en game-changer i forhold til at opnå god performance med en mindre investering. For at forklare prætræning er vi nødt til at være lidt mere specifikke omkring, hvad vi mener med træningsdata, når vi taler om NLP:

Ikke-mærkede data. Det kan være tekstdata, vi indsamler fra internettet, eller tekst, der er tilgængelig i virksomheder. Der er praktisk talt ubegrænset adgang til umærkede data, men vi skal være forsigtige med, hvad vi bruger, fordi vores model vil lære af dem.

Mærkede data. Dette er dyre data. På raffle.ai består vores overvågede data af spørgsmål-svar-par. Vi skal derfor have adgang til et antal spørgsmål for hvert svar. Spørgsmålet kan komme fra historiske forespørgselslogfiler, indsamles live og mærkes på Raffle Insights eller endda konstrueres af vores interne AI-trænere for at starte modellen på et rimeligt præstationsniveau.

Sådan træner du din sprogmodel

‍Nåren sprogmodel er trænet, kan den "forstå" betydningen af sætninger. Eller mere præcist: Hvis vi tager to sætninger med samme betydning, vil deres repræsentationer være ens.

Det er et rigtig godt grundlag for at bygge andre NLP-applikationer, f.eks. et system til besvarelse af spørgsmål, fordi vi nu har en måde at repræsentere vores spørgsmål på, som på en robust måde afspejler, hvordan vi stiller dem.

Så NLP-applikationsopskriften à la 2020 er at:

Forudgående træning af en sprogmodel med umærkede data eller - endnu bedre - få en anden til at levere en for os
Finjuster på et lille mærket datasæt

Men hvordan udnytter vi store umærkede datasæt til at få repræsentationer, der lærer betydningen af sætninger? Nøglen her er konteksten: Et enkelt ord i en sætning får en del af sin betydning fra den omgivende tekst.

So if we train a model to predict a word given a context such as preceding words: “Josef walks his <fill in="">” or from surrounding words: “the cat <fill in=""> the mouse,” then the model is forced to learn a representation which is context-aware. </fill></fill>

‍BERTog mere til

Der findes mange sprogmodeller på markedet. En tidlig berømt model er word2vec. Et fascinerende resultat af dens repræsentationer er, at man kan lave tilnærmelsesvis aritmetik med dem, f.eks: "konge" - "mand" + "kvinde" ≈ "dronning".

I dag er den mest populære BERT, som er en forkortelse for Bidirectional Encoder Representations from Transformers. BERT er en maskeret sprogmodel, hvilket betyder, at modellens opgave er at forudsige et eller flere ord, der er blevet maskeret ud af inputtet, som vist i eksemplet nedenfor.

Som det ofte er tilfældet med deep learning, hjælper flere data og større modeller på ydeevnen. Den prætrænede BERT-model er en transformatormodel med 300 millioner parametre, der er trænet på hele Wikipedia og andre kilder.

Det lyder gigantisk, men det er faktisk muligt at sætte det i produktion og køre det uden mærkbar forsinkelse for brugeren. Du kan prøve det med Raffle i dag.

I det næste indlæg i denne serie vil vi se nærmere på, hvordan vi finjusterer for at løse opgaver med at besvare spørgsmål. Vi vil også se på en større tendens til, hvordan søgning ændrer sig.

Er du klar til at bruge NLP's kraft til at styrke dine kunder?

Tal med en af vores produktspecialister i dag for at få mere at vide om vores produkter.

Vis mig hvordan

Mere fra nyhedsrummet

Blog

10. juli 2024

Dansk Magisterforening på Raffle