Videnskaben bag Raffle-lution: Søgning på naturligt sprog
Videnskaben bag Raffle-lution: Søgning på naturligt sprog
Videnskaben bag Raffle-lution: Søgning på naturligt sprog

Videnskaben bag Raffle-lution: Søgning på naturligt sprog

Hvad er NLP? Læs mere om naturlig sprogbehandling i Raffle , og hvordan softwaren forstår den kontekstuelle betydning af tekst.
Produkt
Læsetid:
Af
Raffle
INDHOLDSFORTEGNELSE

Opdag Raffle Søg

En AI-søgemaskine, der forenkler datahåndtering, analyse og insights for smartere forretningsbeslutninger og markedsstrategier.

Dette er den anden del af vores serie "Videnskaben bag Raffle-lution". Læs den første her.

Når vi tænker på lynhurtige søgefunktioner i dag, tænker vi på mestrene: Google. Med deres søgemaskine kan du søge på hele internettet med et enkelt klik på en knap.

Hvordan har de opnået dette? Søgemaskiner repræsenterer tekst i ethvert dokument (eller webside) med et indeks, som i sin enkleste form er en liste over alle de ord, der forekommer der. En samling af sådanne dokumenter repræsenteres med en dokument-term-matrix.

Denne matrix er normalt sparsom (indeholder mange nuller), fordi hvert dokument kun indeholder en lille delmængde af alle mulige ord; det betyder, at opslaget er ekstremt hurtigt. 

Google: Den ubestridte mester i internetsøgning.

Traditionel søgning har begrænsninger

Men et traditionelt søgeindeks er som at putte et dokuments ord i en pose og så ryste den. Den detaljerede betydning er væk.

Det kan vi delvist kompensere for ved ikke kun at gemme enkelte ord i posen, men også udtryk, der består af to eller flere ord, som for eksempel "New York".

Men det er ikke løsningen, fordi vi er nødt til at gemme mange forskellige termer. Googles søgeindeks gemmer mange termer - hvor mange vides ikke, men man kan få et indtryk af omfanget med Google Trends.

Fra sparsomme til tætte søgeindekser

Som omtalt i vores sidste blogindlæg bygger Raffle maskinlæringsløsninger til naturlig tekstsøgning på kontekstbevidste tekstrepræsentationer.

Så hvor den traditionelle søgetilgang er grundlæggende begrænset, kan maskinlæringstilgangen med tilstrækkelige træningsdata lære at opfange subtile kontekstuelle forskelle, der kan gøre forskellen i at finde de rigtige svar.

For nylig har Google foretaget en stor forbedring af søgeresultaterne på arbejdspladsen ved at bruge BERT i naturlige tekstsøgninger. Vi ser dette som en del af en overordnet tendens inden for søgning, hvorvi går fra de traditionelle sparsomme søgeindekser til indlærte tætte repræsentationer af dokumenter og forespørgsler. 

En ny måde at besvare spørgsmål på

I det seneste arbejde fra både Google og Facebooks AI-forskning ser vi denne tilgang til besvarelse af spørgsmål i stor skala ved hjælp af finjusterede BERT-modeller. Disse følger en totrinsproces:

  1. Hentning af dokumenter. Dokumenthenteren koder først hele vidensbasen (f.eks. hele Wikipedia!) til et par millioner tætte repræsentationer. Spørgsmålet kodes og baseres på et lighedsmål (indre produkt). De 5 til 10 bedste uddrag af vidensbasen sendes videre til svargenereringsfasen.‍
  2. Generering af svar. Svargeneratoren bruger uddragene fra vidensbasen sammen med spørgsmålet til at generere et svar enten ved at udtrække tekststykker fra uddragene eller ved hjælp af en generativ sprogmodel, der sammensætter svaret.

Raffle's produkter bruger en lignende dokumenthentningsmodel. Hvert hentet dokument er et svar i sig selv, så der er ikke behov for et modul til generering af svar. Vores "hemmelige sauce" er vores metode til at finjustere fra meget små mærkede datasæt. 

I det næste blogindlæg vil vi diskutere, hvordan open source NLP-frameworks kan fremskynde udviklingen af værdifulde naturlige tekstprodukter. 

Det sidste blogindlæg i denne serie vil handle om perspektiverne for NLP AI på mellemlang og lang sigt. Specifikt kan vi forvente at få virkelig kunstig intelligent samtale-AI, der er kontekstbevidst, faktuelt nøjagtig og ikke tilbøjelig til at opfange uønskede bias i data.     

Videnskaben bag Raffle-lution: Søgning på naturligt sprog
Videnskaben bag Raffle-lution: Søgning på naturligt sprog

Videnskaben bag Raffle-lution: Søgning på naturligt sprog

Hvad er NLP? Læs mere om naturlig sprogbehandling i Raffle , og hvordan softwaren forstår den kontekstuelle betydning af tekst.

Dette er den anden del af vores serie "Videnskaben bag Raffle-lution". Læs den første her.

Når vi tænker på lynhurtige søgefunktioner i dag, tænker vi på mestrene: Google. Med deres søgemaskine kan du søge på hele internettet med et enkelt klik på en knap.

Hvordan har de opnået dette? Søgemaskiner repræsenterer tekst i ethvert dokument (eller webside) med et indeks, som i sin enkleste form er en liste over alle de ord, der forekommer der. En samling af sådanne dokumenter repræsenteres med en dokument-term-matrix.

Denne matrix er normalt sparsom (indeholder mange nuller), fordi hvert dokument kun indeholder en lille delmængde af alle mulige ord; det betyder, at opslaget er ekstremt hurtigt. 

Google: Den ubestridte mester i internetsøgning.

Traditionel søgning har begrænsninger

Men et traditionelt søgeindeks er som at putte et dokuments ord i en pose og så ryste den. Den detaljerede betydning er væk.

Det kan vi delvist kompensere for ved ikke kun at gemme enkelte ord i posen, men også udtryk, der består af to eller flere ord, som for eksempel "New York".

Men det er ikke løsningen, fordi vi er nødt til at gemme mange forskellige termer. Googles søgeindeks gemmer mange termer - hvor mange vides ikke, men man kan få et indtryk af omfanget med Google Trends.

Fra sparsomme til tætte søgeindekser

Som omtalt i vores sidste blogindlæg bygger Raffle maskinlæringsløsninger til naturlig tekstsøgning på kontekstbevidste tekstrepræsentationer.

Så hvor den traditionelle søgetilgang er grundlæggende begrænset, kan maskinlæringstilgangen med tilstrækkelige træningsdata lære at opfange subtile kontekstuelle forskelle, der kan gøre forskellen i at finde de rigtige svar.

For nylig har Google foretaget en stor forbedring af søgeresultaterne på arbejdspladsen ved at bruge BERT i naturlige tekstsøgninger. Vi ser dette som en del af en overordnet tendens inden for søgning, hvorvi går fra de traditionelle sparsomme søgeindekser til indlærte tætte repræsentationer af dokumenter og forespørgsler. 

En ny måde at besvare spørgsmål på

I det seneste arbejde fra både Google og Facebooks AI-forskning ser vi denne tilgang til besvarelse af spørgsmål i stor skala ved hjælp af finjusterede BERT-modeller. Disse følger en totrinsproces:

  1. Hentning af dokumenter. Dokumenthenteren koder først hele vidensbasen (f.eks. hele Wikipedia!) til et par millioner tætte repræsentationer. Spørgsmålet kodes og baseres på et lighedsmål (indre produkt). De 5 til 10 bedste uddrag af vidensbasen sendes videre til svargenereringsfasen.‍
  2. Generering af svar. Svargeneratoren bruger uddragene fra vidensbasen sammen med spørgsmålet til at generere et svar enten ved at udtrække tekststykker fra uddragene eller ved hjælp af en generativ sprogmodel, der sammensætter svaret.

Raffle's produkter bruger en lignende dokumenthentningsmodel. Hvert hentet dokument er et svar i sig selv, så der er ikke behov for et modul til generering af svar. Vores "hemmelige sauce" er vores metode til at finjustere fra meget små mærkede datasæt. 

I det næste blogindlæg vil vi diskutere, hvordan open source NLP-frameworks kan fremskynde udviklingen af værdifulde naturlige tekstprodukter. 

Det sidste blogindlæg i denne serie vil handle om perspektiverne for NLP AI på mellemlang og lang sigt. Specifikt kan vi forvente at få virkelig kunstig intelligent samtale-AI, der er kontekstbevidst, faktuelt nøjagtig og ikke tilbøjelig til at opfange uønskede bias i data.     

Gå ikke glip af nogen opdatering!
SOC2-badge