Hash-indlejringer til effektive ordrepræsentationer

Lær mere om hash-indlejringer, en effektiv metode til at repræsentere ord i en kontinuerlig vektorform.

Artikel

Læsetid:

Af

Dan Tito Svenstrup, Jonas Hansen, Ole Winther

INDHOLDSFORTEGNELSE

Opdag Raffle Søg

En AI-søgemaskine, der forenkler datahåndtering, analyse og insights for smartere forretningsbeslutninger og markedsstrategier.

Oplev nu

Konference: Fremskridt inden for neurale informationsbehandlingssystemer

En hash-indlejring kan ses som en interpolation mellem en standard ordindlejring og en ordindlejring, der er skabt ved hjælp af en tilfældig hash-funktion (hashtricket).

I hash-indlejringer er hvert token repræsenteret af endimensionale indlejringsvektorer og en endimensional vægtvektor. Den endelige dimensionelle repræsentation af tokenet er produktet af de to. I stedet for at tilpasse indlejringsvektorerne til hvert token, vælges de af hashtricket fra en fælles pulje af indlejringsvektorer.

Vores eksperimenter viser, at hash-indlejringer nemt kan håndtere store ordforråd bestående af millioner af tokens. Når man bruger en hash-indlejring, er det ikke nødvendigt at oprette en ordbog før træning eller udføre nogen form for beskæring af ordforrådet efter træning. Vi viser, at modeller, der er trænet ved hjælp af hash-indlejringer, udviser mindst samme præstationsniveau som modeller, der er trænet ved hjælp af almindelige indlejringer på tværs af en lang række opgaver.

Desuden er antallet af parametre, der er nødvendige for en sådan indlejring, kun en brøkdel af, hvad en almindelig indlejring kræver. Da standardindlejringer og indlejringer konstrueret ved hjælp af hashtricket blot er specialtilfælde af en hashindlejring, kan hashindlejringer betragtes som en udvidelse og forbedring i forhold til de eksisterende almindelige indlejringstyper.

Download

Mere fra nyhedsrummet

Artikel

4. november 2022

Lås op for dine medarbejderes produktivitet: Kom tilbage til det rigtige arbejde

Historie

20. marts 2023

Horesta på Raffle

Artikel

4. september 2023

11 måder, hvorpå generativ AI kan fremskynde onboarding-processen i kundeservice

Artikel

15. september 2023

CX-statistik for 2023

Hash-indlejringer til effektive ordrepræsentationer

Lær mere om hash-indlejringer, en effektiv metode til at repræsentere ord i en kontinuerlig vektorform.

Konference: Fremskridt inden for neurale informationsbehandlingssystemer

En hash-indlejring kan ses som en interpolation mellem en standard ordindlejring og en ordindlejring, der er skabt ved hjælp af en tilfældig hash-funktion (hashtricket).

I hash-indlejringer er hvert token repræsenteret af endimensionale indlejringsvektorer og en endimensional vægtvektor. Den endelige dimensionelle repræsentation af tokenet er produktet af de to. I stedet for at tilpasse indlejringsvektorerne til hvert token, vælges de af hashtricket fra en fælles pulje af indlejringsvektorer.

Vores eksperimenter viser, at hash-indlejringer nemt kan håndtere store ordforråd bestående af millioner af tokens. Når man bruger en hash-indlejring, er det ikke nødvendigt at oprette en ordbog før træning eller udføre nogen form for beskæring af ordforrådet efter træning. Vi viser, at modeller, der er trænet ved hjælp af hash-indlejringer, udviser mindst samme præstationsniveau som modeller, der er trænet ved hjælp af almindelige indlejringer på tværs af en lang række opgaver.

Desuden er antallet af parametre, der er nødvendige for en sådan indlejring, kun en brøkdel af, hvad en almindelig indlejring kræver. Da standardindlejringer og indlejringer konstrueret ved hjælp af hashtricket blot er specialtilfælde af en hashindlejring, kan hashindlejringer betragtes som en udvidelse og forbedring i forhold til de eksisterende almindelige indlejringstyper.

Download

Læs kundens historie