Dokumentinformationsudtræk, der udføres af mennesker, skaber data, der består af et PDF- eller dokumentbillede-input og udtræk af strenge-output.
Disse end-to-end-data forbruges og produceres naturligt, når opgaven udføres, fordi de er værdifulde i sig selv. De er naturligvis tilgængelige uden ekstra omkostninger.
Desværre kan de nyeste ordklassifikationsmetoder til informationsudvinding ikke bruge disse data, men kræver i stedet etiketter på ordniveau, som er dyre at skabe og derfor ikke er tilgængelige for mange opgaver i det virkelige liv.
I denne artikel foreslår vi Attend, Copy, Parse-arkitekturen, en dyb neural netværksmodel, der kan trænes direkte på end-to-end-data, uden at der er behov for etiketter på ordniveau. Vi evaluerer den foreslåede arkitektur på et stort, forskelligartet sæt fakturaer og overgår et avanceret produktionssystem baseret på ordklassificering.
Vi mener, at vores foreslåede arkitektur kan bruges til mange virkelige informationsudtrækningsopgaver, hvor ordklassificering ikke kan bruges på grund af mangel på de nødvendige etiketter på ordniveau.