In un esempio, ha mostrato un modulo con le tabelle. L'OCR regolare non riconosceva la tabella e la interpretava come una stringa di testo. Textract è progettato per riconoscere elementi di pagina comuni come una tabella e tirare i dati in modo sensato.
Jassy ha detto che anche le forme cambiano spesso, e se si utilizza un modello come soluzione per la mancanza di intelligenza di OCR, il modello si rompe se si sposta qualcosa. Per risolvere il problema, Textract è abbastanza intelligente da comprendere tipi di dati comuni come numeri di previdenza sociale, date di nascita e indirizzi e li interpreta correttamente, indipendentemente da dove cadono sulla pagina.
"Abbiamo insegnato a Textract a riconoscere che questa serie di personaggi è una data di nascita e questo è un numero di previdenza sociale. Se le forme cambiano, Textract non mancherà ", ha spiegato Jassy.
Rimani aggiornato seguici su Telegram
loading...