DOMANDA PDF

PIGIG

Nuovo Utente
98
0
Buona sera,

ho questa esigenza, ho un file PDF di una fattura, avrei bisogno di manipolarlo al fine di archiviare i dati imponibile, iva, totale, in un files tipo excel,

posso creare un programmino che mi acquisisce i dati?

Quale linguaggio devo usare?

Non devo modificare il pdf, ma solo trascrivere i dati in un archivio.

grazie.

buonasera
 

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
Buona sera,

ho questa esigenza, ho un file PDF di una fattura, avrei bisogno di manipolarlo al fine di archiviare i dati imponibile, iva, totale, in un files tipo excel,

posso creare un programmino che mi acquisisce i dati?

Quale linguaggio devo usare?

Non devo modificare il pdf, ma solo trascrivere i dati in un archivio.

grazie.

buonasera
Si, un file PDF è scritto in linguaggio postscript, ma non credo che valga la pena cimentarsi in un'impresa simile visto che esistono infinità di software che permettono di fare queste cose.


Inviato dal mio Nexus 5 utilizzando Tapatalk
 

Andretti60

Utente Èlite
6,440
5,091
Non hai specificato che sistema operativo usi e che linguaggio vuoi usare.

Esistono molte applicazioni che convertono un file PDF in un semplice file di testo, estraendo il testo e scartando la formattazione. Il formato PDF e' proprieta' di Adobe, quindi se cambiano il formato e' possibile che quelle applicaziono non funzionino piu'. Se pero' il file e' uno scan di un documento, il formato e' una immagine e quindi occorrono programmi piu' sofisticati che includono un algoritmo OCR (optical character recognition).
Esistono anche librerie che fanno quel lavoro, per esempio PyPDF2 e textract per Python. Poi ovviamenete devi scrivere un po' di codice per "trovare" e esportare i dati che vuoi. Non per nulla ho citato Python, e' un linguaggio apposta per questo tipo di operazioni.

Se il documento e' un documento di testo, puoi aprirlo con un qualsiasi Adobe PDF Reader, selezioni il testo che vuoi con il mouse e fai taglia e cuci su Excel :)

Insomma, in teoria e' possibile, ma non sara' certo un "programmino" di due righe.
 
  • Mi piace
Reazioni: enricovela

rctimelines

Utente Èlite
5,144
2,023
CPU
Ryzen 7 2700X | i7-6700k@4.5 | i5-4460... altri
Dissipatore
wraith MAX | Scythe Katana2|Arctic Freezer 11LP
Scheda Madre
Asrock B450 Fatal1ty 4K | Asus Prime Z270P | Acer Veriton
HDD
Samsung 970evo m.2 | vari | Samsung 860 evo
RAM
16GB G.Skill TridentZ 3000 | 16GB CORSAIR 2133 | 8GB DDR3 1600
GPU
RadeonPro WX3100 4G | ZOTAC GTX 1070 8G | Quadro k620 2G
Monitor
DELL 2419P 2K + Benq 17" | LG Ultrawide 27''
Net
fibra 1000
OS
Windows10-pro64/OpenSUSE-QL15.1/Debian 10.3
Il PDF è comunque un formato aperto e standard ISO (per volontà e interesse di Adobe che lo ha inventato e che ne possiede brevetti) per cui il problema di modifiche o cambiamenti radicali lo vedo molto remoto se non impossibile.

Le immagini vengono codificate semplicemente in jpg e, in effetti, se il documento viene prodotto da scanner la trasformazione diventa più difficile, anche se le capacità degli OCR oggi sono davvero notevoli e molti software di lettura di PDF li incorporano. Ci sono anche molti servizi online gratuiti per la conversione.

Personalmente sono anni che, per esigenze di lavoro, utilizzo Adobe Acrobat (che però costa un occhio) e ho tutte le funzionalità che mi servono senza alcuna limitazione. Mi capita spesso anche di aprire disegni in PDF con illustrator per convertirli in vettoriali per CAD.

Inviato dal mio Nexus 5 utilizzando Tapatalk
 

Mr. Coder

Nuovo Utente
43
10
Il linguaggio che ti consiglio, per questo tipo di programmi, è Python perché ci sono moltissime librerie facili da utilizzare e soprattutto documentate. Se il file in questione contiene del testo e non immagini (in quel caso come ti hanno detto sopra devi usare gli OCR), puoi utilizzare pdfminer (qui) per estrarre dati.
 

PIGIG

Nuovo Utente
98
0
Il files sono pdf che contengono fatture, da cui dovrei estrapolare imponibile, iva, totale, trattandosi di fatture di bollette o bisogno di estrapolare dati della fornitura, storico consumi, ecc.

Si puo' fare anche in java o vb? o solo python?
Grazie.
 

Mr. Coder

Nuovo Utente
43
10
Il programma puoi farlo con qualsiasi linguaggio di programmazione. La cosa che devi attenzionare nel tuo caso è la libreria esterna che utilizzerai per estrarre questi dati dal file pdf. Nel caso di Python ce ne sono molte e sono ampiamente documentate. Nel caso di java ho trovato la libreria pdfbox (qui), ma ti consiglio comunque di fare una ricerca su google per avere una panoramica generale (cerca "java pdf text extractor library" o qualcosa del genere)
 

PIGIG

Nuovo Utente
98
0
Ok grazie!

forse python è più facile e veloce.
però c'è qualche libreria in python oltre a pypdf2?
grazie!
 

Entra

oppure Accedi utilizzando
Discord Ufficiale Entra ora!

Discussioni Simili