Extractor de datos de facturas
Este flujo automatiza el proceso de extracción de datos de facturas no estructuradas
+2
graph TD
%%{init: {'theme': 'mc','layout': 'elk'}}%%
ParseData-8kr6e[<div><img alt="logo" src="/_astro/braces.Djq0PW4_.svg" style="height: 20px !important;width: 20px !important"/></div>Parse Data]
style ParseData-8kr6e stroke:#a170ff
Prompt-0gsjq[<div><img alt="logo" src="/_astro/square-terminal.BMOXc-nZ.svg" style="height: 20px !important;width: 20px !important"/></div>Extractor de Informacion]
style Prompt-0gsjq stroke:#a170ff
OpenAIModel-m3qyl[<div><img alt="logo" src="/_astro/openAI.BhmuxEs3.svg" style="height: 20px !important;width: 20px !important"/></div>OpenAI]
style OpenAIModel-m3qyl stroke:#a170ff
TextInput-84vxn[<div><img alt="logo" src="/_astro/type.Dy26vmDy.svg" style="height: 20px !important;width: 20px !important"/></div>Text Input]
style TextInput-84vxn stroke:#a170ff
GDriveFilesComponent-7oth8[<div><img alt="logo" src="/_astro/google_drive.wKmDsV2c.svg" style="height: 20px !important;width: 20px !important"/></div>Drive File Manager]
style GDriveFilesComponent-7oth8 stroke:#a170ff
TextOutput-0lnck[<div><img alt="logo" src="/_astro/type.Dy26vmDy.svg" style="height: 20px !important;width: 20px !important"/></div>Text Output]
style TextOutput-0lnck stroke:#a170ff
ParseData-8kr6e -.- Prompt-0gsjq
linkStyle 0 stroke:#a170ff
Prompt-0gsjq -.- OpenAIModel-m3qyl
linkStyle 1 stroke:#a170ff
GDriveFilesComponent-7oth8 -.- ParseData-8kr6e
linkStyle 2 stroke:#a170ff
TextInput-84vxn -.- GDriveFilesComponent-7oth8
linkStyle 3 stroke:#a170ff
OpenAIModel-m3qyl -.- TextOutput-0lnck
linkStyle 4 stroke:#a170ff
📄 Documentación del flujo Extractor de datos de facturas
🧩 Descripción general
El flujo Extractor de datos de facturas automatiza la extracción de campos clave (número de factura, fechas, emisor, receptor, subtotales, impuestos y total) a partir de facturas en formato no estructurado. Inicia con la ingestión de un documento desde Google Drive, procesa su contenido, genera un prompt dirigido a un modelo OpenAI y devuelve la respuesta en formato de texto.
⚙️ Funcionalidades principales
- Ingreso del identificador de carpeta de Google Drive.
- Descarga y extracción de archivos de la carpeta especificada.
- Conversión del contenido de los archivos a texto plano.
- Generación dinámica de un prompt con el texto de la factura.
- Ejecución de un modelo de lenguaje OpenAI para extraer los campos solicitados.
- Presentación de la respuesta en la consola de Playground.
🔄 Pasos del flujo de trabajo
| Nombre del componente | Rol en el flujo | Entradas clave | Salidas clave |
|---|---|---|---|
| Texto de entrada | Recibir la ruta o ID de la carpeta de Google Drive | Texto (identificador de carpeta) | Texto |
| Gestor de archivos de Drive | Obtener el archivo de la carpeta indicada | ID de carpeta (folder_id_source) | Datos (contenido del archivo) |
| Conversión de datos | Transformar el contenido del archivo a texto | Datos (contenido del archivo) | Texto (contenido de la factura) |
| Generador de prompt | Construir el prompt de extracción con el texto de la factura | Texto (contenido de la factura) | Prompt (mensaje preparado para el modelo) |
| Modelo OpenAI | Ejecutar el modelo de lenguaje con el prompt | Prompt (mensaje) | Texto (respuesta del modelo) |
| Salida de texto | Mostrar el resultado en la consola | Texto (respuesta del modelo) | Texto (resultado final) |
Nota: El componente Etiqueta (LabelComponent) sirve únicamente para mostrar información descriptiva en la interfaz y no participa en la cadena de procesamiento.
🧠 Notas
- Se requiere una cuenta con acceso a Google Drive y credenciales válidas para la API de Google, además de una clave de API de OpenAI.
- El modelo de OpenAI se configura con gpt‑4o por defecto, aunque se puede cambiar mediante el campo Model Name.
- La extracción depende de la precisión del prompt; cualquier variación en el formato de la factura puede afectar los resultados.
- El flujo opera sobre archivos cuyo tipo sea compatible con la extracción (PDF, DOCX, TXT, etc.).
- La salida se entrega en texto plano; para formatos estructurados adicionales (JSON, CSV) se necesitaría una transformación posterior.