Extractor de datos de facturas
Este flujo automatiza el proceso de extracción de datos de facturas no estructuradas
+2
graph TD
%%{init: {'theme': 'mc','layout': 'elk'}}%%
ParseData-8kr6e[<div><img src="/_astro/braces.Djq0PW4_.svg" style="height: 20px !important;width: 20px !important"/></div>Parse Data]
style ParseData-8kr6e stroke:#a170ff
Prompt-0gsjq[<div><img src="/_astro/square-terminal.BMOXc-nZ.svg" style="height: 20px !important;width: 20px !important"/></div>Extractor de Informacion]
style Prompt-0gsjq stroke:#a170ff
OpenAIModel-m3qyl[<div><img src="/_astro/openAI.BhmuxEs3.svg" style="height: 20px !important;width: 20px !important"/></div>OpenAI]
style OpenAIModel-m3qyl stroke:#a170ff
TextInput-84vxn[<div><img src="/_astro/type.Dy26vmDy.svg" style="height: 20px !important;width: 20px !important"/></div>Text Input]
style TextInput-84vxn stroke:#a170ff
GDriveFilesComponent-7oth8[<div><img src="/_astro/google_drive.wKmDsV2c.svg" style="height: 20px !important;width: 20px !important"/></div>Drive File Manager]
style GDriveFilesComponent-7oth8 stroke:#a170ff
TextOutput-0lnck[<div><img src="/_astro/type.Dy26vmDy.svg" style="height: 20px !important;width: 20px !important"/></div>Text Output]
style TextOutput-0lnck stroke:#a170ff
ParseData-8kr6e -.- Prompt-0gsjq
linkStyle 0 stroke:#a170ff
Prompt-0gsjq -.- OpenAIModel-m3qyl
linkStyle 1 stroke:#a170ff
GDriveFilesComponent-7oth8 -.- ParseData-8kr6e
linkStyle 2 stroke:#a170ff
TextInput-84vxn -.- GDriveFilesComponent-7oth8
linkStyle 3 stroke:#a170ff
OpenAIModel-m3qyl -.- TextOutput-0lnck
linkStyle 4 stroke:#a170ff
Extractor de Datos de Facturas
🧩 Descripción General
Este flujo de trabajo automatiza la extracción de datos estructurados a partir de documentos de facturas no estructurados. Ingiere un archivo de factura desde una fuente como Google Drive, procesa su contenido y utiliza un modelo de lenguaje grande para identificar y generar con precisión campos clave como números de factura, fechas, detalles del remitente y del destinatario, y totales financieros. Este proceso transforma los datos brutos del documento en un formato estructurado y limpio, adecuado para análisis posteriores o mantenimiento de registros.
⚙️ Características Principales
- Recupera automáticamente archivos de facturas desde una carpeta específica de Google Drive.
- Convierte los datos brutos del archivo en texto plano para su procesamiento.
- Utiliza un mensaje detallado y estructurado para guiar a un modelo de IA en la extracción de campos específicos de la factura.
- Genera los datos estructurados extraídos en un formato claro y legible.
🔄 Pasos del Flujo de Trabajo
| Nombre del Componente | Función en el Flujo de Trabajo | Entradas Clave | Salidas Clave |
|---|---|---|---|
| Entrada de Texto | Proporciona la URL de la carpeta de Google Drive que contiene el archivo de la factura. | URL de la Carpeta | URL de la Carpeta |
| Administrador de Archivos de Drive | Recupera el archivo de la factura desde la carpeta especificada de Google Drive. | URL de la Carpeta | Datos Brutos del Archivo |
| Analizar Datos | Convierte los datos brutos del archivo en texto plano para que el modelo de IA pueda leerlo. | Datos Brutos del Archivo | Datos de Texto de la Factura |
| Extractor de Información (Prompt) | Construye una instrucción detallada para el modelo de IA, especificando qué puntos de datos extraer del texto de la factura. | Datos de Texto de la Factura | Prompt de Extracción Estructurada |
| Modelo OpenAI | Analiza el texto de la factura utilizando el prompt proporcionado y extrae los datos estructurados solicitados. | Prompt de Extracción Estructurada | Datos de Factura Extraídos |
| Salida de Texto | Muestra los datos estructurados finales de la factura extraídos por el modelo de IA. | Datos de Factura Extraídos | Salida Estructurada Final |
🧠 Notas
- El flujo de trabajo está diseñado para manejar documentos de facturas no estructurados, como PDFs o imágenes, convirtiéndolos primero en texto.
- La precisión de la extracción de datos depende de la calidad del documento fuente y de la claridad de la conversión de texto.
- Se requiere una clave API válida de OpenAI y credenciales de Google Drive para que los respectivos componentes funcionen.
- El modelo está configurado para una salida determinista con una temperatura baja para garantizar resultados de extracción consistentes.