Flujo de Captura de contactos de Negocios
Busca negocios por nicho, filtra sitios oficiales, extrae datos clave mediante scraping y añade contactos verificados automáticamente a Google Sheets.
graph TD
%%{init: {'theme': 'mc','layout': 'elk'}}%%
SearXng-ntpo0[Web Search SearXng]
style SearXng-ntpo0 stroke:#a170ff
DeepseekModel-yd7iq[Deepseek]
style DeepseekModel-yd7iq stroke:#a170ff
CreateData-dfb3f[Create Data]
style CreateData-dfb3f stroke:#a170ff
Switch-56w06[Switch]
style Switch-56w06 stroke:#a170ff
WebScraper-p0rr5[Web Scraper]
style WebScraper-p0rr5 stroke:#a170ff
DeepseekModel-4gnpf[Deepseek2]
style DeepseekModel-4gnpf stroke:#a170ff
CreateData-p25ng[Create Data2]
style CreateData-p25ng stroke:#a170ff
TextInput-3uo52[<div><img alt="logo" src="/_astro/type.Dy26vmDy.svg" style="height: 20px !important;width: 20px !important"/></div>Cantidad de citios ]
style TextInput-3uo52 stroke:#a170ff
TextInput-wcn04[<div><img alt="logo" src="/_astro/type.Dy26vmDy.svg" style="height: 20px !important;width: 20px !important"/></div>Query]
style TextInput-wcn04 stroke:#a170ff
CreateData-taieq[Create Data3]
style CreateData-taieq stroke:#a170ff
Switch-44sfm[Switch2]
style Switch-44sfm stroke:#a170ff
AdvancedAgent-plvkg[Agent]
style AdvancedAgent-plvkg stroke:#a170ff
GSheetCellComponent-usi3o[Sheet Cells ]
style GSheetCellComponent-usi3o stroke:#a170ff
DeepseekModel-c77dx[Deepseek3]
style DeepseekModel-c77dx stroke:#a170ff
SearXng-ntpo0 -.- DeepseekModel-yd7iq
linkStyle 0 stroke:#a170ff
DeepseekModel-yd7iq -.- CreateData-dfb3f
linkStyle 1 stroke:#a170ff
CreateData-dfb3f -.- Switch-56w06
linkStyle 2 stroke:#a170ff
Switch-56w06 -.- WebScraper-p0rr5
linkStyle 3 stroke:#a170ff
WebScraper-p0rr5 -.- DeepseekModel-4gnpf
linkStyle 4 stroke:#a170ff
CreateData-p25ng -.- SearXng-ntpo0
linkStyle 5 stroke:#a170ff
TextInput-3uo52 -.- CreateData-p25ng
linkStyle 6 stroke:#a170ff
TextInput-wcn04 -.- CreateData-p25ng
linkStyle 7 stroke:#a170ff
DeepseekModel-4gnpf -.- CreateData-taieq
linkStyle 8 stroke:#a170ff
CreateData-taieq -.- Switch-44sfm
linkStyle 9 stroke:#a170ff
Switch-44sfm -.- AdvancedAgent-plvkg
linkStyle 10 stroke:#a170ff
GSheetCellComponent-usi3o -.- AdvancedAgent-plvkg
linkStyle 11 stroke:#a170ff
DeepseekModel-c77dx -.- AdvancedAgent-plvkg
linkStyle 12 stroke:#a170ff
Documento de flujo de trabajo: Captura automática de contactos de negocios
🧩 Descripción general
El flujo automatiza la búsqueda, filtrado y extracción de datos de negocios dentro de un nicho específico, y añade los contactos validados directamente a una hoja de cálculo de Google Sheets. Desde la entrada del tipo de negocio y la cantidad de sitios a consultar, la secuencia de componentes recupera la información relevante, verifica su autenticidad, extrae datos estructurados y los inserta en una tabla pre‑definida, proporcionando un proceso continuo y libre de intervención humana.
⚙️ Funcionalidades principales
- Recopilación masiva de sitios web relacionados con un nicho y ubicación definidos.
- Clasificación automática de los sitios para determinar su oficialidad.
- Extracción de datos de contacto (nombre, correo, teléfono, descripción) mediante scraping.
- Conversión de los datos extraídos en filas estructuradas listas para Google Sheets.
- Inserción de nuevas filas en la hoja de cálculo sin intervención manual.
🔄 Pasos del flujo de trabajo
| Nombre del componente | Rol en el flujo | Entradas clave | Salidas clave |
|---|---|---|---|
| Cantidad de citios | Obtener la cantidad de sitios a consultar. | Texto numérico introducido por el usuario. | Valor numérico que indica el número máximo de resultados. |
| Crear datos de búsqueda | Construir objeto de búsqueda con la cantidad proporcionada. | Valor numérico de “Cantidad de citios”. | Objeto con clave citios_cantidad y el número especificado. |
| Búsqueda Web (SearXng) | Ejecutar búsqueda en la web con la consulta del negocio y limitar los resultados. | Objeto de búsqueda, cadena de búsqueda (Query), número máximo de resultados (citios_cantidad). |
Lista de resultados que incluye title y url para cada sitio. |
| Clasificador de sitios | Determinar si cada sitio corresponde a la página oficial del negocio. | Lista de resultados con títulos y URLs. | Lista con una etiqueta (Sí o No) asociada a cada sitio. |
| Crear registro de sitio | Crear registro que combina etiqueta, nombre y URL. | Lista de resultados clasificados. | Lista de objetos con campos etiqueta, nombre_del_citio, url. |
| Filtro de sitio oficial | Filtrar solo los sitios marcados como oficiales (Sí). |
Lista de registros con etiqueta. | Lista filtrada de sitios oficiales. |
| Scraper Web | Extraer contenido de la URL del sitio oficial. | URL de cada sitio filtrado. | Contenido web en formato Markdown. |
| Extractor de datos | Extraer nombre comercial, correo, teléfono y descripción del contenido web. | Contenido Markdown de cada sitio. | Texto estructurado con nombre, correo, telefono, descripcion y url. |
| Crear fila para Sheets | Construir objeto de fila con los datos extraídos para la hoja de cálculo. | Texto estructurado con datos de negocio. | Objeto con claves de columna (option_nombre, option_correo, option_número_teléfono, option_descripción, option_url). |
| Filtro de resultado | Garantizar que la etiqueta no sea No (para evitar datos inválidos). |
Objeto de fila con datos de negocio. | Objeto de fila filtrado (en caso de que la etiqueta sea No, se descarta). |
| Agente avanzado | Ejecutar la acción de añadir la fila a Google Sheets utilizando la herramienta incorporada. | Objeto de fila y herramienta de gestión de Sheets. | Confirmación de la inserción y posible retorno de estado. |
| Gestión de Google Sheets | Añadir la fila a la hoja de cálculo especificada. | Objeto de fila con valores de columnas y configuración de hoja (nombre, rango, etc.). | Resultado de la operación en Google Sheets (éxito o error). |
🧠 Notas
- El flujo utiliza la herramienta SearXng para la búsqueda web y Deepseek para la clasificación y extracción de datos, evitando la necesidad de manejar APIs externas manualmente.
- Los pasos de filtrado mediante los componentes Filtro de sitio oficial y Filtro de resultado garantizan que solo se procesen sitios verificados y que los datos extraídos cumplan con los criterios de éxito.
- La herramienta Gestión de Google Sheets requiere credenciales válidas y la hoja de cálculo debe contener los encabezados correctos para que el mapeo de columnas sea automático.
- El agente avanzado permite añadir lógica adicional o manejo de excepciones si algún paso falla, pero el flujo está diseñado para ser robusto y detenerse ante salidas vacías.
- La arquitectura en modo Batch permite procesar varios sitios de manera paralela, optimizando el tiempo de ejecución sin sobrecargar los recursos.