Indexa Contenidos del Sitio Web Usando el Conector Amazon Q Web Crawler para Amazon Q Business

Elena Digital López

Amazon ha lanzado un nuevo servicio denominado Amazon Q Business, el cual permite a las empresas crear aplicaciones de chat interactivas utilizando los datos de la empresa. Este servicio administrado puede generar respuestas basadas en los datos proporcionados o en un modelo de lenguaje extenso (LLM). Es importante destacar que los datos del usuario no se emplean para entrenamiento, y las respuestas son generadas solamente con base en la información disponible para los usuarios.

La información empresarial se encuentra distribuida en diferentes fuentes, como documentos en Amazon Simple Storage Service (Amazon S3), motores de bases de datos y sitios web. La iniciativa de Amazon incluye la creación de una aplicación de Amazon Q Business y la indexación de contenido web utilizando el conector Amazon Q Web Crawler.

En los ejemplos presentados, se han utilizado dos fuentes de datos: una guía de incorporación de empleados de una empresa ficticia que requiere autenticación básica, y la documentación oficial de Amazon Q Business. Se han mostrado configuraciones avanzadas para que el Web Crawler indexe solamente páginas y enlaces relevantes, ignorando otros servicios de AWS.

El conector Amazon Q Web Crawler permite rastrear sitios web que utilicen HTTPS e indexar su contenido para crear experiencias de inteligencia artificial generativa. Este conector usa el paquete Selenium Web Crawler y un controlador Chromium, y se actualiza automáticamente sin intervención del usuario. El conector también rastrea e indexa el contenido de páginas web y adjuntos y permite configurar atributos personalizados para mejorar los resultados de búsqueda según la relevancia de los documentos.

Para configurar las fuentes de datos, es posible utilizar URLs o sitemaps, definir el acceso seguro a sitios web protegidos y especificar cómo y qué datos se sincronizan con Amazon Q Business. El proceso implica la creación y configuración de una aplicación, fuentes de datos y usuarios a través del Identity Center de IAM.

Este nuevo servicio abre una gama de posibilidades para utilizar inteligencia artificial generativa en las empresas, agilizando la integración y el acceso a la información distribuida en diversas plataformas digitales.
vía: AWS machine learning blog

Scroll al inicio