31 marzo, 2025

El ingenioso plan de una empresa para impedir que los bots roben contenidos para entrenar a la IA

Cloudflare, proveedor de servicios web con sede en Estados Unidos, asegura haber encontrado una solución al llamado ‘web scraping’ (una técnica que se utiliza para extraer información de sitios web de manera automatizada): crear un “laberinto de IA” para atrapar bots (aplicaciones informáticas automatizadas que realizan tareas repetitivas en una red). Más concretamente, este laberinto está destinado a detectar los llamados ‘AI crawlers’, bots que sistemáticamente extraen datos del contenido de las páginas web y los retienen.

En un artículo de un blog publicado la semana pasada, la empresa afirmaba haber visto “una explosión de nuevos rastreadores utilizados por empresas de IA para extraer datos para el entrenamiento de modelos”. La inteligencia artificial generativa (genAI) requiere enormes bases de datos para entrenar sus modelos. Varias empresas tecnológicas, como OpenAI, Meta o Stability AI, han sido acusadas de extraer datos que incluyen contenidos protegidos por derechos de autor.

Para evitar este fenómeno, Cloudflare “enlazará a una serie de páginas generadas por IA lo suficientemente convincentes como para atraer a un crawler a recorrerlas” cuando detecte “actividad inapropiada de bots” para hacerles perder tiempo y recursos. “Queríamos crear una nueva forma de evitar a estos bots no deseados, sin dejarles saber que han sido bloqueados”, señaló la compañía, comparando el proceso con un señuelo, al tiempo que le ayuda a catalogar a estos actores nefastos.

Cloudflare se utiliza en alrededor del 20% de todos los sitios web, según las últimas estimaciones. El señuelo está hecho de contenido “real y relacionado con hechos científicos”, pero “no es relevante ni propio del sitio que se está rastreando”, se añade en el blog. También será invisible para los visitantes humanos y no afectará a la hora de adjudicar una referencia en la web, según la empresa.

Cada vez son más las voces que reclaman medidas más contundentes, incluso normativas, para proteger los contenidos del robo por parte de agentes de la IA. Los artistas visuales están estudiando cómo “envenenar” los modelos añadiendo una capa de datos que actúe como señuelo para la IA y, por tanto, preservando su estilo artístico al hacerlo más difícil de imitar por la genAI.

Se han explorado otros enfoques diferentes como, por ejemplo, varios acuerdos alcanzados por editores de noticias con empresas tecnológicas que aceptan permitir que la IA se entrene en su contenido a cambio de sumas no reveladas. Otros, como la agencia de noticias Reuters y varios artistas, han decidido llevar el asunto a los tribunales por la posible infracción de las leyes de derechos de autor.

Read Previous

Invita al evento “Domingo, Tu Familia es Primero” en el Parque El Colibrí

Read Next

Realizan Dodgers visorias en Ciudad Juárez

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *