Inteligencia artificial

OpenAI lanza GPTBot: el rastreador que recopilará datos públicos de Internet para entrenar modelos de inteligencia artificial

OpenAI asegura que su sistema no accederá a contenidos privados o de pago, pero no dice nada del contenido de propiedad intelectual.
Mariia Shalabaieva de Unsplash

OpenAI se ha convertido en la empresa especializada en inteligencia artificial por excelencia. Desde que lanzó ChatGPT-3, muchas compañías se han sumado al boom del desarrollo de herramientas con este tipo de tecnología. Sin embargo, el modelo de lenguaje grande no es el único sistema que han creado, también tienen a DALL-E, un generador de imagen a partir de texto y, ahora, cuentan con GPTBot.

El nuevo proyecto de OpenAI es capaz de acceder a casi todos los contenidos de Internet, lo cual será ideal para el entrenamiento de los futuros modelos de IA que desarrollen. "El uso de GPTBot tiene el potencial de mejorar los modelos de IA existentes en aspectos como la precisión y la seguridad", detallan en un post de la web de la marca.

GPTBot será una especie de rastreador web de la firma para buscar datos públicos. Por muy preocupante que suene esto, OpenAI asegura que filtrarán las fuentes que requieran acceso a través de un muro de pago, eliminarán información personalmente identificable o texto que viole sus políticas.

La llegada de esta IA, pese a que no recopile información confidencial o de pago, ha recibido múltiples quejas por usar contenidos que podrían tener derechos de propiedad intelectual, como fotografías, vídeos, música, etc.

"El consentimiento no se otorga hasta que se indique explícitamente en forma afirmativa –opina uno de los internautas que debaten del asunto a través de HackerNews-. Intenta aplicar el concepto 'suponga que sí inicialmente, hasta que le digan lo contrario' para entrar en la casa de alguien o tocar el cuerpo de alguien y déjeme saber cómo funciona para ti".

En un principio, los usuarios podrán restringir que GPTBot entre en sus webs de forma manual, pero si no muestran su rechazo, el sistema será capaz de acceder al contenido:

  • Para identificar a GPTBot a través de su token de agente de usuario y su cadena de agente de usuario: 
    User agent token: GPTBot

    Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)


  • Si desean evitar que GPTBot acceda a una web pueden agregarlo al archivo .txt: 

    User-agent: GPTBot

    Disallow: /



  • Es posible controlar el acceso de GPTBot a algunos espacios de la web mediante códigos específicos en el archivo robot .txt: 

    User-agent: GPTBot

    Allow: /directorio-1/

    Disallow: /directorio-2/



Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

loading...