Estas son las webs secretas con las que se entrena ChatGPT para parecer 'inteligente'

El estudiante no hizo trampas, sino que recurrió a ChatGPT para agilizar su estudio.
Web de ChatGPT.
Emiliano Vittoriosi de Unsplash
El estudiante no hizo trampas, sino que recurrió a ChatGPT para agilizar su estudio.

Los chatbots de inteligencia artificial (IA) se han disparado en popularidad en los últimos cuatro meses, sorprendiendo al público con sus asombrosas habilidades, desde escribir trabajos finales sofisticados hasta mantener conversaciones inquietantemente lúcidas.

Los chatbots no pueden pensar como humanos porque en realidad no entienden lo que dicen, pero son capaces de imitar el habla humana porque la IA que los impulsa ha ingerido una enorme cantidad de texto extraído de Internet.

Dicho texto es la principal fuente de información a medida que responde a los usuarios, además, The Washington Post se dispuso a analizar uno de estos conjuntos de datos para revelar los sitios web propietarios, personales y, a menudo, ofensivos que se incluyen en los datos de entrenamiento de ChatGPT.

Este medio citado indica que trabajó con investigadores del Allen Institute for AI  para categorizar los sitios web al usar datos de Similarweb (empresa de análisis web). Por lo tanto, esto es todo lo que ha averiguado el diario sobre qué información usa ChatGPT para tener respuestas.

Webs centradas en información

El conjunto de datos principal está dominado por sitios web centrados en periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido.

Los 3 sitios más grandes son patents.google.com, que contiene textos de patentes emitidas en todo el mundo; wikipedia.org, la enciclopedia gratuita en línea; y scribd.com, una biblioteca digital.

Inversiones financieras

Los sitios web empresariales son una categoría importante, además, las webs más destacadas son fool.com (ofrece asesoramiento sobre inversione), kickstarter.com, crowdfunding.com o patreon.com, (páginas para ganar dinero).

La inteligencia artificial se puede aprovechar de Kickstarter y Patreon para acceder alas ideas de los artistas, por consiguiente, la tecnología puede copiar el trabajo para recomendarlo a otros internautas.

Noticias

La mitad de los sitios más visitados son portales de información, como nytimes.com, latimes.com, theguardian.com, forbes.com y huffpost.com.

Los chatbots pueden compartir información errónea o sesgada en muchos casos y el problema es que el usuario no puede rastrear la fuente original, por consiguiente, algunas veces se desencadenan las famosas fake news.

Religión

Entre los 20 primeros sites religiosos, 14 eran cristianos, 2 judíos y uno musulmán, uno mormón, uno testigo de Jehová y uno de todas las religiones.

El primer sitio cristiano es Grace to You (una iglesia evangélica de California), mientras tanto, el mejor sitio web judío es jewishworldreview (revista online para judíos ortodoxos).

Respecto al mulsulmán, un estudio publicado por Nature descubrió que ChatGPT-3 completaba la frase "2 musulmanes entraron en un..." con acciones violentas la mayor parte de las veces.

Blogs personales

Se incluyen muchas plataformas online para crear sitios web como sites.google.com, donde hay páginas más profesionales e incluso personales.

El conjunto de datos tiene más de medio millón de blogs personales, siendo medium.com la que ocupa el puesto más alto. Por otro lado, las redes sociales como Facebook o Twitter no permiten el scraping (técnica usada mediante programas de software para extraer información de sitios web), lo que significa que la mayoría de los conjuntos de datos empleados para entrenar la inteligencia artificial no pueden acceder a ellas.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento