La IA y tus datos: millones de datos personales expuestos

La IA y tus datos: millones de datos personales expuestos

Publicado por JAGPER | en

Un equipo académico halló miles de imágenes de pasaportes, tarjetas de crédito, certificados de nacimiento y currículos con datos identificables en DataComp CommonPool, uno de los mayores conjuntos de entrenamiento de IA de código abierto para generación de imágenes. El estudio, publicado en arXiv, auditó solo el 0.1% del repositorio y estima que el volumen real de material con PII (información de identificación personal) podría ascender a cientos de millones de imágenes.

Según William Agnew, coautor y especialista en ética de IA en Carnegie Mellon, “todo lo que se publica en internet puede haber sido recolectado”. En el subconjunto revisado, los investigadores validaron miles de documentos de identidad (licencias de conducir, pasaportes, tarjetas) y más de 800 solicitudes de empleo con datos sensibles (discapacidad, verificación de antecedentes, fechas y lugares de nacimiento, raza), asociadas a personas reales mediante búsquedas en la web.

Por qué importa

  • Escala: CommonPool suma 12,800 millones de pares imagen-texto y fue presentado en 2023 como el mayor conjunto público de su tipo. Su licencia no prohíbe usos comerciales.

  • Herencia de datos: Es la continuación de LAION-5B, usado para entrenar modelos como Stable Diffusion y Midjourney, y se nutre del rastreo web de Common Crawl (2014-2022).

  • Efecto dominó: CommonPool se ha descargado más de dos millones de veces; los autores creen que ya hay numerosos modelos derivados entrenados con ese material, multiplicando riesgos de privacidad.

Filtros insuficientes

Los curadores de CommonPool aplicaron detección y desenfoque automático de rostros, pero el equipo encontró más de 800 rostros que el algoritmo no cubrió y estima que, a escala, se pasaron por alto 102 millones. Tampoco se aplicaron filtros para detectar cadenas típicas de PII (como correos o números oficiales). Además, el desenfoque es opcional y los pies de foto o metadatos pueden revelar nombres y ubicaciones.

Hugging Face, que aloja CommonPool, integra una herramienta para que las personas busquen y soliciten eliminación de su información, aunque esto exige saber primero que sus datos están ahí. Expertos legales advierten que, aun borrando datos del conjunto, el modelo ya entrenado puede mantener el efecto de esos ejemplos.

Consentimiento y legislación

Gran parte del material procede de antes de 2020, cuando los usuarios no podían prever que su contenido público se usaría para entrenar grandes modelos. Los investigadores también hallaron datos de menores en contextos que sugerían un destino limitado.

En el plano normativo, el RGPD europeo y la CCPA en California ofrecen marcos de protección, pero Estados Unidos carece de una ley federal de datos. Además, la noción de “información disponible públicamente” permite usos que muchos considerarían privados. Los autores piden replantear el rastreo indiscriminado de la web en la investigación de IA.

Publicación más antigua Publicación más reciente

Noticias

RSS
Tu músculo te espera

Tu músculo te espera

JAGPER |
Por JAGPER |

“Es como montar en bici”. La memoria muscular no solo vive en el cerebro: tus propios músculos también “recuerdan” el movimiento y el ejercicio. Cada...

Leer más
Trasplantes para la inmortalidad: promesas, límites y lo que sí avanza

Trasplantes para la inmortalidad: promesas, límites y lo que sí avanza

JAGPER |
Por JAGPER |

En redes circula un video de Xi Jinping y Vladimir Putin hablando de inmortalidad. Según la traducción, Xi (72) dice: “A los 70, todavía eres un...

Leer más