Imagina que quieres aprender a cocinar el mejor plato del mundo. Tienes al chef más inteligente de la historia a tu lado, la inteligencia artificial (IA). Pero hay un problema, a ese chef solo le dieron libros de cocina de Europa y Estados Unidos. Sabe hacer una hamburguesa perfecta y una pasta increíble, pero no tiene ni idea de qué es el curry, el sushi o un taco.
Por muy genio que sea el chef, su creatividad está limitada por su biblioteca.
Esto es lo que pasa hoy en el mundo de la biotecnología y la IA, y el caso de la empresa Basecamp Research acaba de demostrar una verdad incómoda: en la era de la IA, el algoritmo es el motor, pero los datos son el combustible. Y quien controla el combustible, controla el destino.
El problema de la "Biblioteca Pública"
Hasta hace poco, herramientas famosas como AlphaFold de Google o los modelos de lenguaje tipo GPT aprendían de bases de datos públicas. Es como si todos estudiaran en la misma biblioteca municipal.
En biología, esas bases de datos públicas donde los científicos suben sus descubrimientos están sesgadas. La mayoría de la información proviene de organismos que son fáciles de cultivar en un laboratorio, como la bacteria E. coli, ratones o seres humanos.
Pero la naturaleza es infinitamente más vasta. Hay bacterias en los volcanes de Islandia, hongos en la selva amazónica y microbios en el fondo del océano que tienen superpoderes evolutivos que la ciencia "oficial" desconoce. Esas criaturas tienen instrucciones genéticas, o ADN, capaces de resistir calores extremos o devorar plástico, pero como no están en la base de datos pública, para la IA "normal" no existen.
El "Walled Garden": cerrando las puertas del paraíso
Aquí es donde entra el concepto del "Walled Garden" o Jardín Vallado. Basecamp Research no compite haciendo un cerebro digital más rápido. Lo que construyeron fue una salida al mundo real. Durante años, enviaron expediciones a recolectar muestras de biodiversidad en los lugares más remotos del planeta. Así, crearon su propia biblioteca privada, llamada BaseData.
El resultado es impactante, ya que afirman poseer 100 veces más diversidad genética que las bases de datos públicas que usa todo el mundo.
Cuando entrenaron a su nueva IA, llamada EDEN, con estos datos exclusivos, el resultado fue superior a lo que existía. EDEN no es "más lista" que la IA de Google o Meta sino que leyó libros que los demás ni siquiera saben que existen.
Los datos como el nuevo petróleo
Esta situación confirma la frase que llevamos años escuchando: "los datos son el nuevo petróleo". El paralelismo presenta un recurso finito y difícil de extraer, al igual que hay que perforar la tierra para sacar petróleo, hay que ir a la selva y secuenciar ADN para obtener estos datos. No están en Internet esperando a ser descargados.
Además, quien lo tiene, gana. Se puede tener la mejor refinería del mundo lo que se traduce como el mejor superordenador de NVIDIA, pero si no se posee el crudo, traducido a datos de calidad, no se produce nada.
La generación de monopolios es otro de los puntos en común. Si los descubrimientos de nuevos medicamentos dependen de datos que solo una empresa tiene, esa empresa se convierte en un guardián. La ciencia, que idealmente debería ser abierta y colaborativa, se vuelve un secreto industrial.
¿Qué significa esto para el futuro?
El caso de EDEN nos enseña que la próxima gran revolución en medicinas o materiales no vendrá solo de programadores en Silicon Valley escribiendo código. Vendrá de quien tenga el mapa más completo de la realidad.
Pasamos de una era donde la ventaja era tener el mejor software, a una era donde la ventaja es tener la mejor verdad.
Basecamp Research demostró que si se diseña una enzima para curar una enfermedad genética, no basta con preguntar a la IA. Se debe interrogar a la IA que "viajó", a través de sus datos, a los rincones ocultos de la evolución.
El mensaje es claro: en el futuro de la IA, el algoritmo es el rey, pero los datos son el reino. Y parece que ese reino, cada vez más, tendrá dueños privados y muros altos.
Las cosas como son.