Los primeros días de Google y la feliz serendipia entre la búsqueda y el mecanismo de citas cientificas

A Google way of knowing

En 2006 se cumplieron los primeros 10 años de vida de Google, de la idea no la empresa, para eso habrá que esperar hasta el 2008. Aunque hay numerosos indicadores que muestran el enorme poder, capacidad de crecimiento y de transformación de Google en términos económicos, marketineros, cuantitativos y de reinvención de la red, son pocos los que hasta ahora se habian animado a hablar de una Google way of knowing (el modo de conocimiento al estilo Google). Es decir de la forma en que Google cambió al mundo

Porque a la hora de justipreciar la omnipresencia de Google en nuestra vida cotidiana, mas de un analista y teórico podría perfectamente imaginar que así como Visicalc y todas las hojas de calculo asociadas generaron una nueva epistemología, cual es la spreadsheet way of knowing tan bien teorizada por Steven Levy, ya era hora de que alguien hiciera algo parecido para Google probablemente el segundo capitulo en esta transformación prodigiosa de la manera en que diseñamos la información y en el camino reinventamos al mundo.

Quien ha iniciado ese postergado panegírico, aunque la obra destinada a tal fin adolece de algunos defectos, es nada mas ni nada menos John Battelle en su pretenciosa -pero no por ello menos bienvenida The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture.- de la que hicimos un somero recorte en la editorial La transformación googliana de la cultura

Un hijo de dos padres y un padrastro

Es ya hora de que retomemos al recorrido de Battelle en mayor detalle y nada mejor para ello que revisar de su mano algunos diálogos y encuentros con los fundadores de Google, y en particular conversar con un par de personajes conocidos nuestros que han impregnado en forma indeleble el formato actual de Google y probablemente sus mediamorfosis venideras.

Todos sabemos que Google es el hijo de dos padres y de un padrastro. De Sergei Brin, de Larry Page y de Eric Schmidt presidente y director ejecutivo. Los dos primeros tuvieron la idea, la llevaron a buen puerto desanclándola de una intuición académica y convirtiéndola en una empresa epocal, aunque en los inicios no estuvieran demasiado seguros de que estaban haciendo, aunque por milagro varias veces no se desprendieron de ella porque la tentación no fue suficientemente fuerte.

Subyacen a Yahoo ademas de los mil imponderables y caminos cruzados que presiden tanto empresas exitosas como fallidas dos inspiradores y un par de brillantes ideas. Los inspiradores son un prócer de la innovación llamado Nikola Tesla y uno de los padres intelectuales de Fernando Flores, el teórico de la computación Terry Winograd.

Tesla que murió en 1943 generó ideas de innovación sin fin. Desde la comunicación inalámbrica y los rayos X hasta las baterías solares y la actual red de transmisión eléctrica. Pero casi nadie conoce a Tesla y en cambio todos hacemos la apología de Thomas Edison quien finalmente fue la némesis de Tesla toda su vida.

Ejemplos que insuflan vidas

Larry Page leyó una biografía de Tesla a los 12 años y quedó sorprendido por la asimetría entre la capacidad innovadora de Tesla y su incapacidad en cuanto a convertir sus ideas en productos y servicios. Page quería -al igual que Tesla- inventar cosas desde muy joven, pero como Edison también quería cambiar al mundo y poner en manos de la gente productos que realmente modificaran de cuajo su vida.

Page junto con Sergey Brin lograron finalmente su propósito. Larry al filo de la adolescencia estaba dudando entre convertirse en un académico o fundar una compañía. Para nuestra regocijo logró hacer ambas cosas aunque el académico que es nada tiene que ver con los convencionales, y que el negocio que logró crear sea bastante distinto a todos los que nosotros supimos conocer.

Un amor/odio a primera vista

La primera vez que los confundadores de Google se toparon entre si fue en verano boreal de 1995 cuando Larry Page el nativo de Michigan, habiendo sido aceptado por la Universidad de Stanford hizo un tour por los alrededores de San Francisco como parte de la inducción de la universidad.

Quien hacía de cicerone de esa primera visita no era otro que Sergei Brin y aunque ambos se cayeron bastante mal mutuamente en ese primer encuentro, ya hemos visto demasiadas veces como el odio se transforma en amor -y viceversa- como para sorprendernos mucho de lo que sucedería después.

Cuando Page finalmente decidió aceptar la oferta de Stanford para contarlo entre sus alumnos eligió como tutor al segundo personaje clave de esta historia. Nada mas y nada menos que a Terry Winograd, una leyenda viviente de los estudios de interacción entre hombre y computadora y coautor en 1986 de un célebre trabajo con Fernando FloresUnderstanding Computers and Cognition: A New Foundation for Design Addison-Wesley, 1987 traducción castellana Hacia la Comprensión de la Informáatica y la Cognición: Ordenadores y concomiento: fundamentos para el diseño del siglo XXI, Editorial Hispano Europea, 1989, que nos influenciaría muy mucho a fines de los 80.

La topología de la red

Desde el primer día sabiendo que la elección de un tema muchas veces orienta una carrera entera, a Page se le volvió una obsesión elegir su objeto de doctorado. Nada casualmente y con la aprobacion de Winograd el tema elegido fue la propia WWW en el momento de su emergencia, circa 1996.

Pero antes de decidirse por averiguar lo que terminarían siendo los tesoros del funcionamiento de la red, Page había auscultado otros 10 temas mas y si se acercó a la web como objeto de análisis, no fue tanto porque a esa altura la web fuera sinónimo de negocios fulgurantes, sino porque le interesaban sobremanera algunas características matemáticas y topológicas de la red.

Hablando con Battelle, Page le insistió que los informáticos aman los grafos. Dado que cada computadora es un nodo, y que cada link en una pagina web es una conexión entre nodos, una clásica estructura de grafos, a Page se le antojaba en ese momento que la WWW podría ser el grafo mas grande jamas creado.

Links asimétricos y un mundo por descubrir

La primera intuición de Page fue que si bien era trivial seguir los links de una página a otro, no era nada trivial encontrar los links retroactivos. Dicho en criollo dada una página web es fácil saber hacia donde llevan sus referencias, pero es casi imposible (o al menos lo era antes de que se inventara Google) saber qué otras páginas remitían a la nuestra.

Si Page pudiera crear una herramienta que permitiera que los sitios descubrieran y declararan sus retroenlaces, la web se volveria seguramente un lugar mucho mas interesante, hasta llegar al prodigio que tenemos hoy.

Que Page entreviera esta posibilidad no era ajeno a su hasta entonces doble vocación de académico y entrepreneur. En el mundo de la ciencia nada es mas importante que publicar en revistas revisadas por pares. Pero además en el mundo académico una noción estratégica para posicionar a los autores es la de cita entendida como una referencia o listado de piezas claves de información acerca de un trabajo que permiten identificarlo y reubicarlo.

Las citas como una forma de vida

Las publicaciones académicas siguen los principios del método científico, demostrando conclusiones a partir de premisas, usando el razonamiento y citando los trabajos de otros autores. El proceso de citar a los demás le confiere a los trabajos propios un rango y una determinada autoridad y por ello cuanto mas citados son, mas poder y prestigio adquieren. Mientras no debemos olvidarnos de la noción de anotación -es decir los comentarios que hacemos de otras notas y artículos- que cierra el circuito.

Si hablando de los orígenes de Google recaemos en estas nociones es porque no debemos olvidarnos de los orígenes académicos de Internet, pero tampoco de la WWW. Así como Tim Berners-Lee quiso poner a disposición de los físicos miríadas de publicaciones difícilmente accesibles a través de métodos manuales, a lo que Brin & Page apuntaron fue a mejorar el método de acceso relativamente tosco propuesto por Berners-Lee para hacer dicha tarea.

En ambos casos lo que subtendió a los esfuerzos sucesivos de estos genios fue sacarle el máximo jugo posible al proceso de las citas, a la práctica de apuntar al trabajo de los demás para promocionar el de uno mismo (un entrelazamiento de egoísmo/altruismo que debe ser investigado en mucho mas detalle que lo logrado hasta ahora).

Un link es una cita y el texto que describe a ese link es una anotación

Desde los inicios de su trabajo Page tenía claro que toda la web estaba basada muy libremente en las ideas de cita y anotación. Después de todo ¿que es un link sino una cita y que era el texto que describía ese link sino una anotacion? Si se pudiera construir un método que contara y calificara cada retrolink en la web, el trabajo importante estaría hehco.

El proyecto que en ese momento desarrolló Page se llama backrub y consistía en descubrir links en la web, almacenarlos para analizarlos y republicarlos de modo tal que fuera posible que cualquiera pudiera ver quien linkeaba que a las páginas en cuestión. Si la idea es en si misma era ambiciosa, mucho mas lo era el universo descriptivo al que apuntaba Page: toda la web.

Porque para lograrlo había que revisar todos los links de una web que en 1995 tendría aproximadamente 10 millones de documentos con unos 10 links por pagina (aunque en realidad había muchos mas). Cuanto mas tardara Page en comenzar el trabajo mas grande seria su universo dado que en ese momento la web crecía al 2000% anual.

Serendipia inesperada

Entre las maravillas de esta reconstrucción histórica lograda por Battelle es haber descubierto que Page jamás había imaginando crear un motor de búsqueda, ni tenía la menor idea de que su trabajo de investigación podría tener la mas mínima aplicación práctica. Pero algo era claro si Page & Brin querían crear BackRub debían usar un robot que inventariaria a TODA la web.

Fue en marzo de 1996 cuando Page apuntó su robot a su propia página en la Universidad de Stanford, y allí empezó la verdadera historia de Google. Lo importante no era el robot -ya había muchos en ese momento- sino la abducción de Page que le permitió vincular el relevamiento (saber quien estaba vinculado con quien), sino la importancia de quien se linkeaba con quien basada en diversos atributos del sitio desde el que se hacia el linkeado.

Si BackRub lograba determinar la importancia de un sitio le podría dar un ranking relativo. De este modo para cada sitio se podría determinar no solo quien se estaba linkeando sino asimismo el ranking de esos links: la cantidad de links enunciada en la pagina del orígen.

No todos los links son iguales

Pero cada link necesitaba su propio rankeo basado en el conteo de links de la página original. Lo que implica el uso de una matemática recursiva muy sofisticada solo disponible gracias al genio de Brin. El y Page finalmente crearon un sistema de rankeo que favorecía a los links que provenían de fuentes importantes y penalizaban a las que no lo eran.

El algoritmo inventado fue bautizado PageRank en honor al apellido de Page y tomaba en cuenta tanto los links de un determinado sitio como todos los links que apuntaban a ese sitio. Se trataba de un concepto que reeditaba el sistema de las citas académicas y quiérase o no terminó funcionando de un modo espléndido. Aunque en el medio hubo mil y una variantes, ajustes y revisiones, los sitios mas populares terminarían arrasando con los primeros lugares del listado y los menos se hundirían en el fondo.

Pero una cosa era el concepto de BackRub y otra muy distinta imaginar que ese índice se convertiría en el Santo Grial de La Búsqueda. Por ello mismo ni Page ni Brin se anoticiaron de que estaban tan cerca de lograrlo. En la práctica BackRub funcionaba ya en sus inicios como un motor de búsqueda. Uno le daba un URL y el algoritmo devolvía una serie de retrolinks rankeados por nivel de importancia.

Fue en ese momento que los fundadores se dieron cuenta de que su algoritmo brindaban muchos mejores resultados que Altavista y Excite y allí fue que comprobaron que los motores tradicionales eran tremendamente ineficientes e ingenuos, al restringirse solo a la busqueda de texto atómico.

Un motor de resultados relevantes y escalables

Después de unas cuantas pruebas descubrieron que no solo los resultados obtenidos eran mucho mas relevantes que las de otros programas, sino que el motor también era escalable, por lo que al crecer vegetativamente la red su eficiencia sería cada vez mas palmaria. Fue por ello que se tiraron a la pileta y hostearon la primera versión de Google en la web de Stanford en Agosto 1996.

El éxito fue instantáneo pero también los problema que supusieron un consumo de ancho de banda que aun para Stanford fue enorme desde los inicios. Como toda saga esta comenzó con una computadora armada de partes como un buen bricolage, y en un dormitorio. Rápidamente pasaron a una Sun Ultra, y a mediados de 1996 habian bajado 24 millones de URL únicas con 100 millones de links y necesitaban 8 gigas solo para alojar 15% de las paginas existentes.

Mientras las quejas atiborraban a los administradores de Stanford dado que Google consumía la mitad de su total de ancho de banda, los administradores de los sitios visitados se sorprendían por la presencia de robots espías que supuestamente podrían estar clonando sus sitios, y muchos webmasters se ofendían porque sus sitios, muchas veces sólidos y bien documentados, no figuraban en el lugar de privilegio que creían merecer.

El encuentro con Kleinberg

A esa altura Page y Brin sabían que habían descubierto una mina de oro mientras que Page aún dudaba en tener que pronunciarse a favor de su alma académica o de la de enterpreneur. Por eso Page se alegró sobremanera cuando John Kleinberg en ese entonces investigador de IBM lo visitó en el verano de 1997 para comparar notas y estrategias sobre los motores de búsqueda.

Allí fue que dos potencias se saludaron e intercambiaron información, reconocimiento pero sobretodo combinaron esfuerzos para que en esta historia que estamos escribiendo 10 años mas tarde sus nombres quedaran inexorablemente asociados.

Kleinberg acababa de publicar Authoritative sources y le insistió a Page en que publicara sus brillantes ideas en el formato académico. Con Tesla siempre mirándolo por encima del hombro Page dudaba entre ser reconocido por sus pares académicos o regalar una idea que sería prontamente uno de los negocios del siglo.

Cuando finalmente se decidió a hacerlo y la presento al SIGIR-ACM su trabajo fue rechazado. Envalentonado Page volvio a la carga y finalmente publicó su paper seminal «The anatomy of a large scale hypertextual web search engine«, el mas citado en toda la historia de la web.

El resto es lo que hacemos todos los días, pero vale la pena investigarlo en cierto detalle. En algún momento lo haremos.

Material para profundizar

Amy N. Langville, Carl D. Meyer Google’s PageRank and Beyond: The Science of Search Engine Rankings

La infraestructura tecnologica de Google

The Economics of Google’s Hardware Infrastructure

How Google Grows…and Grows…and Grows