Hace varios días Google presentó un nuevo documento en el cual se detalla el sistema de ficheros que utiliza, este documento ha sido elaborado por algunos ingenieros de Google y no contiene datos de servicios cómo Writely, Calendar, Blogger o Googlepages.
Bigtable: A Distributed Storage System for Structured Data (PDF)
Resumen de Datos alamcenados en Google
Resumen datos almacenados por Google:
- 850 TeraBytes - Google Search
- 220 TeraBytes - Google Analytics
- 70.5 TeraBytes - Google Earth
- 9 TeraBytes - Orkut
- 4 TeraBytes - Personalized Search
- 2 TeraBytes - Google Base
El sistema de búsqueda de Google usa alrededor de 850TB de información (1 TB = 1024 GB), un número cercano a la cantidad de información que circula por Internet, por ejemplo Google Analytics utiliza 220 TB almacenados en dos tablas una de 200TB para datos y otra de 20TB para resúmenes.
Google Earth por su parte utiliza 70.5 TB: 70 TB para imágenes y 500 GB para la información indexada, la segunda tabla es relativamente pequeña, pero su carga es gigante unas 10.000 consultas por segundo y datacenter.
La búsqueda personalizada no necesita demasiado información solo 4 TB. "La búsqueda personalizada almacena la información de cada usuario con un único identificador de usuario que es asignado a un registro nombrado por ese identificador de usuarios, todas las acciones del usuarios son almacenadas en esa tabla."
Google Base usa 2 TB y Orkut sólo 9 TB.
Compresión de Datos

Si consideramos que toda esta información se encuentra comprimida con un índice de comprensión del 11%, los 800 TB mencionados menguarían hasta 88 TB. Google por lo tanto utiliza para todos los servicios mencionados anteriormente 220 TB comprimidos.
Un dato interesante sería saber que el tamaño de las imágenes utilizadas por Google Earth es casi igual al total de la información referente a páginas indexadas por Google.
Otros Datos
Rapidshare tiene unos 360 Terabytes de almacenamiento destinado a la recepción de archivos por parte de sus usuarios.
Si Google tiene 24 mil millones páginas y estos datos necesitan 850 TB, el tamaño medio de una página debe ser:
934.584.883.609.600/24.000.000.000 = 38.941 (38 K)
En este documento no se ofrecen datos acerca de Gmail pero si tuvieramos que hacer una estimación sobre el tamaño necesario para mantener este servicio, tendriamos que tener en cuenta unos 50 millones de usuarios cada uno con un almacenamiento de 2747 MB:
50,000,000 * 2747 =
* 1152175308800000000 bits
* 144021913600000000 bytes
* 140646400000000 kilobytes
* 137350000000 megabytes
* 134130859.37500 gigabytes
* 130987.167358 terabytes
* 127.9171556 petabytes
Si te interesan las bases de datos y cómo Google puede aspirar a organizar toda la información del mundo este documento es de lectura obligada.
How Much Data Does Google Store?
Bigtable: A Distributed Storage System for Structured Data (PDF)
Google afirma que el primer motor de búsqueda es MSN
Utiliza Linux en tu cuenta Gmail
Trucos para mejorar tu cuenta Gmail
Google Wayback Machine (histórico de páginas)
Un día de un servidor Google
Almacenamiento online y reproductor mp3 gratuito
Google es Dios
Enlaces Relacionados
- Googe Reader ahora tiene buscador
- 20 trucos para mejorar tus búsquedas en Google
- Google es Internet
- Buscando caras con Google
- Utiliza Google para no aburrirte
- El rediseño de la portada de Google requiere Javascript
- Google Experimental Search
- 10 cosas básicas antes de que Google te indexe
- Google Developer Day
- Nueva actualización del PageRank





Saben Que...
Me pregunto cuales serán las estretegias de Google ante una amenaza de virus, el área completa que ocupan todos sus servidores y el capital que implican todos ellos.. es interesante saber que mientras mas acaparan fuerzas en el mercado informático la mayoría de estos sitios aspiran a reforzar una especie de monopolio parecido al que tiene su vecino de Sistemas Operativos... Muchas Gracias
O.O SUPERFUERTE
Ni me lo pensaba que google tuvuiera tantos datos. te imaginas que desaparezca toda de golpe? dios mio...
Tambien estoy enterado que tiene 20.000 servidores por todo el mundo
Me gustaría saber que datos
Me gustaría saber que datos tiene de mis busquedas, de Gmail, de mis paseos por google maps (quien no ha buscado su tejado)...
En fin, todo eso que segun la L.P.I tienen que mostrarme si lo solicito. ¿Hay alguna direccion a la que pedirlos? Es más curiosidad que mala leche.
Me pregunto cuánto
Me pregunto cuánto destinarán a almacenar los mensajes de GMail, más sabiendo que Google no borra nunca los mensajes
¿Alguien podría currarse
¿Alguien podría currarse un gráfico de sectores con colores y en 3D tope chulo, y colgarlo en algún lado? Se podría tomar como unidad el "tamaño" medio de un disco duro domí©stico. Como esto no se puede medir en campos de fútbol...
Tengo que llevarme Internet
Tengo que llevarme Internet en un disquete.
Mi jefe me lo ha pedido para irse de viaje y me ha amenazado con despedirme por informático incompetente si no lo hago.
¿Me pueden dar la direcsión de Google para contactarles?
ES verdad Si Google caiera en malas manos...
Eso hace rato que me viene dando vuelta, vemos Google cada vez mas poderosos, aunque soy el primero en beneficiarme de sus servicios, si este sistema de alamcenamiento de informacion cae en manos mal intencionadas.... Pobre de nos...
Hay que mantener se atentos y vigilar cada cambio, cada movimiento...
Con tanto TB... ¿les dará
Con tanto TB... ¿les dará para almacenar todo el porno existente en el mundo? XD
Pero bueno, ahora al menos tengo una idea de cuanto ocupan todas las páginas publicas de Internet (la que google indexa).
Ahora solo me queda saber cuantos datos se transmiten por internet al dia (y quienes son los grandes consumidores y proveedores de datos)
Cuando google se convierta
Cuando google se convierta en el malo malísimo, todos nos achantaremos de todos los datos nuestros que podrá tener, espero que siga siendo bueno.
Me pregunto ¿cómo los
Me pregunto ¿cómo los harán?,¿quí© estrategia de backup/recuperación deben seguir? :O
Aparte de una política de almacenamiento "off-site" (que por cierto, saldría bastante cara si no la gestionan ellos mismos) imagino que estará "requeteduplicada" a nivel de centro de datos, al menos.
Sería interesante conocer esto tambií©n, ¿sabe alguien si existe alguna referencia sobre este tema?"Hay que venir llorado de casa..."
De todas formas en el caso
De todas formas en el caso de gmail, es distinto, si os fijais cada archivo adjunto (recordemos que es la mayoria del peso) tiene una especie de referencia, y si un usuario de gmail manda el mismo archivo a otro usuario de gmail, resulta que no se almacena 2 veces en su servidor, sino que lo unico que hace es mandarle es link a ese archivo alojado en los servidores.
Y no hace falta recordar que la mayoria del peso del 90% de la gente esta en presentaciones o videos de coña que se mandan unos a otros por lo tanto la capacidad de almacenamiento de esta forma se ve multiplicada. Esa es su gran ventaja y gracias a ello, a ese sistema de indexacion pueden ofrecernos tanto espacio.
Este dato quiza ayuda a
Este dato quiza ayuda a hacerse una idea de lo que estamos hablando.
Para hacer un test de rendimiento (un test!) utilizaron mas de 1700 maquinas con dos discos de 400 Gb cada maquina y con velocidades de 2 Ghz.
Esto si que es trabajar a lo grande.
Y solo estan empezando
Pues no digo nada, pero solo acaban de empezar. Cuando tengan rulando la suite ofimática, y la gente lo use a mocho, verás lo que es tener datos....
muy fuertee
Pues no se que decir, mas bien creo que no es tanto, por lo menos en el tema de gmail. tu tinenes ese tamaño de correo de forma virtual, practicamente nadie lo utiliza entero, por lo que creo y ademas estoy bastante seguro de no equivocarme, seguro que no necesitan ni un 20 % de lo que teoricamente se necesitaria. Sigue siendo flipante de todas formas.
Saludos.
www.eldiariosindiario.com
Jojojo
127 Pb... sin más xDD U_u... Orkut sólo 9 Tb... sólo... xD
Enviar un comentario nuevo