Now, cloud is affordable

About the data:

– DB Size: 543 million rows

– Data Size: 173GB (uncompressed)

– Stored in mysql

– 200+ Million tweets from 13+ Million users

– Collected in 1 week

– Operation costs: 100+ dollars

– Rackspace Cloud – 1 CentOS 8GB Ram server

– Java, memcache, mysql and perl for core processing

– js, php for analytics & visualization

* Download the data at this url http://www.archive.org/details/2011-06-calufa-twitter-sql

En ocasiones requires de grandes volúmenes de datos para probar/jugar con diferentes herramientas, éste es un set de más de 500 millones de registros, que dan como resultado 173 GB (sin comprimir, 2GB ya comprimido):

http://www.archive.org/details/2011-06-calufa-twitter-sql

email

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Nube de etiquetas

A %d blogueros les gusta esto: