miércoles, 10 de junio de 2009

Procesamiento Masivo y Escalable de Datos (con MapReduce (Hadoop) ) CLASE 3

Distributed Filesystem overview

Los sistemas de archivos distribuidos permiten el acceso a archivos por equipos remotos como si estuvieran alojados localmente, esto hace que multiples usuarios en diferentes máquinas puedan compartir y almacenar archivos.

NFS & AFS


NFS(Network File System)

En 1985 "Sun Microsystems" creó el sistema de archivos NFS, presentado con estandar Unix FS interface, NFS es "stateless", no guarda estados de lo las peticiones que recibió por un usuario, razón por la cual es muy rápido, esta también podría ser una desventaja porque no se podria tener un historial de las peticiones que hizo determinado usuario en algún momento.
NFS Bloquea los archivos cuando estan siendo usados por otros usuarios, permitiendo así mantener la consistencia de los archivos.
NFS no es escalable por las razones mencionadas anteriormente

AFS (The Andrew Filesystem)

Fué desarrollado por la universidad de Carnegie Mellon como parte del Andrew Project , AFS fue desarrollado como una mejora NFS, entre las cosas que implementa: Utiliza autentificación Kerberos, implementa listas de control de acceso en los directorios para usuarios y grupos.

GFS (The google Filesystem)

Google necesitaba un sistema de archivos distribuido, decidieron crear uno propio, basado en sus necesidades, las asumciones que consideró google para desarrollar este sistema de archivos fueron entre otras; las fallas de hardware son la norma, no la execpcion, para uso de archivos enormes y pocos archivos pequeños, los archivos normalmente serán escritos una sola vez y al final del archivo.

En la siguiente figura se muestra como trabaja este sistema de archivos .
Existe un GFS master, GFS chunck servers, GFS clients. Los archivos son guardados en los GFS chunck servers en chuncks de 64 MB, el master administra copias de estos chuncks entre chunk servers, e información sobre la dirección de cada copia, metadatos, y el namespace de los archivsos, el cliente pide un archivo al master, este le reponde la ubicacion del archivo en el chunck server, y ahora el cliente se comunica directamente con el chunck server para transmitir los datos, de esta namera no se crea un cuello de botella en el master.





No hay comentarios: