About Cacher
Web App
Download
Sign In
Sign Up
menu
Cacher is the code snippet organizer for pro developers
We empower you and your team to get more done, faster
Learn More
Akagi201
8/27/2014 - 4:47 AM
share
Share
add_circle_outline
Save
hadoop.md
hadoop.md
content_copy
file_download
Rendered
Source
Hadoop是什么
适合海量数据的分布式存储与计算平台.
海量指1T以上的数据.
Hadoop核心项目
HDFS: Hadoop Distributed File System, 分布式文件系统.
MapReduce: 并行计算框架.
HDFS的架构
主从结构
主节点, 只有一个: namenode
从节点, 有很多个: datanodes
namenode负责
接收用户操作请求.
维护文件系统的目录结构.
管理文件与block之间的关系, block与datanode之间关系.
datanode负责
存储文件.
文件被分成block存储在磁盘上.
为保证数据安全, 文件会有多个副本.
MapReduce的架构
主从结构
主节点, 只有一个: JobTracker.
从节点, 有很多个: TaskTrackers.
JobTracker负责
接收客户提交的计算任务.
把计算任务分给TaskTrackers执行.
监控TaskTracker的执行情况.
TaskTrackers负责:
执行JobTrackers分配的计算任务.
Hadoop的特点
扩容能力(Scalabel): 能可靠地(reliably)存储和处理千兆字节(PB)数据.
成本低(Economical): 可以通过普通机器组成的服务器群来分发以及处理数据. 这些服务器群总计可达数千节点.
高效率(Efficient): 通过分发数据, hadoop可以在数据所在的节点上并行地(parallel)处理它们, 这使得处理非常的快速.
可靠性(Reliable): hadoop能自动地维护数据的多份副本, 并且在任务失败后能自动地重新部署(redeploy)计算任务.
性能
40秒左右时间完成1TB随机数据的排序.
http://sortbenchmark.org/
clear