hadoop学习笔记


2 观看次数
825 字数
0 评论

1:基本概念

Hadoop Common :hadoop工具类
Hadoop Distributed File System:hdfs 分布式文件系统
Hadoop Yarn : 作业调度,资源管理
Hadoop MapReduce :计算引擎
master namenode:负责客户端的请求响应 元数据管理(文件名称,副本系数,block的存放的datanode)
slaves datanode:存储用户文件对应的数据块(block),定期向namenode发送心跳,汇报本身的资源信息

hadoop 进程模型 spark线程模型 有线程池
mapreduce:代码繁琐,执行效率低下,频繁开启销毁进程,不适合流式处理,不适合多次迭代(结果存储在磁盘)

2:基本操作

hadoop免密码登录

cd .ssh进入rsa公钥私钥文件存放的目录,删除目录下的id_rsa,id_rsa.pub文件。
在每台机上产生新的rsa公钥私钥文件,并统一拷贝到一个authorized_keys文件中.
ssh-keygen -t rsa  生成新的密钥
cat id_rsa.pub >> authorized_keys ,将id_rsa.pub公钥内容拷贝到authorized_keys文件中。(将集群下所有的密钥拷贝)
授权authorized_keys文件     chmod 600 authorized_keys
将授权文件分配到其他主机上  将nameNode上的授权文件拷贝至集群下的所有机器

3:配置

  • core-site.xml
fs.defaultFS nameNode的节点配置
hadoop.tmp.dir hadoop临时目录的配置
DataNode数据目录
          其中的一个或多个目录被DataNode用来存储HDFS块数据。DataNode假设所提供的每个目录都是一个单独的物理设备,具有独立的主轴,并且块在不同的磁盘之间流转存储。这些目录作为数据的长期存储地占用了大多数的磁盘空间,它们往往和Tasktracker中MapReduce的本地目录放在相同的设备上。
          
NameNode目录
          这些目录中的一个或多个被NameNode用来存储文件系统元数据。NameNode假设所提供的每个目录都是一个单独的物理设备,并会同步复制所有数据到所有磁盘,以确保数据在磁盘发生故障的情况下还可用。这些目录都需要相同大小的空间,通常不会超过100GB,通常这些目录中的某一个是NFS挂载,所以数据的写入可用跟物理无关。
          
MapReduce 本地目录
         在MapReduce作业运行时,TaskTracker使用这些目录中的一个或多个来存储临时数据。更多主轴通常意味着更好的性能,因为MapReduce任务之间的干扰较小。根据MapReduce作业的不同要求,存储量大小有所区别,但总的来说存储量不大,这些目录也常常与DataNode的数据目录放在相同的设备上。
         
Hadoop日志目录
         这是所有守护进程存储日志数据以及作业和任务级别数据的共用目录。Hadoop生成的日志数据量通常与集群的使用率成正比,更多的MapReduce作业意味着更多的日志。
         
Hadoop pid 目录
         这是所有守护进程存储pid文件的目录,其数据量非常小而且不增长。
        
Hadoop临时目录
          Hadoop需要一个临时目录,因为有时需要创建生存时间短的小文件,临时目录使用得最显著的是在MapReduce作业所提交到的机器,这些机器保留了一份最终发送到JobTracker的JAR文件。
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://hadoop000:8020</value>
</property>
<property>
   <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/app/tmp</value>
</property>

  • hdfs-site.xml
dfs.replication hadoop的副本系数配置
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
  • mapred-site.xml
mapreduce.framework.name   使用yarn来作为资源的管理调度
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
  • yarn-site.xml
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        <description>NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序</description>
</property>

4:格式化hadoop

hdfs namenode–format  初次使用必须格式化

5:启动

start-all.sh

6:基本命令

Hadoop fs -ls /
hadoop fs -mkdir /data
hadoop fs -put file dir
hadoop jar pi hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar 5 10

HadoopUI http://192.168.36.137:50070
yarnUI http://192.168.36.137:8088


评论区

还没有人评论

添加新评论