必赢亚洲手机app下载


那帮人也就那屌样

了不起的马二毛必赢亚洲手机app

必赢亚洲手机app技艺点汇总

目录

· 概况

    · Hadoop

    · 云计算

    · 大数据

    · 数量挖掘

· 手工业搭建集群

    · 引言

    · 配备机器名

    · 调控时间

    · 制造用户

    · 安装JDK

    · 安排文件

    · 运维与测试

· Cloudera
Manager

· 原理

    · Hadoop架构

· 质量调优

    · 硬件选型

    · 操作系统调优

    · JVM调优

    · Hadoop参数调优


 

概况

Hadoop

一.
ASF(Apache软件基金会)给出定义:Hadoop软件库是贰个框架,允许在集群中行使轻松的编制程序模型对常见数据集进行分布式总计。

  1. Hadoop生态圈

必赢亚洲手机app 1

    a) Hadoop
Common:Hadoop种类最尾巴部分的模块(基础模块),为Hadoop各子项目提供系统布局工具Configuration、远程进程调用RPC、体系化学工业机械制和日志操作等。

    b) HDFS:Hadoop Distributed File
System是怀有惊人容错性的文件系统,适合布局在优惠机器上。HDFS提供高吞吐量的数据访问,卓殊适合大规模数据集上的施用。

    c) YACRUISERN:Yet Another Resource
Negotiator是统1能源管理和调度平台,消除了上一代Hadoop财富利用率低和不相配异构计算框架等两种难题,提供能源隔开方案和双调度器的贯彻。

    d)
MapReduce:一种编制程序模型,利用函数式编程思想,将数据集处理进程分为Map和Reduce多个级次,分外适合举行分布式总结。支持Java、C++、Python、PHP等种种语言。

    e)
斯Parker:加州Berkeley大学AMP实验室开采的新一代总计框架,对迭代划算很有优势,比MapReduce品质晋级鲜明。

    f) HBase:来源于GoogleBigtable随想,是2个分布式、面向列族的开源数据库。擅长大规模数据的自由、实时读写访问。

    g) ZooKeeper:基于法斯特Paxos算法,消除了分布式系统中的1致性难题,提供配置维护、名称服务、分布式同步、组服务等。

    h)
Hive:由推特(Twitter)(Facebook)开荒,基于Hadoop的数据货仓工具,将结构化数据文件映射成一张表,提供SQL查询作用,并将SQL转换为MapReduce运维。学习开支低,大大下降了Hadoop的使用门槛。

    i)
Pig:与Hive类似,不提供SQL接口,而提供高层的、面向世界的空洞语言Pig
Latin,并将Pig Latin转为MapReduce运营。与SQL相比较,Pig
Latin更加灵敏,但读书费用稍高。

    j)
Impala:由Cloudera开辟,对存款和储蓄在HDFS、HBase的雅量数据提供交互式查询SQL接口。Impala未依据MapReduce,定位是OLAP,是谷歌新三架马车之1Dremel的开源实现,因而质量大幅抢先于Hive。

    k)
Mahout:机器学习和数据挖掘库,利用MapReduce编制程序模型达成了k-means、Native
Bayes、Collaborative Filtering等卓绝机器学习算法,并具备杰出的扩充性。

    l)
Flume:由Cloudera提供的高可用、高可信、分布式的雅量日志收罗、聚合和传导系统,协理在日记系统中定制种种数据发送方,用于收罗数据;提供数据轻松处理,并写到各样数据接受方(可定制)。

    m) Sqoop:SQL to
Hadoop的缩写,效率于在结构化的多少存款和储蓄(关全面据库)与HDFS、Hive之间进行数量双向交换。导入、导出都由MapReduce总计框架达成并行化,分外飞快。

    n)
卡夫卡:高吞吐量、高可用、分布式揭橥订阅音讯系统,在大数据系统被大面积选拔。假如把大数量平台比作1台Computer,那么卡夫卡音讯中间件类似于前者总线,它连接平台各组件。

  1. Hadoop三大厂家及其发行版

    a) Cloudera:CDH,生产条件装机量最大学本科子。

    b) Houtonworks:HDP。

    c) MapR:MapR

云计算

1.
NIST(U.S.国标技能切磋院)给出定义:云总计是1种能够因此互联网方便地衔接共享财富池,按需获得计算财富(包蕴互连网、服务器、存款和储蓄、应用、服务等)的劳务模型。共享财富池中的能源能够透过较少的治本代价和归纳业务交互进度而连忙陈设和发布。

  1. 云总计特点:

    a)
按需提供服务:以劳动的花样为用户提供应用程序、数据存款和储蓄、基础设备等能源,并可依照用户要求自动分配能源,而不供给系统一管理理员干预。

    b)
宽带网络访问:用户能够使用各样极端设备(如PC机、笔记本Computer、智能手提式有线电电话机等)随时四处通过网络访问云计算财富。

    c)
财富池化:能源以共享能源池的不二等秘书诀统一管理。利用虚拟化才具,将财富分享给不一致用户,财富的放置、管理与分配政策对用户透明。

    d)
高可伸缩性:服务的层面可高效伸缩,以活动适应职业负载的动态变化。用户选拔的能源同业务的须求相平等,制止因为服务器质量过载或冗余而招致的服务质量下跌或财富浪费。

    e)
可量化的服务:云总结核心都足以通过监督软件监察和控制用户的应用意况,并依照财富的利用状态对外服务计费。

    f) 大规模:承载云总括的集群一般都有所超大规模。

    g)
服务最佳廉价:“云”的特殊容错机制使得可以行使廉价节点构建;“云”的自动化管理使数码大旨管理资金财产小幅减退;“云”的公用性和通用性使财富利用率大幅度升高;“云”设施可建在电力增长的地区,从而大幅度回落能用开支。

  1. 云计算服务类型

    a) Iaas:Infrastructure as a
Service,云计算架构最尾部,利用虚拟化技艺将硬件配备等基础能源封装成服务供用户使用,用户也正是在使用裸机。典型虚拟化产品VMware
vShpere、微软Hyper-V、开源KVM、开源Xen、亚马逊(Amazon)EC2/S三运用的是Xen本领;Docker。

    b) PaaS:Platform as a
Service,对财富更进一步抽象,提供用户应用程序的应用环境。例如谷歌(Google) App
Engine。

    c) SaaS:Software as a
Service,将或多或少特定应用程式功效封装成服务。例如Salesforce CHavalM服务。

  1. Hadoop与云总计:Hadoop具备云总结PaaS层的具有特点。

    a)
HDFS抽象了装有硬件财富,使其对用户透明,并提供数据冗余、自动灾备、动态扩充裁减节点成效。

    b)
Hadoop提供Java、C++、Python等运转条件,参照MapReduce编制程序模型就可以实现应用开辟,用户无需思虑各节点之间合作。

大数据

壹.
麦肯锡给出定义:大数目指所涉及的数额集规模已经超(Jing Chao)越了观念数据库软件取得、存储、管理和分析的力量。

  1. IBM给出特点(叁V)

    a)
数据量(Volume):从TB等第转向PB品级,并不可制止转向ZB品级。随着可供集团采纳的数据量不断增强,可处理、通晓和剖析的数据比例却连连回落。

    b) 八种性(Variety):结构化、半结构化和非结构化数据。

    c) 速度(Velocity):数据增加速率。

  1. 大数据结构类型

 必赢亚洲手机app 2

    a)
结构化数据:包含预约义的数据类型、格式和布局的多寡,例如关周全据库表数据。

    b)
半结构化数据:具有可识别的方式并能够分析的文件数据文件,例如XML数据。

    c)
非结构化数据:未有永久结构的数码,平时保存为不一样的连串文件,例如文本文书档案、PDF、图像、录制。

4.
大数据变革:大数量变革和人类经历过的多少次革命最大不一致在于产生得沉静,但确实改造了我们的活着;各行各业的先知先觉者已经从与数量共舞中尝到甜头,而越是多的后来者和新进者都盼望借助云总括和大数量这波浪潮去撬动原有市镇格局或开辟新的经济贸易领域。

多少挖掘

  1. 简言之定义:数据→知识。

  2. 知识发现的经过由以下步骤迭代组成:

    a) 数据清理:化解噪声。

    b) 数据集成:三种数据源能够组合在联合。

    c) 数据选用:从数据库中领到与分析职务相关的数量。

    d) 数据转换:通过汇总或聚集操作,把数量调换和集合成符合挖掘的款型。

    e) 数据挖掘:基本步骤,使用智能方法提取数额格局。

    f) 形式评估:依据某种兴趣度度量,识别代表知识的实在有意思的形式。

    g) 知识表示:使用可视化和文化表示才具,向用户提供挖掘的知识)。

3.
数据旅社定义:面向宗旨的、集成的、时变的、非易失的数据集合,匡助管理者的决定进程。

手工业搭建集群

引言

环境:

Role

Host name

Master

centos1

Slave

centos2

centos3

配备机器名

  1. [Master、Slave]翻看各机器的机械名。

    hostname

  2. [Master、Slave]将具有机器名配置到各机器中。

    vi /etc/hosts

    192.168.27.2 centos1
    192.168.27.3 centos2
    192.168.27.4 centos3

调整时间

  1. [Master、Slave]确认保障各机器间时间差不抢先2分钟。

    date # 翻看
    date -s “2017-0叁-02 0玖:0柒:00” # 修改
    ntpdate time.windows.com # 若连通网络,可共同微软
    clock -w # 写入BIOS

开创用户

  1. [Master、Slave]创建hadoop用户。

    groupadd hadoop
    useradd -g hadoop -G root -d /home/hadoop hadoop
    passwd hadoop

  2. [Master、Slave]成立软件设置目录和数量目录。

    mkdir /opt/app /opt/data
    chown hadoop:hadoop /opt/app /opt/data

  3. [Master、Slave]登陆hadoop用户,后续手续均在该用户下推行。

    su – hadoop # 注意有减号。有减号表示登入后使用hadoop用户的环境变量,不然不接纳。

  4. [Master]生成SSH公钥、私钥,复制公钥到各Slave。

    ssh-keygen -t rsa # 生成
    ssh-copy-id hadoop@centos一 # 复制形式一 ssh-copy-id hadoop@centos2 ssh-copy-id hadoop@centos3 cp id_rsa.pub authorized_keys # 复制情势二 scp authorized_keys hadoop@centos2:/home/hadoop/.ssh
    scp authorized_keys hadoop@centos三:/home/hadoop/.ssh
    chmod 700 /home/hadoop/.ssh # 各节点的.ssh目录权限必须是700,不然无法登入

安装JDK

  1. [Master、Slave]安装JDK到/opt/app目录下。

    tar zxvf jdk-8u121-linux-i586.tar.gz -C /opt/app

  2. [Master、Slave]安插环境变量。

    vi /etc/profile

    export JAVA_HOME=/opt/app/jdk1.8.0_121
    export CLASSPATH=.
    export PATH=$JAVA_HOME/bin:$PATH

    source /etc/profile # 生效
    env | grep JAVA_HOME # 验证

配备文件

10.
[Master]留神:Hadoop一时半刻目录应本着叁个十足空间的磁盘,并且须求目录使用权力(各机器)。

tar zxvf hadoop-2.6.5.tar.gz -C /opt/app
cd /opt/app/hadoop-2.6.5/etc/hadoop
vi hadoop-env.sh

export JAVA_HOME=/opt/app/jdk1.8.0_121
export HADOOP_HOME=/opt/app/hadoop-2.6.5

vi core-site.xml

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/hadoop.tmp.dir</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://centos1:9000</value>
</property>

vi hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/data/dfs.name.dir</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/opt/data/dfs.data.dir</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

vi yarn-site.xml

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>centos1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>centos1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>centos1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>centos1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>centos1:8088</value>
</property>
<!--
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>512</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>
-->

vi slaves

centos2
centos3
  1. [Master]从Master复制Hadoop目录到各Slave。

    scp -r /opt/app/hadoop-2.6.5 hadoop@centos2:/opt/app
    scp -r /opt/app/hadoop-2.6.5 hadoop@centos3:/opt/app

运维与测试

  1. [Master]配置Hadoop环境变量。

    vi /home/hadoop/.bash_profile

    export HADOOP_HOME=/opt/app/hadoop-2.6.5
    export PATH=$PATH:$HADOOP_HOME/bin

    source /home/hadoop/.bash_profile
    env | grep HADOOP_HOME

  2. [Master]格式化HDFS,启动Hadoop。

    hadoop namenode -format
    sbin/start-dfs.sh
    sbin/start-yarn.sh

  3. [Master、Slave]反省守护进程。

    jps

    # Master守护进程NameNode
    SecondaryNameNode
    ResourceManager

    # Slave守护进度DataNode
    NodeManager

15.  [Master]测试。

hadoop jar /opt/app/hadoop-2.6.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar pi 2 100

1陆. 监理页面。

http://centos1:8088

YARN监控

http://centos1:50070

HDFS监控

Cloudera Manager

  1. 关键效率:集群自动化安装配备、集群监察和控制和集群运营。

  2. 留意:无需付费但不开源(开源怀恋Apache Ambari);CDH5无集群规模限定。

原理

Hadoop架构

1.
Hadoop集群:HDFS守护进度、YARubiconN守护进度及运维那几个护理进度的节点构成Hadoop集群。

  1. 部署

    a)
生产环境,为了质量和平稳,建议NameNode和ResourceManager分开安插。

    b)
DataNode和NodeManager可安排在差别节点,但为了多少本地化,从而加强品质,NodeManager应配备在DataNode节点。

 必赢亚洲手机app 3

必赢亚洲手机app 4

属性调优

硬件选型

  1. 总体思路

    a)
对集群全体规划时,常先根据存款和储蓄空间估摸集群大小,再在储存技能上猜想总结财富。

    b)
Hadoop作业属于数据密集型非总计密集型(大批量中路结果需磁盘和网络支出)。

  1. NameNode内部存款和储蓄器推测

    a)
原理:HDFS运营时,NameNode将元数据加载到内部存款和储蓄器,所以HDFS文件总的数量受限于NameNode内部存款和储蓄器体积。

    b) 公式:1般,假设各类文件占用三个块,则100万个公文大概并吞用300MB
NameNode内部存款和储蓄器。

  1. ResourceManager内存推测

    a)
原理:ResourceManager默许保存近来918个作业的元数据,并且保存在内部存款和储蓄器。

  1. 虚拟CPU数计算

    a) 公式

虚拟CPU数 = CPU数 × 单CPU核数 × 单CPU核超线程数

    b) 示例:双路六核CPU,HT(超线程)技艺,虚拟CPU数=2×陆×贰=2四。

  1. 从节点内部存款和储蓄器推测

    a) 公式:每种虚拟CPU分配4~8GB内存。

    b) 示例:双路六核CPU,HT(超线程)本事,从节点内部存款和储蓄器至少九陆~192GB。

  1. 从节点磁盘估算

    a)
公式:依据每日集群处理的数据量估计;思虑副本数;至少为暂时数据保存五分之一~30%空间。

    b)
示例:假使天天数据量为一TB,副本数为三,则每一天集群需三.6~九TB磁盘;要是有二台DataNode,则每一日单DataNode需一.八~4.5GB磁盘。

  1. 互联网选型:千兆调换机,甚至万兆调换机。

  2. 参照硬件

    a) 中档配置

硬件

配置

CPU

2×6 Core 2.9GHz / 15MB cache

内存

128GB DDR3-1600 ECC

磁盘控制器

SAS 6GB/s

磁盘

12×3TB LFF SATA II 7200 RPM

交换机

2×千兆交换机

    b) 高等配置

硬件

配置

CPU

2×6 Core 2.9GHz / 15MB cache

内存

256GB DDR3-1600 ECC

磁盘控制器

2×SAS 6GB/s

磁盘

24×1TB SFF Nearline/MDL SAS 7200 RPM

交换机

万兆交换机

操作系统调优

  1. 禁用swap分区

    a)
swap分区:系统在情理内部存款和储蓄器不足时,把物理内存中1部分释放,以供当前运转程序行使。

    b)
vm.swappiness参数:范围0~100,值越高则系统内核越积极将应用程序数据调换成磁盘。

    c)
调优:Hadoop守护进度数据调换来磁盘或者引致操作超时,修改/etc/sysctl.conf设置vm.swappiness为0。

  1. 调动内部存款和储蓄器分配战略

    a) vm.overcommit_memory参数

        i) 0:Heuristic overcommit
handling,默许值。内核实探式(非精准)检查是还是不是高于CommitLimit(/proc/meminfo),拒绝超过CommitLimit的应用程序内部存储器申请。

        ii) 1:Always
overcommit。允许超越CommitLimit,直至内部存款和储蓄器用完结束。

        iii) 二:Don’t
overcommit。CommitLimit=物理内部存款和储蓄器大小×vm.overcommit_ratio÷100+swap分区大小,vm.overcommit_ratio默认50。

    b)
调优:修改/etc/sysctl.conf设置vm.overcommit_memory为0,vm.overcommit_ratio为1,最终重启或刷新设置“sudo
sysctl -p”生效。

  1. 调整backlog上限

    a)
backlog:套接字监听队列,私下认可长度128。当二个伸手未有被拍卖或建立即,进入backlog,套接字服务器贰回性处理backlog中持有请求。当服务器处理较慢,监听队列填满后,新请求被拒绝。

    b)
调优:修改/etc/sysctl.conf设置net.core.somaxconn为32768,core-site.xml的“ipc.server.listen.queue.size”参数设置为3276八,最终重启或刷新设置“sudo
sysctl -p”生效。

  1. 调动同时开拓文件讲述符上限

    a)
文件讲述符:当展开3个共处文件或创立四个新文件时,内核向进程再次回到3个文件讲述符。

    b)
调优:Hadoop作业也许同时开采三个文件。修改/etc/sysctl.conf设置fs.file-max为6553伍(系统级),同时修改/etc/security/limits.conf设置“hadoop
hard nofile 6553伍”和“hadoop soft nofile
6553伍”(用户级,hadoop为用户名),最后重启或刷新设置“sudo sysctl
-p”生效。

  1. 剥夺文件访问时间

    a)
文件访问时间:假使张开记录文件访问时间,在历次读操作时,伴随贰个写操作。

    b)
调优:修改/etc/fstab,在需禁止使用的分区options字段后增加“noatime”,重启生效。

  1. 禁用THP

    a) Huge Pages:大小为2MB~1GB的内部存款和储蓄器页。

    b) THP:Transparent Huge Pages,三个管理Huge Pages自动化的抽象层。

    c) 调优:运维Hadoop作业时,THP会引起CPU占用率偏高,需禁止使用。

JVM调优

调优后功效进步约四%。

Hadoop参数调优

  1. 总体规格(适用于广大分布式总计框架,如MapReduce、斯Parker)

    a) 增大作业并行度,例如增大Map职务数。

    b) 保障作业推行时有丰硕能源。

    c) 满意前两条前提下,尽或然为Shuffle阶段提供财富。

  1. core-site.xml

    a) io.file.buffer.size

        i. 默认值:4096

        ii.
官方证实:The size of buffer for use in sequence files. The size of this buffer should probably be a multiple of hardware page size (40九6 on AMD x八陆), and it determines how much data is buffered during read and write operations.

        iii. 调优:设置为131072。

  1. hdfs-site.xml

    a) dfs.blocksize

        i. 默认值:134217728

        ii.
官方证实:The default block size for new files, in bytes. You can use the following suffix (case insensitive): k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 12捌k, 51二m, 壹g, etc.), Or provide complete size in bytes (such as 134217728 for 12八 MB).

        iii. 调优:设置为128MB或256MB。

    b) dfs.namenode.handler.count

        i. 默认值:10

        ii. 官方认证:The number of server threads for the namenode.

        iii. 调优:设置为40。

    c) dfs.datanode.max.transfer.threads

        i. 默认值:40

        ii.
官方认证:Specifies the maximum number of threads to use for transferring data in and out of the DN.

        iii. 调优:当DataNode连接数超越该值,则拒绝连接。设置为6553五。

    d) dfs.datanode.balance.bandwidthPerSec

        i. 默认值:1048576

        ii.
官方证实:Specifies the maximum amount of bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second.

        iii. 调优:设置为20971520,即20MB/s。

    e) dfs.replication

        i. 默认值:3

        ii.
官方证实:Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.

        iii.
调优:当职责同时读取1个文本时,大概导致瓶颈,增大该值可使得消除,但变成占用磁盘。可只修改Hadoop客户端,则影响从该客户端上传的文本别本数。

    f) dfs.datanode.max.transfer.threads

        i. 默认值:4096

        ii.
官方证实:Specifies the maximum number of threads to use for transferring data in and out of the DN.

        iii. 调优:设置为8192。

  1. yarn-site.xml

    a) yarn.nodemanager.resource.memory-mb

        i. 默认值:8192

        ii.
官方认证:Amount of physical memory, in MB, that can be allocated for containers.

        iii. 调优:注意为操作系统和其他服务留下内部存款和储蓄器能源。

    b) yarn.nodemanager.resource.cpu-vcores

        i. 默认值:8

        ii.
官方证实:Number of vcores that can be allocated for containers. This is used by the 猎豹CS6M scheduler when allocating resources for containers. This is not used to limit the number of physical cores used by YABMWX三N containers.

        iii.
调优:注意为操作系统和任何服务留住虚拟内部存储器能源。虚拟CPU总结格局见操作系统调优。

    c) yarn.scheduler.minimum-allocation-mb

        i. 默认值:1024

        ii.
官方认证:The minimum allocation for every container request at the GL450M, in MBs. Memory requests lower than this won’t take effect, and the specified value will get allocated at minimum.

        iii. 调优:无。

    d) yarn.scheduler.maximum-allocation-mb

        i. 默认值:8192

        ii.
官方认证:The maximum allocation for every container request at the LANDM, in MBs. Memory requests higher than this won’t take effect, and will get capped to this value.

        iii.
调优:依照容器总的数量(即yarn.nodemanager.resource.memory-mb)设置,纵然与之齐名,则单职务内部存款和储蓄器财富选用不受限制。

    e) yarn.scheduler.minimum-allocation-vcores

        i. 默认值:1

        ii.
官方证实:The minimum allocation for every container request at the 奥迪Q5M, in terms of virtual CPU cores. Requests lower than this won’t take effect, and the specified value will get allocated the minimum.

        iii. 调优:无。

    f) yarn.scheduler.maximum-allocation-vcores

        i. 默认值:32

        ii.
官方证实:The maximum allocation for every container request at the 智跑M, in terms of virtual CPU cores. Requests higher than this won’t take effect, and will get capped to this value.

        iii.
调优:依照容器虚拟CPU总量(即yarn.nodemanager.resource.cpu-vcores)设置,即使与之齐名,则单任务CPU财富利用不受限制。

  1. mapred-site.xml

    a) mapreduce.job.reduces

        i. 默认值:1

        ii.
官方表达:The default number of reduce tasks per job. Typically set to 9九% of the cluster’s reduce capacity, so that if a node fails the reduces can still be executed in a single wave. Ignored when mapreduce.jobtracker.address is “local”.

        iii.
调优:设置为0.九五×NodeManager节点数或一.7五×NodeManager节点数。

    b) mapreduce.map.output.compress

        i. 默认值:false

        ii.
官方证实:Should the outputs of the maps be compressed before being sent across the network. Uses SequenceFile compression.

        iii. 调优:设置为true。

    c) mapreduce.map.output.compress.codec

        i. 默认值:org.apache.hadoop.io.compress.DefaultCodec

        ii.
官方证实:If the map outputs are compressed, how should they be compressed?

        iii.
调优:设置为org.apache.hadoop.io.compress.SnappyCodec,由Google开源,CDH5已内置。

    d) mapreduce.job.jvm.numtasks

        i. 默认值:1

        ii.
官方认证:How many tasks to run per jvm. If set to -1, there is no limit.

        iii. 调优:设置为-一,即无JVMInfiniti制次数重用。

    e) mapreduce.map.speculative

        i. 默认值:true

        ii.
官方证实:If true, then multiple instances of some map tasks may be executed in parallel.

        iii.
调优:保持默许值true,即张开推测机制有效放置因瓶颈而拖累整个作业。

    f) mapreduce.reduce.speculative

        i. 默认值:true

        ii.
官方表达:If true, then multiple instances of some reduce tasks may be executed in parallel.

        iii.
调优:保持暗许值true,即张开揣测机制行得通放置因瓶颈而拖累整个作业。

    g) mapreduce.cluster.local.dir

        i. 默认值:${hadoop.tmp.dir}/mapred/local

        ii.
官方证实:The local directory where MapReduce stores intermediate data files. May be a comma-separated list of directories on different devices in order to spread disk i/o. Directories that do not exist are ignored.

        iii. 调优:设置几个磁盘,提供IO功用。

    h) mapred.child.java.opts

        i. 默认值:-Xmx200m

        ii.
官方认证:Java opts for the task processes. The following symbol, if present, will be interpolated: @taskid@ is replaced by current TaskID. Any other occurrences of ‘@’ will go unchanged. For example, to enable verbose gc logging to a file named for the taskid in /tmp and to set the heap maximum to be a gigabyte, pass a ‘value’ of: -Xmx10二肆m -verbose:gc -Xloggc:/tmp/@taskid@.gc Usage of -Djava.library.path can cause programs to no longer function if hadoop native libraries are used. These values should instead be set as part of LD_LIBRARY_PATH in the map / reduce JVM env using the mapreduce.map.env and mapreduce.reduce.env config settings.

        iii. 调优:依据职务叠加内部存款和储蓄器,并选拔G一垃圾回收器。

    i) mapreduce.map.java.opts

        i. 默认值:空

        ii.
调优:设置Map职务JVM参数,弥补mapred.child.java.opts粗粒度的供不应求。

    j) mapreduce.reduce.java.opts

        i. 默认值:空。

        ii.
调优:设置Reduce任务JVM参数,弥补mapred.child.java.opts粗粒度的缺少。

    k) mapreduce.map.memory.mb

        i. 默认值:1024

        ii.
官方表明:The amount of memory to request from the scheduler for each map task.

        iii. 调优:设置为-一,即从mapreduce.map.java.opts参数值承接。

    l) mapreduce.reduce.memory.mb

        i. 默认值:1024

        ii.
官方表达:The amount of memory to request from the scheduler for each reduce task.

        iii.
调优:设置为-壹,即从mapreduce.reduce.java.opts参数值承继,壹般要压倒mapreduce.map.java.opts参数值。

    m) mapreduce.map.cpu.vcores

        i. 默认值:1

        ii.
官方表明:The number of virtual cores to request from the scheduler for each map task.

        iii.
调优:依据容器虚拟CPU数(即yarn.scheduler.maximum-allocation-vcores)设置,注意与mapreduce.map.memory.mb参数值保持线性比例。

    n) mapreduce.reduce.cpu.vcores

        i. 默认值:1

        ii.
官方表达:The number of virtual cores to request from the scheduler for each reduce task.

        iii.
调优:依照容器虚拟CPU数(即yarn.scheduler.maximum-allocation-vcores)设置,注意与mapreduce.reduce.memory.mb参数值保持线性比例。

    o) yarn.app.mapreduce.am.resource.cpu-vcores

        i. 默认值:1

        ii.
官方表达:The number of virtual CPU cores the M奥迪Q5 AppMaster needs.

        iii. 调优:适当增大。

    p) yarn.app.mapreduce.am.resource.mb

        i. 默认值:1536

        ii. 官方表达:The amount of memory the M奥德赛 AppMaster needs.

        iii. 调优:适当增大。

    q) mapreduce.task.io.sort.mb

        i. 默认值:100

        ii.
官方认证:The total amount of buffer memory to use while sorting files, in megabytes. By default, gives each merge stream 1MB, which should minimize seeks.

        iii. 调优:适当增大Map职责环形缓冲区大小。

    r) mapreduce.reduce.shuffle.parallelcopies

        i. 默认值:5

        ii.
官方表明:The default number of parallel transfers run by reduce during the copy(shuffle) phase.

        iii.
调优:适当调高,但过宿将导致大气数额同时网络传输,引起IO压力,建议安装为4×lgn,n为集群规模。

 

作者:netoxi
出处:http://www.cnblogs.com/netoxi
正文版权归笔者和天涯论坛共有,欢迎转发,未经允许须保留此段证明,且在篇章页面分明地方给出原作连接。欢迎指正与调换。

 

相关文章

No Comments, Be The First!
近期评论
    功能
    网站地图xml地图