通过学习本课程,使学员能够了解大数据在行业的发展情况,了解大数据的理论基础知识,了解大数据的发展趋势。
熟悉Clouders Manager的安装和部署,熟知CDH的安装配置和解决越到的问题,熟悉Hadoop分布式文件系统,懂得hdfs分布式文件系统的使用,了解MapReduce工作原理
熟知Hadoop集群硬件配置规划,懂得Hadoop集群配置及优化,学会如何维护和监测Hadoop集群学会怎么使用Sqoop连接关系数据库进行数据导入导出
了解Hive数据仓库的开发和应用,学会Hue的web页面的数据库开发 精通Hbase列式数据库的开发
适用人群
需要了解大数据,需要熟知大数据的管理,大数据的维护,hadoop开发,大数据数据挖掘分析的人。无需具备Hadoop基础和经验,只需要基本的数据库基础知识。
课程介绍
本课程涵盖了几乎所有hadoop常用的功能。hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是可靠的,它维护多个工作数据副本,确保能够针对失败的节点重新分布处 理;Hadoop是高效的,它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。本课程通过大量练习和案例对各个知识点技能进行详细讲解。
大数据学习路线
大数据学习大纲
共20小时
第1部分:大数据的基础介绍【30分钟】
1.什么是大数据? 2.大数据时代的背景
3.学术上怎么定义大数据? 4.大数据的构成 5.大数据的演进过程
第2部分:大数据带来的影响【30分钟】
1.大数据的关键技术
2.大数据分布式系统的构成 3.计算模式 4.大数据产业
5.大数据与云计算的关系 6.大数据和物联网的关系
第3部分:CentOS系统和Cloudera Manager安装配置【60分钟】 1.VMware虚拟机安装和配置 2.CentOS6.5且64位系统安装 3.简单的配置和遇到的问题 4.动手和实操
5.Cloudera Manager的离线安装
第4部分:Cloudera CDH的安装和配置及环境的测试【60分钟】
1.Cloudera CDH的离线安装的环境准备 和配置,注意事项 2.单机版、伪分布式、真分布式介绍和区别
3.详细介绍了CDH的部署配置,遇到的问题,怎么解决 4.HDFS分布式文件系统的安装配置和测试
5.hdfs的权限配置,目录创建,目录查看等命令的使用
第5部分:开源Hadoop生态圈的介绍【60分钟】
1.Hadoop生态圈 2.组件功能概要
3.Cloudera Manager的介绍 4.CM的硬件监控 5.内存监控 6.硬盘监控 7.预警监控 8.集群监控
第6部分:HDFS分布式文件系统详解【60分钟】
1.什么是分布式文件系统HDFS 2.HDFS基本架构 3.基本概念 4.主要涉及理念 5.hdfs常用命令
6.hdfs的上传文件 7.hdfs的下载文件 8.hdfs的查看数据 9.hdfs优点和缺点 10.例子讲解
第7部分:ZooKeeper分布式协作服务【60分钟】
1.ZooKeeper概述
2.ZooKeeper结构与原理 3.安装和运行ZooKeeper 4.Zookeeper的API接口 5.ZK实操(创建节点等)
6.Zookeeper的4个应用场景详解
第8部分:JAVA入门基础【60分钟】
1、程序设计语言的发展史 2、Java语言的发展史 3、Java的工作原理 4、JDK、JRE、JVM介绍 5、Java开发环境搭建 6、第一个Java程序 7、开发Java程序的要点 8、包(package)
9、案例:Eclipse编写实时产生数据java程序并上传服务器
第9部分:MapReduce分布式计算框架详解【60分钟】
1.MapReduce基本介绍 2.为什么要用MR 3.MR是什么 4.工作原理 5.Map的原理
5.Reduce的原理 6.MR例子-单词计数 7.MR的优点和不足 8.例子讲解 9.适用场景
第10部分:Sqoop大数据同步工具介绍【60分钟】
1.Sqoop基本介绍 2.基本原理 3.应用场景
4.Sqoop和mysql的连接 5.mysql数据到HDFS 6.HDFS数据到mysql 7.关系型数据库到hive 8.hive到关系型数据库 9.Sqoop优点和缺点 10.例子讲解
第11部分:Hive 数据仓库及案例【120分钟】
1.Hive 基本介绍 1)Hive 是什么 2)Hive 不是什么 3)Hive 结构图 4)Hive 元数据
5)Hive 和普通关系数据的异同 6)Hive 和 SQL 比较 2.Hive 命令 1)建表 2)显示表 3)修改表 4)load 数据 3.Hive 优化 1)分区概念 2)分区适用场景 3)分区例子 4)优化例子 5)优化建议方案
4.Hive 的用户自定义函数 1)UDF 函数 2)UDAF 函数 3)UDTF 函数 5.Hive 练习和案例 1)练习
2)案例讲解
第12部分:Impala准实时分析【60分钟】
1.Impala基本介绍 2.技术架构
3.Impala与HIVE的关系 4.基本原理 5.优点和缺点 6.建表
7.加载数据 8.批量处理 9.常用脚本
10.和hive的性能比较
11.和oracle的对比2亿数据性能 12.和oracle的对比12亿数据性能
第13部分:Hue页面工具详解【60分钟】
1.命令脚本存在的问题 2.为什么需要HUE 3.Hue基本功能 2.Home页面
3.Job Browser页面 4.File Browser页面 5.元数据页面 6.Hive查询页面 7.Impala查询页面 8.创建外部表 9.加载数据 10.查询结果
第十4部分:Hbase列数据库及应用案例【120分钟】
1.Hbase感性认识
1)Hbase简介 2)Hbase特点
3)HBase与RDBMS对比 4)HBase体系结构 5)Hbase常见概念 2.Hbase主要组成
1) HBase基本命令介绍 2) Zookeeper、Hmaster 3) HRegionServer、Region 4) HStore存储、Hfile
5) Hbase内部扫描RowKey的原理 6) Hbase内部读写原理
7) HBase设计原理、架构分析
8) Hadoop+HBase伸缩性(自动扩容、热部署) 9) HBase相关表结构设计(列族、列详细分析) 10) HBase主HMaster与备用HMaster间的切换原理 3.Hbase性能测试
1) 测试数据 2) 测试过程 3) 测试结论
4) 和Oracle Rac等进行对比 4.Hbase设计原则和优化
1) Hbase的RowKey设计原则 2) 性能参数的设置 3) 性能参数的调整 4) 模型和性能优化 5.例子讲解 6.项目案例
1) HBase在小米业务的应用
第15部分:大数据平台部署及案例【60分钟】
1.hadoop有哪几个版本 2.Hadoop版本介绍
3.CDH和Apache版本主要区别 4.集群硬件应该如何选配?
1)网络拓扑 2)内存 3)硬盘 4)CPU 5)价格
5.集群硬件应该如何选配
6.英特尔Hadoop发行版的介绍 7.英特尔功能增强
8.某省级通信运营商清帐单查询系统 9.为什么采用Hadoop解决方案 10.新清账单中心的部署方案
第16部分:Kafka详解及应用案例【120分钟】
1.Kafka的基本介绍
1)什么是消息系统? 2)消息队列的分类
3)kafka的基本架构和概念 4)ZooKeeper简介和安装 2.Kafka的原理解析
1)Kafka在ZK上的存储结构 2)Producer的处理逻辑 3)Consumer的处理逻辑 4)Broker的处理逻辑 3.Kafka安装和部署
1)关闭服务 2)下载软件 3)拷贝文件 4)重启服务
5)测试功能是否能用 4.Kafka的Java应用开发
1)Producer端的实现 2)Consumer端的实现 3)程序执行演示 5.Kafka与Hadoop集成
1)Hadoop简介和配置 2)集成Kafka和Hadoop 3)例子演示 6.案例讲解
第17部分:hadoop衍生数据处理详解例【240分钟】
1.ETL 数据处理介绍 1)ETL 导论 2)ETL 概念 3)ETL 逻辑架构 4)exact 方式
5)增量数据捕获方法
6)数据处理方式 7)数据转换
8)缓慢变化维处理
9)数据仓库 Update 处理 10)ETL 优点 2.Kettle 介绍 1)简介 kettle 2)安装和部署 3)运行
3.Kettle 适用 1)菜单介绍 2)转换 3)作业
4)新建 Ktr 5)新建 Kjb
6)Transformation 菜单介绍 7)Transformation 8)Job 菜单介绍 9)Job 组件介绍 4.Kettle 案例 1)案例准备 2)表准备和说明 3)作业建立过程 4)测试结果检验 5)表到文本文件 6)文本文件到表
5.JAVASCRIPT 的基本应用 6.文件 FTP 下载、上传。 7.作业调用作业、转换。 8.启动脚本说明。
9.JAVA 调用作业、转换 10.kettle 使用原则 11.kettle 练习和案例
因篇幅问题不能全部显示,请点此查看更多更全内容