当前位置:主页 > 淘宝运营 >

Spark课程综合实验案例:淘宝双11数据分析与预测

扫一扫手机访问本主页

相关其他推荐:Spark课程试验事例:Spark+Kafka构建实时剖析Dashboard

点击这里观看厦门大学林子雨教师主讲《大技术原理与运用》课程视频

事例简介

Spark课程试验事例:淘宝双11数据剖析与猜测课程事例,由厦门大学数据库试验室团队开发,旨在满意全国高校大数据教育对试验事例的迫切需求。本事例触及数据预处理、存储、查询和可视化剖析等数据处理全流程所触及的各种典型,包括Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等体系和软件的装置和运用办法。事例适合高校(高职)大数据教育,能够作为学生学习大数据课程后的归纳实践事例。经过本事例,将有助于学生归纳运用大数据课程常识以及各种东西软件,实现数据全流程操作。各个高校能够根据自己教育实践需求,对本事例进行弥补完善。

事例目的

了解Linux体系、MySQL、Hadoop、Hive、Sqoop、Spark等体系和软件的装置和运用;了解大数据处理的根本流程;了解数据预处理办法;了解在不同类型数据库之间进行数据相互导入导出;了解运用JSP言语搭建动态Web工程;了解运用Spark MLlib进行简略的分类操作。

适用目标

高校(高职)教师、学生大数据学习者

时刻组织

本事例能够作为《大数据处理技术Spark》课程在学期结束后的“大作业”,或者能够作为学生暑期或寒假大数据实习实践根底事例,完结本事例估计耗时7天。

预备常识

需求事例运用者,已经学习过大数据相关课程(比方入门级课程《大数据技术原理与运用》和《Spark入门教程》),了解大数据相关技术的根本概念与原理,了解Windows操作体系、Linux操作体系、大数据处理架构Hadoop的关键技术及其根本原理、数据概念与原理、联络型数据库概念与原理、JSP言语概念与运用、前端JavaScript根底用法、Spark的关键技术及其原理。

不过,因为本事例供给了悉数操作细节,包括每个命令和运行结果,所以,即便没有相关背景常识,也能够依照操作阐明顺利完结悉数试验。

硬件要求

本事例能够在单机上完结,也能够在集群环境下完结。

单机上完结本事例试验时,主张计算机硬件装备为:500GB以上硬盘,8GB以上内存。

软件东西

本事例所触及的体系及软件:

Linux体系MySQLHadoopHiveSqoopEChartsEclipseSpark

图 事例所触及软件整体概览图

数据集

淘宝购物行为数据集 (5000万条记录,数据有偏移,不是实在的淘宝购物交易数据,但是不影响学习)

事例使命

装置Linux操作体系装置联络型数据库MySQL装置大数据处理结构Hadoop装置数据仓库Hive装置Sqoop装置Eclipse装置 Spark对文本文件方式的原始数据集进行预处理把文本文件的数据集导入到数据仓库Hive中对数据仓库Hive中的数据进行查询剖析运用Sqoop将数据从Hive导入MySQL运用Eclipse搭建动态Web运用运用ECharts进行前端可视化剖析运用Spark MLlib进行回头客行为猜测

图 事例所触及操作整体概览图

试验过程

过程零:试验环境预备

检查试验攻略

过程一:本地数据集上传到数据仓库Hive

检查试验攻略

过程二:Hive数据剖析

检查试验攻略

过程三:将数据从Hive导入到MySQL

检查试验攻略

过程四:运用Spark猜测回头客

检查试验攻略(Scala版)

检查试验攻略(Python版)

过程五:运用ECharts进行数据可视化剖析

检查试验攻略

每个试验过程所需求的常识储藏、练习技术和使命清单如下:

过程零:试验环境预备

所需常识储藏

Windows操作体系、Linux操作体系、大数据处理架构Hadoop的关键技术及其根本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、联络型数据库概念与原理

练习技术

双操作体系装置、虚拟机装置、Linux根本操作、Hadoop装置、HBase装置、Sqoop装置、Eclipse装置

使命清单

1. 装置Linux体系;2. 装置Hadoop;3. 装置MySQL;4. 装置Hive;5. 装置Sqoop;6. 装置Spark;7. 装置Eclipse

过程一:本地数据集上传到数据仓库Hive

所需常识储藏

Linux体系根本命令、Hadoop项目结构、分布式文件体系HDFS概念及其根本原理、数据仓库概念及其根本原理、数据仓库Hive概念及其根本原理

练习技术

Hadoop的装置与根本操作、HDFS的根本操作、Linux的装置与根本操作、数据仓库Hive的装置与根本操作、根本的数据预处理办法

使命清单

1. 装置Linux体系;2. 数据集下载与检查;3. 数据集预处理;4. 把数据集导入分布式文件体系HDFS中;5. 在数据仓库Hive上创建数据库

过程二:Hive数据剖析

所需常识储藏

数据仓库Hive概念及其根本原理、SQL语句、数据库查询剖析

练习技术

数据仓库Hive根本操作、创建数据库和表、运用SQL语句进行查询剖析

使命清单

1. 启动Hadoop和Hive;2. 创建数据库和表;3. 简略查询剖析;4. 查询条数统计剖析;5. 关键字条件查询剖析;6. 根据用户行为剖析;7. 用户实时查询剖析

过程三:将数据从Hive导入到MySQL

所需常识储藏

数据仓库Hive概念与根本原理、联络数据库概念与根本原理、SQL语句

练习技术

数据仓库Hive的根本操作、联络数据库MySQL的根本操作、Sqoop东西的运用办法

使命清单

1. Hive预操作;2. 运用Sqoop将数据从Hive导入MySQL

过程四:运用ECharts进行数据可视化剖析

所需常识储藏

数据可视化、Java、JSP、JavaScript、HTML

练习技术

运用JSP言语获取MySQL中的数据、搭建一个简略的动态Web运用、ECharts可视化运用

使命清单

1. 搭建tomcat+mysql+JSP开发环境2. 运用Eclipse新建可视化Web运用3. 前后端代码编写, 并添加ECharts可视化剖析

过程五:运用Spark猜测回头客行为

所需常识储藏

Spark、机器学习

练习技术

Spark的装置与根本操作、运用Spark 自带的MLlib库,对数据集进行分类猜测

使命清单

1. 装置Spark 2.预处理练习集和测试集3.运用支持向量机SVM分类器猜测回客行为

开发团队

为了处理高校大数据教育需求归纳试验事例的迫切需求,2017年2月上旬,厦门大学数据库试验室组建了由林子雨教师和阮榕城(厦大数据库试验室2015级研究生)、薛倩(厦大数据库试验室2015级研究生)、魏亮(厦大数据库试验室2016级研究生)、曾冠华(厦大数据库试验室2016级研究生)同学组成的事例开发小组,经过大量调研学习网络材料和相关事例,开发了本教育事例。期间,多次举办小组会议,讨论事例制作思路和技术细节。最终,经过近两个月的团队尽力,于2017年3月8日顺利完结事例第1版的开发并上线发布。

图(摄影 夏小云) 大数据事例开发团队2016年11月28日合影

(人员从左到右名单:魏亮、阮榕城、林子雨、薛倩、曾冠华)

版别历史

2017年3月8日,发布事例V1.0版别。

联络人

本事例相关事宜,欢迎联络厦门大学数据库试验室林子雨教师:E-mail: ziyulin@xmu.edu.cn

  • 关注微信
标签:

猜你喜欢