链接:https://pan.baidu.com/s/12U7GMtxOHdUbsIUCNBcT_g
提取码:1234
下面的代码放入同一个包Hbase内
下面的代码放入同一个包Top10内
封装jar包
在Maven窗口单击展开Lifecycle折叠框,双击Lifecycle折叠框中的“package”选项,IntelliJ IDEA会自动将程序封装成jar包,封装完成后,若出现“BUILD SUCCESS”内容,则证明成功封装热门品类Top10分析程序为jar包。
在项目SparkProject中的target目录下会生成SparkProject-1.0-SNAPSHOT.jar文件,为了便于后续与其它程序区分,这里可将默认文件名称修改为CategoryTop10.jar。
将jar包上传到集群
使用远程连接工具Xftp连接虚拟机Spark01,在存放jar文件的目录/export/SparkJar/(该目录需提前创建)下执行“rz”命令,上传热门品类Top10分析程序的jar包CategoryTop10.jar。
将数据集上传到本地文件系统
使用远程连接工具Xftp连接虚拟机Spark01,在存放数据文件的目录/export/data/SparkData/(该目录需提前创建)下执行“rz”命令,将数据集user_session.txt上传至本地文件系统。
在HDFS创建存放数据集的目录
将数据集上传到HDFS前,需要在HDFS的根目录创建目录spark_data,用于存放数据集user_session.txt
上传数据集到HDFS
将本地文件系统目录/export/data/SparkData/下的数据集user_session.txt上传到HDFS的spark_data目录下。
提交热门品类Top10分析程序到YARN集群
通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交热门品类Top10分析程序
到Hadoop集群的YARN运行。
查看程序运行状态
程序运行时在控制台会生成“Application ID”(程序运行时的唯一ID),在浏览器输入“192.168.121.132:8088”(虚拟机地址替换为你的虚拟机地址),进入YARN的Web UI界面,通过对应“Application ID”查看程序的运行状态,当程序运行完成后State为FINISHED,并且FinalStatus为SUCCEES。
查看程序运行结果
在虚拟机Spark01执行“hbase shell”命令,进入Hbase命令行工具。
在Hbase命令行工具中执行“list”命令,查看Hbase数据库中的所有数据表。
查看程序运行结果
在Hbase命令行工具执行“scan ‘top10’”命令,查询数据表top10中的数据。
封装jar包
由于在封装热门品类Top10分析程序jar包时,将程序主类指向了“cn.itcast.top10.CategoryTop10”,因此这里需要将pom.xml文件中的程序主类修改为“cn.itcast.top3.AreaProductTop3”。根据封装热门品类Top10分析程序jar包的方式封装各区域热门商品Top3分析程序。将封装完成的jar包重命名为“AreaProductTop3”,通过远程连接工具Xftp将AreaProductTop3.jar上传到虚拟机Spark01的/export/SparkJar/目录下。
提交各区域热门商品Top3分析程序到YARN集群
通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交各区域热门商品Top3分析程序到YARN集群运行。
查看程序运行结果
在虚拟机Spark01执行“hbase shell”命令,进入Hbase命令行工具。
在Hbase命令行工具中执行“list”命令,查看Hbase数据库中的所有数据表。
查看程序运行结果
在Hbase命令行工具执行“scan ‘top3’”命令,查看数据表top3中所有数据。
封装jar包
由于在封装各区域热门商品Top3分析程序jar包时,将程序主类指向了“cn.itcast.top3.AreaProductTop3”,因此这里需要将pom.xml文件中的程序主类修改为“cn.itcast.conversion.PageConversion”。根据封装热门品类Top10分析程序jar包的方式封装页面单跳转化率统计程序。将封装完成的jar包重命名为“PageConversion”,通过远程连接工具SecureCRT将PageConversion.jar上传到虚拟机Spark01的/export/SparkJar/目录下。
将数据集上传到本地文件系统
使用远程连接工具Xftp连接虚拟机Spark01,在存放数据文件的目录/export/data/SparkData/(该目录需提前创建)下执行“rz”命令,将数据集user_conversion.json上传至本地文件系统。
在HDFS创建存放数据集的目录
将数据集上传到HDFS前,需要在HDFS的根目录创建目录page_conversion,用于存放数据集user_conversion.json。
上传数据集到HDFS
将目录/export/data/SparkData/下的数据集user_conversion.json上传到HDFS的page_conversion目录下,具体命令如下。
提交页面单跳转化率统计程序到YARN集群
通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交页面单跳转化率统计程序到YARN集群运行
查看程序运行结果
在虚拟机Spark01执行“hbase shell”命令,进入Hbase命令行工具。
在Hbase命令行工具中执行“list”命令,查看Hbase数据库中的所有数据表。
在Hbase命令行工具执行“scan ‘conversion’”命令,查看数据表conversion中所有数据。
打开Hbase命令行工具
打开虚拟机启动大数据集群环境(此时可以不启动使用远程连接工具SecureCRT连接虚拟机Spark01,执行“hbase shell”命令进入Hbase的命令行工具。
创建表blacklist
通过Hbase的命令行工具创建表blacklist并指定列族为black_user,用于存储黑名单用户数据。
插入黑名单用户
通过Hbase的命令行工具在表blacklist的列族black_user下插入黑名单用户,指定uerid为33、44和55的用户为黑名单用户。
创建表adstream
通过Hbase的命令行工具创建表adstream并指定列族为area_ads_count,用于存储用户广告点击流实时统计结果。
实现Kafka生产者
在项目SparkProject的java目录新建Package包“cn.itcast.streaming”,用于存放广告点击流实时统计的Java文件,并在该包中创建Java类文件MockRealTime,用于实现Kafka生产者,生产用户广告点击流数据。
启动Kafka消费者
打开虚拟机启动大数据集群环境(包括Kafka),使用远程连接工具Xshell连接虚拟机Spark01,进入Kafka安装目录(/export/servers/kafka_2.11-2.0.0)启动Kafka消费者。
查看Kafka消费者
在虚拟机Spark01的Kafka消费者窗口查看数据是否被成功接收。
关闭Kafka消费者
在虚拟机Spark01的Kafka消费者窗口通过组合键“Ctrl+C”关闭当前消费者。
关闭Kafka生产者
在IntelliJ IDEA控制台中单击红色方框的按钮关闭Kafka生产者程序,关闭Kafka生产者程序。
下面的程序放在同一个包streaming中