推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

电商网站的大数据分析统计平台

   日期:2024-10-31     作者:xinet    caijiyuan   评论:0    移动:http://dfvalve.xrbh.cn/mobile/news/5386.html
核心提示:链接:https://pan.baidu.com/s/12U7GMtxOHdUbsIUCNBcT_g 提取码:1234下面的代码放入同一个包HBase内下面的代码放

链接:https://pan.baidu.com/s/12U7GMtxOHdUbsIUCNBcT_g
提取码:1234

电商网站的大数据分析统计平台

下面的代码放入同一个包Hbase内

下面的代码放入同一个包Top10内

封装jar包
在Maven窗口单击展开Lifecycle折叠框,双击Lifecycle折叠框中的“package”选项,IntelliJ IDEA会自动将程序封装成jar包,封装完成后,若出现“BUILD SUCCESS”内容,则证明成功封装热门品类Top10分析程序为jar包。
在项目SparkProject中的target目录下会生成SparkProject-1.0-SNAPSHOT.jar文件,为了便于后续与其它程序区分,这里可将默认文件名称修改为CategoryTop10.jar。

将jar包上传到集群
使用远程连接工具Xftp连接虚拟机Spark01,在存放jar文件的目录/export/SparkJar/(该目录需提前创建)下执行“rz”命令,上传热门品类Top10分析程序的jar包CategoryTop10.jar。

将数据集上传到本地文件系统
使用远程连接工具Xftp连接虚拟机Spark01,在存放数据文件的目录/export/data/SparkData/(该目录需提前创建)下执行“rz”命令,将数据集user_session.txt上传至本地文件系统。

在HDFS创建存放数据集的目录
将数据集上传到HDFS前,需要在HDFS的根目录创建目录spark_data,用于存放数据集user_session.txt

上传数据集到HDFS
将本地文件系统目录/export/data/SparkData/下的数据集user_session.txt上传到HDFS的spark_data目录下。

提交热门品类Top10分析程序到YARN集群
通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交热门品类Top10分析程序
到Hadoop集群的YARN运行。

查看程序运行状态
程序运行时在控制台会生成“Application ID”(程序运行时的唯一ID,在浏览器输入“192.168.121.132:8088”(虚拟机地址替换为你的虚拟机地址),进入YARN的Web UI界面,通过对应“Application ID”查看程序的运行状态,当程序运行完成后State为FINISHED,并且FinalStatus为SUCCEES。

查看程序运行结果
在虚拟机Spark01执行“hbase shell”命令,进入Hbase命令行工具。
在Hbase命令行工具中执行“list”命令,查看Hbase数据库中的所有数据表。
查看程序运行结果
在Hbase命令行工具执行“scan ‘top10’”命令,查询数据表top10中的数据。

封装jar包
由于在封装热门品类Top10分析程序jar包时,将程序主类指向了“cn.itcast.top10.CategoryTop10”,因此这里需要将pom.xml文件中的程序主类修改为“cn.itcast.top3.AreaProductTop3”。根据封装热门品类Top10分析程序jar包的方式封装各区域热门商品Top3分析程序。将封装完成的jar包重命名为“AreaProductTop3”,通过远程连接工具Xftp将AreaProductTop3.jar上传到虚拟机Spark01的/export/SparkJar/目录下。

提交各区域热门商品Top3分析程序到YARN集群
通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交各区域热门商品Top3分析程序到YARN集群运行。

查看程序运行结果
在虚拟机Spark01执行“hbase shell”命令,进入Hbase命令行工具。
在Hbase命令行工具中执行“list”命令,查看Hbase数据库中的所有数据表。
查看程序运行结果
在Hbase命令行工具执行“scan ‘top3’”命令,查看数据表top3中所有数据。

封装jar包
由于在封装各区域热门商品Top3分析程序jar包时,将程序主类指向了“cn.itcast.top3.AreaProductTop3”,因此这里需要将pom.xml文件中的程序主类修改为“cn.itcast.conversion.PageConversion”。根据封装热门品类Top10分析程序jar包的方式封装页面单跳转化率统计程序。将封装完成的jar包重命名为“PageConversion”,通过远程连接工具SecureCRT将PageConversion.jar上传到虚拟机Spark01的/export/SparkJar/目录下。

将数据集上传到本地文件系统
使用远程连接工具Xftp连接虚拟机Spark01,在存放数据文件的目录/export/data/SparkData/(该目录需提前创建)下执行“rz”命令,将数据集user_conversion.json上传至本地文件系统。

在HDFS创建存放数据集的目录
将数据集上传到HDFS前,需要在HDFS的根目录创建目录page_conversion,用于存放数据集user_conversion.json。

上传数据集到HDFS
将目录/export/data/SparkData/下的数据集user_conversion.json上传到HDFS的page_conversion目录下,具体命令如下。

提交页面单跳转化率统计程序到YARN集群
通过Spark安装目录中bin目录下的shell脚本文件spark-submit提交页面单跳转化率统计程序到YARN集群运行

查看程序运行结果
在虚拟机Spark01执行“hbase shell”命令,进入Hbase命令行工具。
在Hbase命令行工具中执行“list”命令,查看Hbase数据库中的所有数据表。
在Hbase命令行工具执行“scan ‘conversion’”命令,查看数据表conversion中所有数据。

打开Hbase命令行工具
打开虚拟机启动大数据集群环境(此时可以不启动使用远程连接工具SecureCRT连接虚拟机Spark01,执行“hbase shell”命令进入Hbase的命令行工具。

创建表blacklist
通过Hbase的命令行工具创建表blacklist并指定列族为black_user,用于存储黑名单用户数据。

插入黑名单用户
通过Hbase的命令行工具在表blacklist的列族black_user下插入黑名单用户,指定uerid为33、44和55的用户为黑名单用户。

创建表adstream
通过Hbase的命令行工具创建表adstream并指定列族为area_ads_count,用于存储用户广告点击流实时统计结果。

实现Kafka生产者
在项目SparkProject的java目录新建Package包“cn.itcast.streaming”,用于存放广告点击流实时统计的Java文件,并在该包中创建Java类文件MockRealTime,用于实现Kafka生产者,生产用户广告点击流数据。

启动Kafka消费者
打开虚拟机启动大数据集群环境(包括Kafka,使用远程连接工具Xshell连接虚拟机Spark01,进入Kafka安装目录(/export/servers/kafka_2.11-2.0.0)启动Kafka消费者。

查看Kafka消费者
在虚拟机Spark01的Kafka消费者窗口查看数据是否被成功接收。

关闭Kafka消费者
在虚拟机Spark01的Kafka消费者窗口通过组合键“Ctrl+C”关闭当前消费者。

关闭Kafka生产者
在IntelliJ IDEA控制台中单击红色方框的按钮关闭Kafka生产者程序,关闭Kafka生产者程序。

下面的程序放在同一个包streaming中

本文地址:http://dfvalve.xrbh.cn/news/5386.html    迅博思语资讯 http://dfvalve.xrbh.cn/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号