最新动态
淘宝用户行为分析——用户画像
2024-10-31 23:40

数据集是淘宝一个月的用户行为数据,数据包括user_id,item_id,behavior_type,user_geohash,item_category,time六个字段,共有100多万条记录,考虑数据集太大,为了提高运行效率,只随机抽取20%的数据;另外,由于数据集的局限,此项目的画像标签只是庞大用户画像的一部分,基于已有的数据集进行制作。

淘宝用户行为分析——用户画像

<class ‘pandas.core.frame.Dataframe’>
Int64Index: 4658205 entries, 13077081 to 21758719
Data columns (total 6 columns):
user_id int64
item_id int64
behavior_type int64
user_geohash object
item_category int64
time object
dtypes: int64(4), object(2)
memory usage: 248.8+ MB

(4658205, 6)

user_id 0
item_id 0
behavior_type 0
user_geohash 3183516
item_category 0
time 0
dtype: int64

  • 只有user_geohash有缺失值,且缺失的比例很高,无统计分析的意义,将此列删除
user_idhour0492晚上13726晚上219137晚上336465下午437101下午
user_idhour038745中午145561上午,中午253394晚上359436晚上4100605凌晨

168

3.3.1 浏览最多的类目

user_iditem_category049263441372650272191373695,3942336465129974371011863

3.3.2 收藏最多的类目

user_iditem_category0364651299713874510523245561378335943611159460723354,2939,6900,8270,8665,10242,11304,11991

3.3.3 加购最多的类目

user_iditem_category03726600013710163442455611863,6648359436275446179713230

3.3.4 购买最多的类目

user_iditem_category038745105561455616717,105592533941350035943643704100605930,3783,11455
  • 数据集中的数据正好是一个月,30天的数据即整个数据集的数据

3.4.1 近30天购买次数

user_iditem_id038745214556122533941359436441006053

3.4.2 近30天加购次数

user_iditem_id03726113710112455612235943694617975

3.4.3 近30天活跃天数

user_id
492 11
3726 15
19137 6
36465 7
37101 19
Name: date, dtype: int64

238

3.5.1 近7天购买次数

user_iditem_id04556121594361210060523100890141316942

3.5.2 近7天加购次数

user_iditem_id037261145561925943673100605241316943

3.5.3 近7天活跃天数

user_id
492 4
3726 5
19137 1
36465 2
37101 5
Name: date, dtype: int64

3.6.1 上次浏览距今天数

user_id
492 1
3726 1
19137 7
36465 3
37101 3
Name: date, dtype: int64

3.6.2 上次加购距今天数

user_id
3726 1
37101 8
45561 1
59436 4
61797 18
Name: date, dtype: int64

3.6.3上次购买距今天数

user_id
38745 23
45561 6
53394 22
59436 7
100605 7
Name: date, dtype: int64

42

user_idinterval_buy059436211006053210636223131694341379079

70

user_idbrowse_not_buy04923413726682191371033646512437101118
user_idcart_not_buy03726113710112387450345561224533940
user_idbuy_again038745214556122533941359436441006053

Text(0.5, 0, ‘访问次数’)
在这里插入图片描述
**分析:**14次左右是个拐点,因此定义购买次数小于等于14次为低活跃,大于14次为高活跃,此定义只是从用户的分布角度出发,工作中当从业务出发定义是否活跃。

Text(0.5, 0, ‘距今天数’)
在这里插入图片描述
:访问异常的那天为双12

重要深耕客户 7167
重要价值客户 7142
即将流失客户 5631
重要唤回客户 16
Name: rfm, dtype: int64

user_idtime_browsetime_buycate_most_browsecate_most_collectcate_most_cartcate_most_buycounts_30_buycounts_30_cartcounts_30_active…days_cartdays_buyinterval_buybrowse_not_buycart_not_buybuy_againuser_active_levelbuy_active_levelbuy_singlerfm034517089中午上午11241118246036031.03.024…18.018.0NaN是是否高低否即将流失客户1136592808下午下午70981087979577957,9772,127533.05.021…6.02.01.0是是是高低是重要深耕客户2117599174上午凌晨,上午,下午,晚上589460546936,8291,91022949,5550,10258,129824.03.025…2.07.04.0是是是高低是重要深耕客户338516732晚上下午969337839397,139261050011.041.029…2.02.03.0是是是高低是重要深耕客户429120381晚上NaN6513NaN3944NaNNaN4.013…2.0NaNNaN是是未购买低高未购买重要价值客户

接下来是对用户画像的详细分析,包括用户个性化标签、用户偏好标签、群体偏好标签,涉及到TF-IDF算法、余弦相似度算法

  • 首先,对数据进行预处理
user_iditem_idbehavior_typeitem_categorytimebehavior_count0492254885163442014-12-0791492254885363442014-12-0712492254885463442014-12-07134922316002162472014-12-09344923473697124132014-12-122

101

浏览行为,权重0.3
收藏行为,权重0.5
加购行为,权重1
购买行为,权重1.5

user_iditem_idbehavior_typeitem_categorytimebehavior_counttfidf_ratioact_weight_plantime_reduce_ratioact_weight0492254885163442014-12-0790.1493190.30.1545560.0623111492254885363442014-12-0710.1493191.01.0000000.1493192492254885463442014-12-0710.1493191.50.1545560.03461734922316002162472014-12-0930.0629620.30.2109780.01195544923473697124132014-12-1220.0602740.30.3364860.012169

77

user_idact_weightcounts_commonitem_id_xcounts_item_xitem_id_ycounts_item_ypowerrecommend941565166805026.132241176.0354309086.01.0337331963.02.0124.450793763.162218941547166805022.591208176.0337331963.02.0354309086.01.0124.450793322.477880941558166805026.13224122.0354309086.01.0177149139.01.022.000000134.9092954517695615456561.39303688.0131284675.01.0250218619.01.088.000000122.5871854517697615456561.39303677.0131284675.01.0270996967.01.077.000000107.2637874517934615456560.89071488.0250218619.01.0131284675.01.088.00000078.3828244517685615456561.39303655.0131284675.01.036667020.01.055.00000076.616990529309112799645.63994719.0168681351.02.0395358462.01.013.43502975.772847529307112799645.63994719.0168681351.02.0379008813.01.013.43502975.772847529306112799645.63994719.0168681351.02.0375010017.01.013.43502975.772847

7

需要先对用户人群进行分类,为了降低复杂性并实现群体用户画像标签的设计,暂时先随机对用户进行指定性别,以后有时间将对上部划分出来的用户群体进行画像标签设计

36

user_iditem_idact_weightsex04922548850.062311女14922548850.149319女24922548850.034617女349223160020.011955女449234736970.012169女
sexitem_idact_weight0女640.0089261女2700.0000932女3910.0003333女6680.0003694女8690.000324
sexitem_idweight_m_pweight_m_s0女640.00892626497.3339931女2700.00009326497.3339932女3910.00033326497.3339933女6680.00036926497.3339934女8690.00032426497.333993
item_idweight_w_pweight_w_s0370.00698153319.6027531640.00918053319.60275321770.00002853319.60275332700.00009353319.60275343680.00035853319.602753
    以上就是本篇文章【淘宝用户行为分析——用户画像】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/5606.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多