数据集是淘宝一个月的用户行为数据,数据包括user_id,item_id,behavior_type,user_geohash,item_category,time六个字段,共有100多万条记录,考虑数据集太大,为了提高运行效率,只随机抽取20%的数据;另外,由于数据集的局限,此项目的画像标签只是庞大用户画像的一部分,基于已有的数据集进行制作。
<class ‘pandas.core.frame.Dataframe’>
Int64Index: 4658205 entries, 13077081 to 21758719
Data columns (total 6 columns):
user_id int64
item_id int64
behavior_type int64
user_geohash object
item_category int64
time object
dtypes: int64(4), object(2)
memory usage: 248.8+ MB
(4658205, 6)
user_id 0
item_id 0
behavior_type 0
user_geohash 3183516
item_category 0
time 0
dtype: int64
- 只有user_geohash有缺失值,且缺失的比例很高,无统计分析的意义,将此列删除
| user_id | hour |
---|
0 | 492 | 晚上 |
1 | 3726 | 晚上 |
2 | 19137 | 晚上 |
3 | 36465 | 下午 |
4 | 37101 | 下午 |
| user_id | hour |
---|
0 | 38745 | 中午 |
1 | 45561 | 上午,中午 |
2 | 53394 | 晚上 |
3 | 59436 | 晚上 |
4 | 100605 | 凌晨 |
168
3.3.1 浏览最多的类目
| user_id | item_category |
---|
0 | 492 | 6344 |
1 | 3726 | 5027 |
2 | 19137 | 3695,3942 |
3 | 36465 | 12997 |
4 | 37101 | 1863 |
3.3.2 收藏最多的类目
| user_id | item_category |
---|
0 | 36465 | 12997 |
1 | 38745 | 10523 |
2 | 45561 | 3783 |
3 | 59436 | 11159 |
4 | 60723 | 354,2939,6900,8270,8665,10242,11304,11991 |
3.3.3 加购最多的类目
| user_id | item_category |
---|
0 | 3726 | 6000 |
1 | 37101 | 6344 |
2 | 45561 | 1863,6648 |
3 | 59436 | 2754 |
4 | 61797 | 13230 |
3.3.4 购买最多的类目
| user_id | item_category |
---|
0 | 38745 | 10556 |
1 | 45561 | 6717,10559 |
2 | 53394 | 13500 |
3 | 59436 | 4370 |
4 | 100605 | 930,3783,11455 |
- 数据集中的数据正好是一个月,30天的数据即整个数据集的数据
3.4.1 近30天购买次数
| user_id | item_id |
---|
0 | 38745 | 2 |
1 | 45561 | 2 |
2 | 53394 | 1 |
3 | 59436 | 4 |
4 | 100605 | 3 |
3.4.2 近30天加购次数
| user_id | item_id |
---|
0 | 3726 | 1 |
1 | 37101 | 1 |
2 | 45561 | 22 |
3 | 59436 | 9 |
4 | 61797 | 5 |
3.4.3 近30天活跃天数
user_id
492 11
3726 15
19137 6
36465 7
37101 19
Name: date, dtype: int64
238
3.5.1 近7天购买次数
| user_id | item_id |
---|
0 | 45561 | 2 |
1 | 59436 | 1 |
2 | 100605 | 2 |
3 | 100890 | 1 |
4 | 131694 | 2 |
3.5.2 近7天加购次数
| user_id | item_id |
---|
0 | 3726 | 1 |
1 | 45561 | 9 |
2 | 59436 | 7 |
3 | 100605 | 2 |
4 | 131694 | 3 |
3.5.3 近7天活跃天数
user_id
492 4
3726 5
19137 1
36465 2
37101 5
Name: date, dtype: int64
3.6.1 上次浏览距今天数
user_id
492 1
3726 1
19137 7
36465 3
37101 3
Name: date, dtype: int64
3.6.2 上次加购距今天数
user_id
3726 1
37101 8
45561 1
59436 4
61797 18
Name: date, dtype: int64
3.6.3上次购买距今天数
user_id
38745 23
45561 6
53394 22
59436 7
100605 7
Name: date, dtype: int64
42
| user_id | interval_buy |
---|
0 | 59436 | 2 |
1 | 100605 | 3 |
2 | 106362 | 2 |
3 | 131694 | 3 |
4 | 137907 | 9 |
70
| user_id | browse_not_buy |
---|
0 | 492 | 34 |
1 | 3726 | 68 |
2 | 19137 | 10 |
3 | 36465 | 12 |
4 | 37101 | 118 |
| user_id | cart_not_buy |
---|
0 | 3726 | 1 |
1 | 37101 | 1 |
2 | 38745 | 0 |
3 | 45561 | 22 |
4 | 53394 | 0 |
| user_id | buy_again |
---|
0 | 38745 | 2 |
1 | 45561 | 2 |
2 | 53394 | 1 |
3 | 59436 | 4 |
4 | 100605 | 3 |
Text(0.5, 0, ‘访问次数’)
**分析:**14次左右是个拐点,因此定义购买次数小于等于14次为低活跃,大于14次为高活跃,此定义只是从用户的分布角度出发,工作中当从业务出发定义是否活跃。
Text(0.5, 0, ‘距今天数’)
注:访问异常的那天为双12
重要深耕客户 7167
重要价值客户 7142
即将流失客户 5631
重要唤回客户 16
Name: rfm, dtype: int64
| user_id | time_browse | time_buy | cate_most_browse | cate_most_collect | cate_most_cart | cate_most_buy | counts_30_buy | counts_30_cart | counts_30_active | … | days_cart | days_buy | interval_buy | browse_not_buy | cart_not_buy | buy_again | user_active_level | buy_active_level | buy_single | rfm |
---|
0 | 34517089 | 中午 | 上午 | 11241 | 11824 | 603 | 603 | 1.0 | 3.0 | 24 | … | 18.0 | 18.0 | NaN | 是 | 是 | 否 | 高 | 低 | 否 | 即将流失客户 |
1 | 136592808 | 下午 | 下午 | 7098 | 10879 | 7957 | 7957,9772,12753 | 3.0 | 5.0 | 21 | … | 6.0 | 2.0 | 1.0 | 是 | 是 | 是 | 高 | 低 | 是 | 重要深耕客户 |
2 | 117599174 | 上午 | 凌晨,上午,下午,晚上 | 5894 | 6054 | 6936,8291,9102 | 2949,5550,10258,12982 | 4.0 | 3.0 | 25 | … | 2.0 | 7.0 | 4.0 | 是 | 是 | 是 | 高 | 低 | 是 | 重要深耕客户 |
3 | 38516732 | 晚上 | 下午 | 9693 | 3783 | 9397,13926 | 10500 | 11.0 | 41.0 | 29 | … | 2.0 | 2.0 | 3.0 | 是 | 是 | 是 | 高 | 低 | 是 | 重要深耕客户 |
4 | 29120381 | 晚上 | NaN | 6513 | NaN | 3944 | NaN | NaN | 4.0 | 13 | … | 2.0 | NaN | NaN | 是 | 是 | 未购买 | 低 | 高 | 未购买 | 重要价值客户 |
接下来是对用户画像的详细分析,包括用户个性化标签、用户偏好标签、群体偏好标签,涉及到TF-IDF算法、余弦相似度算法
| user_id | item_id | behavior_type | item_category | time | behavior_count |
---|
0 | 492 | 254885 | 1 | 6344 | 2014-12-07 | 9 |
1 | 492 | 254885 | 3 | 6344 | 2014-12-07 | 1 |
2 | 492 | 254885 | 4 | 6344 | 2014-12-07 | 1 |
3 | 492 | 2316002 | 1 | 6247 | 2014-12-09 | 3 |
4 | 492 | 3473697 | 1 | 2413 | 2014-12-12 | 2 |
101
浏览行为,权重0.3
收藏行为,权重0.5
加购行为,权重1
购买行为,权重1.5
| user_id | item_id | behavior_type | item_category | time | behavior_count | tfidf_ratio | act_weight_plan | time_reduce_ratio | act_weight |
---|
0 | 492 | 254885 | 1 | 6344 | 2014-12-07 | 9 | 0.149319 | 0.3 | 0.154556 | 0.062311 |
1 | 492 | 254885 | 3 | 6344 | 2014-12-07 | 1 | 0.149319 | 1.0 | 1.000000 | 0.149319 |
2 | 492 | 254885 | 4 | 6344 | 2014-12-07 | 1 | 0.149319 | 1.5 | 0.154556 | 0.034617 |
3 | 492 | 2316002 | 1 | 6247 | 2014-12-09 | 3 | 0.062962 | 0.3 | 0.210978 | 0.011955 |
4 | 492 | 3473697 | 1 | 2413 | 2014-12-12 | 2 | 0.060274 | 0.3 | 0.336486 | 0.012169 |
77
| user_id | act_weight | counts_common | item_id_x | counts_item_x | item_id_y | counts_item_y | power | recommend |
---|
941565 | 16680502 | 6.132241 | 176.0 | 354309086.0 | 1.0 | 337331963.0 | 2.0 | 124.450793 | 763.162218 |
941547 | 16680502 | 2.591208 | 176.0 | 337331963.0 | 2.0 | 354309086.0 | 1.0 | 124.450793 | 322.477880 |
941558 | 16680502 | 6.132241 | 22.0 | 354309086.0 | 1.0 | 177149139.0 | 1.0 | 22.000000 | 134.909295 |
4517695 | 61545656 | 1.393036 | 88.0 | 131284675.0 | 1.0 | 250218619.0 | 1.0 | 88.000000 | 122.587185 |
4517697 | 61545656 | 1.393036 | 77.0 | 131284675.0 | 1.0 | 270996967.0 | 1.0 | 77.000000 | 107.263787 |
4517934 | 61545656 | 0.890714 | 88.0 | 250218619.0 | 1.0 | 131284675.0 | 1.0 | 88.000000 | 78.382824 |
4517685 | 61545656 | 1.393036 | 55.0 | 131284675.0 | 1.0 | 36667020.0 | 1.0 | 55.000000 | 76.616990 |
529309 | 11279964 | 5.639947 | 19.0 | 168681351.0 | 2.0 | 395358462.0 | 1.0 | 13.435029 | 75.772847 |
529307 | 11279964 | 5.639947 | 19.0 | 168681351.0 | 2.0 | 379008813.0 | 1.0 | 13.435029 | 75.772847 |
529306 | 11279964 | 5.639947 | 19.0 | 168681351.0 | 2.0 | 375010017.0 | 1.0 | 13.435029 | 75.772847 |
7
需要先对用户人群进行分类,为了降低复杂性并实现群体用户画像标签的设计,暂时先随机对用户进行指定性别,以后有时间将对上部划分出来的用户群体进行画像标签设计
36
| user_id | item_id | act_weight | sex |
---|
0 | 492 | 254885 | 0.062311 | 女 |
1 | 492 | 254885 | 0.149319 | 女 |
2 | 492 | 254885 | 0.034617 | 女 |
3 | 492 | 2316002 | 0.011955 | 女 |
4 | 492 | 3473697 | 0.012169 | 女 |
| sex | item_id | act_weight |
---|
0 | 女 | 64 | 0.008926 |
1 | 女 | 270 | 0.000093 |
2 | 女 | 391 | 0.000333 |
3 | 女 | 668 | 0.000369 |
4 | 女 | 869 | 0.000324 |
| sex | item_id | weight_m_p | weight_m_s |
---|
0 | 女 | 64 | 0.008926 | 26497.333993 |
1 | 女 | 270 | 0.000093 | 26497.333993 |
2 | 女 | 391 | 0.000333 | 26497.333993 |
3 | 女 | 668 | 0.000369 | 26497.333993 |
4 | 女 | 869 | 0.000324 | 26497.333993 |
| item_id | weight_w_p | weight_w_s |
---|
0 | 37 | 0.006981 | 53319.602753 |
1 | 64 | 0.009180 | 53319.602753 |
2 | 177 | 0.000028 | 53319.602753 |
3 | 270 | 0.000093 | 53319.602753 |
4 | 368 | 0.000358 | 53319.602753 |
以上就是本篇文章
【淘宝用户行为分析——用户画像】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/5606.html
行业
资讯
企业新闻
行情
企业黄页
同类资讯
网站地图
返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多