业界动态
小红书2020
2024-11-01 00:27

1. 小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为

解析

小红书2020

设价格增幅为X,利润为Y,顾客总数为常数M

Y = M * (1 -  X/100)X

  开口向下的二次函数求最大值:公式 / 求导

求导过程:


原方程求导后为,令m(1 - x/50)这个式子为0,求最值,求得 X = 50

注:导函数的几何意义是求曲线任意一个点的斜率,而最高点或最低点的切线是一条水平的线,所以令导数为0时可以求最值


2.  在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?

    解析考察多个几何分布的和

知识点1.:

            期望定义:是指实验中每个可能出现的结果乘以其概率的总和,反应随机变量平均取值的大小,即在多次试验的情况下预测能取得的结果

知识点2:几何分布的特点:

            1.一系列相互独立的试验   

            2.每次实验都有成功的概率和失败的概率   

            3.要求的是为了取得第一次成功需要进行多少次试验

            几何分布概率公式:     

                                                               ||

                                                 

                                                               ||

                                                  

            几何分布:期望是,方差是

观察题目描述,属于几何分布(独立检验,拿到每种卡片的概率相同,为了集卡要进行多次实验

本题分为几种情况:

       ①假设这里面只有一种卡片,拿一次就集齐了所有卡片,概率是1,期望是1/p = 1/1 = 1

       ②假设有两种卡片,第一次肯定拿到一种,期望是1;那么再拿多少次可以拿到另一种呢,这里又是一个几何分布,拿到第二种的概率p = 1/2,期望是1/p = 1/(1/2) = 2,那么总期望是 1 + 2 = 3

      ③假设有三种卡片,第一次拿到一种,期望是1;第二次拿到剩余两种中的一种卡片的概率是 2/3,那么拿到第二种的期望是3/2;第三次拿到第三种的概率是1/3,期望是3;所以总体期望是1+ 3/2 + 3 = 5.5

      ④假设有四种卡片,第一次一定拿到一种,概率是1,期望是1;第二次拿到剩余四种中的一种的概率是3/4,期望是4/3;第三次拿到四种中剩余两种的概率是1/2,期望是2;;第四次拿到最后一种的概率是1/4,期望是4;总期望 = 1 + 4/3 + 2 + 4 = 25/3

      ⑤假设有物种卡片,第一次一定拿到一种的概率是1,期望是1;第二次拿到五种中剩余四种的概率是4/5,期望是5/4;第三次拿到五种中的剩余三种的概率是3/5,期望是5/3;第四次拿到剩余两种中一种的概率是2/5,期望是5/2;第五次拿到最后一种的概率是1/5,期望是5;总期望是1 + 5/4 + 5/3 + 5/2 + 5 = 11.42

总期望为11.42


3. 在excel中如何将列a的字符值与列b的字符值合并为一个字符串c()

解析:

在c的单元格写公式:=(a&b)

python / sql 中的字符拼接都是 “+”


4. 调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 ()

解析

知识点1:

        重置抽样时,样本均值的方差为总体方差的,即

        不重置抽样时,样本均值的方差为

不重置抽样,样本均值方差公式

知识点2

    总体方差在题目里是,在我们的公式里是;

    样本方差:

    总体数量:N;

    样本数量:n;

知识点3

    N比较大,n/N大于等于5%,修正系数简化为1-n/N

    N比较大,n/N小于5%,按重置抽样计算

代入公式:(100/100)* {(1000-100)/ (1000 - 1)} = 100/111


5. 已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是

解析:考察定基增速与环比增速

知识点1:

    定基增长速度是指累计增长量与最初发展水平之比

知识点2

    在由环比增速推断定基增速时,可先将各环比增速加1(加1后变成环比发展速度)后连乘,再将结果减1

本题答案为:(105.6% X 107.1% X 108.5% X 106.4)-100%


6. 以下哪些是判别模型?

解析

知识点1

    判别模型:决策树、SVM、支持向量机、最大熵模型、KNN、线性回归、对数回归、线性判别分析、boosting、条件随机场、神经网络等

    生成模型:隐马尔可夫链、朴素贝叶斯模型、高斯混合模型、LDA等

知识点2

    判别模型:有限样本 ——> 判别函数 ——> 预测模型 ——> 预测

    生成模型:无穷样本 ——> 概率密度模型 ——> 产生模型 ——> 预测

知识点3

    判别模型举例:要确定羊是山羊还是绵羊,用判别模型方法是从历史数据学到模型,然后通过提取这只羊的特征来预测羊是山羊的概率,是绵羊的概率

    生成模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率,再放到绵阳模型中看概率

参考学习:机器学习之判别式模型和生成式模型 - nolonely - 博客园 (cnblogs.com)


7. 关于正态分布:

知识点1:正态分布曲线对称,具有对成性,均值和中位数位于中央,具有集中性

知识点2:正态分布的均值决定了曲线的中央位置,方差指出了分散性,也就是方差越大,曲线越扁平、越宽,决定了其形态

知识点3:标准正态分布均值为0.方差为1

知识点4:标准正态分布偏度为0 峰度为0


8. X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率

解析考察二项分布用法

知识点1:

    二项分布中,我们关注的是获得成功的次数

知识点2:X ~ B(n,p)

知识点3:X表示n次实验中成功的次数,如果要求成功r次的概率可以用如下公式      

                 

                

                

知识点4:

    期望:

    方差:

在本题中:大于2的概率p = 3/4,q = 1/4,n = 3

至少2次观测值大于2的概率,就是求P(X = 2)+P(X = 3)

代入公式最后结果为27/32

参考学习:离散型随机变量的概率分布 (qq.com)


9. 抽样估计的优良标准有三个:影响时间序列的因素有四个:

解析:考察统计学中的抽样估计、时间序列的基本概念

三个标准:无偏性、一致性、有效性

四个因素:长期趋势、季节变动、循环波动、不规则波动


10. 常见的聚类算法:

K-means聚类、K-中心点聚类、EM算法、OPTICS算法、DBSCAN算法

知识点1

    聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。

知识点2:聚类与分类的算法

    聚类:是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种无监督学习(Unsupervised Learning)方法

分类:是把不同的数据划分开,其过程是通过训练数据集获得一个分类器,再通过分类器去预测未知数据,分类是一种监督学习(Supervised Learning)方法

参考学习:常用聚类算法 - 知乎 (zhihu.com)


11. 小红书人脸识别系统识别当前进入小红书公司人员的身份,此系统一共识别三种不同的人员:员工,送餐员和陌生人。哪种学习方法适合此种应用需求

解析:考察机器学习的应用

知识点1:

    二分类:每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类不可取

    多分类问题:针对不同的属性训练几个不同的弱分类器,然后将它们集成为一个强分类器

    聚类问题适合处理无标签,本题中已给标签,不合适

    K— 中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。聚类问题不可取

    回归分析:处理变量间具有相关性的一种统计方法

    结构分析:结构分析法是在统计分组的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法


12. 小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升

解析:两种方法:A/BTest 或者假设检验

假设检验:

    假定,用户浏览时长为 stay_time

    将用户分为两组,一组为对照组,代表新模块上线前的用户浏览时长stay_time1;另一组为实验组,代表新模块上线后用户浏览时长stay_time2    

    ①原假设H0:新模块上线后用户的浏览时长没有提升 stay_time2<=stay_time1

    备选假设H1:新模块上线后用户的浏览时长有提升 stay_time2>stay_time1

    预先设定检验显著水准为0.05

    ②计算最小样本量,采集数据考虑到指标的周期性,时间周期选取2周

    采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。如无异常,继续采集数据

    ③使用T检验,计算P值

    ④如果P<0.05则拒绝原假设H0,接受备选假设H1,新模块上线后用户的浏览时长有提升 ;反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长


13. 下表是某电商在不同品类不同月份的销量数据

(1) 请用sumif或 sumifs在F3单元格实现计算洗面奶在201901的销量

(2) 请用函数实现计算洗面奶有几个月的销量超过了100万

(3) 请用函数计算洗面奶这个品类的月复合增长率


解析:考察excel应用

知识点1

    sumifs(求和区域,条件区域1,条件值1,条件区域2,条件值2)

    sumif(条件区域,条件值,求和区域)

知识点2

    countifs(条件区域1,条件值,条件区域2,条件2)

知识点3:复合增长率 = (现有价值 / 基础价值)^(1/期数) - 1

知识点4

    power函数:数字乘幂函数

    power(底数,幂数)

本题中的月复合增长率,用power函数: = power(160 - 120,1/3)-1


14. 有订单事物表orders:

orders

事物收藏表favorites:

favorites

用一句sql取出所有用户对商品的行为特征,结果表如下:

结果表

select o.user_id,o.item_id, case when o.pay_time is not null then 1 else 0 end as "已购买",case when o.pay_time is not null and f.fav_time is null then 1 else 0 end as "购买未收藏",case when o.pay_time is null and f.fav_time is not null then 1 else 0 end as "收藏未购买",case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end as "收藏且购买"from orders o left join favorites f on o.user_id=f.user_id,o.item_id=f.item_id             union                                                                                                              select f.user_id,f.item_id,case when o.pay_time is not null then 1 else 0 end as "已购买",case when o.pay_time is not null and f.fav_time is null then 1 else 0 end as "购买未收藏",case when o.pay_time is null and f.fav_time is not null then 1 else 0 end as "收藏未购买",case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end as "收藏且购买"from orders o right join favorites f on o.user_id=f.user_id,o.item_id=f.item_idorder by user_id,item_id;


15. 好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日,用户'小张'提交的"母婴"类目"DW"品牌的好评率(好评率=“好评”评价量/总评价量),请写出SQL/Python/其他语言查询语句:

用户评价详情表:a

字段:id(评价id,主键),create_time(评价创建时间,格式'2019-01-01'), user_name(用户名称),goods_id(商品id,外键) ,sub_time(评价提交时间,格式'2019-01-01 23:10:32'),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)

商品详情表:b

字段:goods_id(商品id,主键),goods_name(商品类目), brand_name(品牌名称)

解析:

select sum(case when sat_name = '好评' then 1 else 0 end)  /  sum (case when sat_name is noy null then 1 else 0 end) as 好评率

from a , b 

on a.goods_id = b.goods_id

where

user_name = '小张' 

and sub_time between '2019-03-01' and '2019-03-31'

and goods_name = '母婴'

and brand_name = 'DW'


16. 经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。

解析:

知识点1:假设检验分析法

知识点2:T检验

知识点3:ABtest

指标:相关商品点击率(点击 / 曝光);进入商详页后购买转化率(点击 / 购买);销售总额(GMV)

方法:假设检验

1. 

    H0:使用新算法后没有效果(上述指标不变或者下降)

    H1:使用新算法后有效果(指标提高)

2. 选择一个时间段进行ABTest

3. T检验,计算P值

4. 分析结果:如果P < 0.05则拒绝原假设,接受备选假设,反之则不能推翻原假设,不能确定


17. 如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法

解析:

1. 假设数据源无误

2. 假设此次下降50%拉长时间维度后是异常的

3. 假设客观因素无异常

4. 从用户(新/老用户、或者按照地区、性别等维度拆解)、产品(从采购到售后等一系列流程)、市场三各维度拆解指标(竞品、风控、营销)

5. 从业务流程梳理,定位到具体的业务环节

6. 提出改进建议


18. 某APP 7月份DAU比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路

解析:

在保证数据无异常的前提下

思路一:按短期和长期因素拆分

长期因素表现在用户量的长期趋势,比如这一年的app DAU整体呈现上升趋势,可估算5-7月的增长量(比如使用移动平均等预测手法计算)。

在排除长期因素导致的之外,考虑短期因素,5-7月有无外部客观事件造成App关注度上升,行业事件可考虑商业合作和商业活动等(618),可以用各月的舆论热度作为对比指标

思路二:按时空维度拆分

可以将日活按照地区城市的粒度细拆,然后进行对比,看看是那些城市维度导致,比如可以分析这些城市的渗透率变化,看看是否可日活变化不大的城市相差较大,若大,则考虑归功于业务推广;若所有城市日活都在上升,则考虑其他因素,如竞品退出、市场趋势、产品改进等有关。

思路三:按用户拆分

活跃用户数可以简单拆分为注册用户数*活跃率,可以进一步拆分新用户数,新用户活跃率,不同来源渠道新用户数,对应渠道新用户活跃率,老用户数,老用户活跃率等等,从多维度拆分,了解变化最大的细分维度,定位问题

思路四:相关因素分析

了解与活跃用户相关的内部和外部因素,如内部发新版本,运营活动等,外部的比如品牌宣传,竞品行为,行业变化等,将对应的内容与活跃用户数据进行相关性分析,了解实际的影响因素,定位问题

定位问题后,预测8月整体趋势变化,和运营沟通调整


19. 挑选任意一款你使用过的社区类APP(不包括小红书),回答以下问题:

(1)描述使用这款APP的用户特征,并比较该APP用户特征与小红书用户特征的异同

(2)预估每一天有多少人在这款app上发布内容。请写出你需要的辅助数据,并简述预估的方法

(3)你选择的这款APP近期拟邀请ABC三组艺人中的一组开展联动活动,活动的主要目的为提升DAU。

在活动形式完全一致的前提下,你将选择哪一组?

作答要求:1)简述分析思路,2)列出对应的数据指标

解析:

①b站:

    用户特征:用户年龄年轻化12-30、男性占比高于女性占比、兴趣方向标签为:动漫、游戏、国创、有趣、知识

    小红书:用户年龄18-30,女性高于男性、兴趣方向为:美妆、护肤、旅游

②发布内容数 = 人均产出数 * 平均日活

人均产出数 = b站所有自投视频数 / b站用户数

平均日活 = 某段时间内每日活跃用户数之和 / 某段时间

别人的答案:前三个月内每天在app上发布内容的人数,用线性回归模型对数据进行拟合得到预估的下一周每天在app上发布内容的人数

③我会选择活动内容更贴近b站用户心理的活动


20. 经过一番研究,我们决定在新用户首次激活APP时增加一个短视频介绍页面来增加用户对产品的感知,并且打算通过AB Test(50%为控制组,50%的用户首次激活时会看到短视频介绍)来进行评估。假如你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请列出你认为重要的指标,给出分析过程和可能用到的统计方法。

解析:

指标:跳出率、观看时长、各功能使用转化率

方法:假设检验

H0:新增视频对app无正面作用

H1:——有正面作用

T检验,算P值,P < 0.05,拒绝H0,接受H1,若大于,则无法判断

21. 小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少?

解析:

营业额 = 销售量 * 客单价

销量的影响因子:库存(20平米)、消费容量(购买力)、地点(周围竞争对手的影响)

客单价的影响因子:产品组合、竞争对手营销活动

面积20平方米,货品是零食与饮料,主要客群是小红书员工。假设周围不存在竞争对手,且没有其他客源。

以全家的陈设为参照对象,零食摆三个货架陈列,饮料两个冰柜。零食一个货架三层,每层100件sku,零食库存估计900件。饮料同理,货架三层,每层25件,库存150件。

小红书员工2000人,平均一天消费人次占20%(包括重复消费),则一周人次达2800,假设每周库存平均可销售200%,则销量分别计1800件,300件。

单价:零食平均7元,饮料包括酸奶平均7元。

则营业额预估 (1800*7+300*7) = 15700元

22.如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?

解析:用户的位置信息能做什么事。比如根据位置信息可以获取用户的行为轨迹,进而分析出用户的行为习惯,进行相应的实时推荐服务

1.App可以根据定位信息获取用户的生活区域,从而分析出用户的消费水平,推荐相应价格区间适合用户消费的商品。

2.App可以根据定位信息获取用户的生活以及消费习惯,例如如果用户经常出入健身房可以推荐运动器材,如果用户经常出入服装店,美容店餐厅等地可以为用户推荐服装,美容项目等。

    以上就是本篇文章【小红书2020】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/7557.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
“撒旦”人血鞋?碰瓷新疆棉花的耐克,又开始喊冤了?
继主动碰瓷新疆棉花把自己搞得股价大跌之后耐克秉承着“no zuo no die”的精神又开始暗搓搓搞“阴间操作”限量发售含人血的“撒
tiktok怎么搭建外网 详细教程及步骤
TikTok怎么搭建外网(详细教程及步骤)TikTok是一款非常流行的短视频社交应用程序,它在全球范围内拥有数亿用户。在使用TikTok的
《以案释法》步数越多,收益越高?别被“走路也能赚钱”的理财广告忽悠了
  走路也能赚到钱的理财  “丑的人还在睡觉,美的人已经跑出一杯星巴克了。”2016年的一天,一个女孩晒出的朋友圈截图引起了
如何用生意参谋算出同行店铺真实销售额
怎么经过生意顾问算出同行店肆实在销售额?大多数在淘宝天猫工作过的人都知道,他们的背景显现了同行商铺的买卖数据,这被称为买
一款最近比较火的网站统计分析系统,易分析具有什么样的功能呢?
一、产品简介北京普艾斯科技有限公司成立于2009年,服务客户1000+,包括电商、金融、保险、政务服务等行业。私有化部署,全渠道
向佐快乐大本营2024年精彩回顾:四年时光共欢笑
张大大谢娜力捧下的综艺新星张大大一位在娱乐圈中颇具人气的主持人他的成名之路离不开谢娜的提携回顾张大大的成名之路可以说谢娜
PingTools app
《PingTools app》是一款非常好用的实用工具软件,软件内拥有丰富的功能,包含了包括浏览器扫描等。使用非常简单,直接下载安装
抖音能看到谁搜索过自己吗?
尊敬的用户,您好。针对抖音平台是否能够查看谁搜索过自己的问题,我们需要做一些详细说明。首先,根据我们了解到的情况,在抖音
什么是人工智能“语料库”?为什么每个人都在谈论它?
编者按:比尔盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”
LED行业词语中英对应
1、led 灯具构成英文led 球泡灯:led bulbLed 贴片灯珠:SMD LEDLed驱动电源:led driver隔离电源:isolated driver非隔离电源:
本企业新闻