1. 小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为
解析:
设价格增幅为X,利润为Y,顾客总数为常数M
Y = M * (1 - X/100)X
开口向下的二次函数求最大值:公式 / 求导
求导过程:
原方程求导后为,令m(1 - x/50)这个式子为0,求最值,求得 X = 50
注:导函数的几何意义是求曲线任意一个点的斜率,而最高点或最低点的切线是一条水平的线,所以令导数为0时可以求最值
2. 在一次集卡活动中,有5种不同的卡片以相同的概率出现,每分享一次笔记就可以得到一张卡片,集齐所有卡片所需点赞的笔记数量的期望,与以下哪个结果最为接近?
解析:考察多个几何分布的和
知识点1.:
期望定义:是指实验中每个可能出现的结果乘以其概率的总和,反应随机变量平均取值的大小,即在多次试验的情况下预测能取得的结果
知识点2:几何分布的特点:
1.一系列相互独立的试验
2.每次实验都有成功的概率和失败的概率
3.要求的是为了取得第一次成功需要进行多少次试验
几何分布概率公式:
||
||
几何分布:期望是,方差是
观察题目描述,属于几何分布(独立检验,拿到每种卡片的概率相同,为了集卡要进行多次实验
本题分为几种情况:
①假设这里面只有一种卡片,拿一次就集齐了所有卡片,概率是1,期望是1/p = 1/1 = 1
②假设有两种卡片,第一次肯定拿到一种,期望是1;那么再拿多少次可以拿到另一种呢,这里又是一个几何分布,拿到第二种的概率p = 1/2,期望是1/p = 1/(1/2) = 2,那么总期望是 1 + 2 = 3
③假设有三种卡片,第一次拿到一种,期望是1;第二次拿到剩余两种中的一种卡片的概率是 2/3,那么拿到第二种的期望是3/2;第三次拿到第三种的概率是1/3,期望是3;所以总体期望是1+ 3/2 + 3 = 5.5
④假设有四种卡片,第一次一定拿到一种,概率是1,期望是1;第二次拿到剩余四种中的一种的概率是3/4,期望是4/3;第三次拿到四种中剩余两种的概率是1/2,期望是2;;第四次拿到最后一种的概率是1/4,期望是4;总期望 = 1 + 4/3 + 2 + 4 = 25/3
⑤假设有物种卡片,第一次一定拿到一种的概率是1,期望是1;第二次拿到五种中剩余四种的概率是4/5,期望是5/4;第三次拿到五种中的剩余三种的概率是3/5,期望是5/3;第四次拿到剩余两种中一种的概率是2/5,期望是5/2;第五次拿到最后一种的概率是1/5,期望是5;总期望是1 + 5/4 + 5/3 + 5/2 + 5 = 11.42
总期望为11.42
3. 在excel中如何将列a的字符值与列b的字符值合并为一个字符串c()
解析:
在c的单元格写公式:=(a&b)
python / sql 中的字符拼接都是 “+”
4. 调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 ()
解析:
知识点1:
重置抽样时,样本均值的方差为总体方差的,即
不重置抽样时,样本均值的方差为
知识点2:
总体方差在题目里是,在我们的公式里是;
样本方差:
总体数量:N;
样本数量:n;
知识点3:
N比较大,n/N大于等于5%,修正系数简化为1-n/N
N比较大,n/N小于5%,按重置抽样计算
代入公式:(100/100)* {(1000-100)/ (1000 - 1)} = 100/111
5. 已知2-5月环比增长速度分别为5.6%、7.1%、8.5%、6.4%,则5月对比1月的增速是
解析:考察定基增速与环比增速
知识点1:
定基增长速度是指累计增长量与最初发展水平之比
知识点2:
在由环比增速推断定基增速时,可先将各环比增速加1(加1后变成环比发展速度)后连乘,再将结果减1
本题答案为:(105.6% X 107.1% X 108.5% X 106.4)-100%
6. 以下哪些是判别模型?
解析:
知识点1:
判别模型:决策树、SVM、支持向量机、最大熵模型、KNN、线性回归、对数回归、线性判别分析、boosting、条件随机场、神经网络等
生成模型:隐马尔可夫链、朴素贝叶斯模型、高斯混合模型、LDA等
知识点2:
判别模型:有限样本 ——> 判别函数 ——> 预测模型 ——> 预测
生成模型:无穷样本 ——> 概率密度模型 ——> 产生模型 ——> 预测
知识点3:
判别模型举例:要确定羊是山羊还是绵羊,用判别模型方法是从历史数据学到模型,然后通过提取这只羊的特征来预测羊是山羊的概率,是绵羊的概率
生成模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率,再放到绵阳模型中看概率
参考学习:机器学习之判别式模型和生成式模型 - nolonely - 博客园 (cnblogs.com)
7. 关于正态分布:
知识点1:正态分布曲线对称,具有对成性,均值和中位数位于中央,具有集中性
知识点2:正态分布的均值决定了曲线的中央位置,方差指出了分散性,也就是方差越大,曲线越扁平、越宽,决定了其形态
知识点3:标准正态分布均值为0.方差为1
知识点4:标准正态分布偏度为0 峰度为0
8. X服从区间(1,5)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于2的概率
解析:考察二项分布用法
知识点1:
二项分布中,我们关注的是获得成功的次数
知识点2:X ~ B(n,p)
知识点3:X表示n次实验中成功的次数,如果要求成功r次的概率可以用如下公式
知识点4:
期望:
方差:
在本题中:大于2的概率p = 3/4,q = 1/4,n = 3
至少2次观测值大于2的概率,就是求P(X = 2)+P(X = 3)
代入公式最后结果为27/32
参考学习:离散型随机变量的概率分布 (qq.com)
9. 抽样估计的优良标准有三个:影响时间序列的因素有四个:
解析:考察统计学中的抽样估计、时间序列的基本概念
三个标准:无偏性、一致性、有效性
四个因素:长期趋势、季节变动、循环波动、不规则波动
10. 常见的聚类算法:
K-means聚类、K-中心点聚类、EM算法、OPTICS算法、DBSCAN算法
知识点1:
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
知识点2:聚类与分类的算法
聚类:是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种无监督学习(Unsupervised Learning)方法
分类:是把不同的数据划分开,其过程是通过训练数据集获得一个分类器,再通过分类器去预测未知数据,分类是一种监督学习(Supervised Learning)方法
参考学习:常用聚类算法 - 知乎 (zhihu.com)
11. 小红书人脸识别系统识别当前进入小红书公司人员的身份,此系统一共识别三种不同的人员:员工,送餐员和陌生人。哪种学习方法适合此种应用需求
解析:考察机器学习的应用
知识点1:
二分类:每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类不可取
多分类问题:针对不同的属性训练几个不同的弱分类器,然后将它们集成为一个强分类器
聚类问题适合处理无标签,本题中已给标签,不合适
K— 中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。聚类问题不可取
回归分析:处理变量间具有相关性的一种统计方法
结构分析:结构分析法是在统计分组的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法
12. 小红书在首页上线了一个新的模块,目的是为了提升用户的浏览时长,请设计一套分析方案,衡量模块上线后对用户停留时长是否有提升
解析:两种方法:A/BTest 或者假设检验
假设检验:
假定,用户浏览时长为 stay_time
将用户分为两组,一组为对照组,代表新模块上线前的用户浏览时长stay_time1;另一组为实验组,代表新模块上线后用户浏览时长stay_time2
①原假设H0:新模块上线后用户的浏览时长没有提升 stay_time2<=stay_time1
备选假设H1:新模块上线后用户的浏览时长有提升 stay_time2>stay_time1
预先设定检验显著水准为0.05
②计算最小样本量,采集数据考虑到指标的周期性,时间周期选取2周
采集实验开始前一天,两组用户的数据,是否存在明显差异,如无,继续观察前两天的数据,是否存在异常。如无异常,继续采集数据
③使用T检验,计算P值
④如果P<0.05则拒绝原假设H0,接受备选假设H1,新模块上线后用户的浏览时长有提升 ;反之,不能推翻原假设,不能判断新的模块是否能提升用户停留时长
13. 下表是某电商在不同品类不同月份的销量数据
(1) 请用sumif或 sumifs在F3单元格实现计算洗面奶在201901的销量
(2) 请用函数实现计算洗面奶有几个月的销量超过了100万
(3) 请用函数计算洗面奶这个品类的月复合增长率
解析:考察excel应用
知识点1:
sumifs(求和区域,条件区域1,条件值1,条件区域2,条件值2)
sumif(条件区域,条件值,求和区域)
知识点2:
countifs(条件区域1,条件值,条件区域2,条件2)
知识点3:复合增长率 = (现有价值 / 基础价值)^(1/期数) - 1
知识点4:
power函数:数字乘幂函数
power(底数,幂数)
本题中的月复合增长率,用power函数: = power(160 - 120,1/3)-1
14. 有订单事物表orders:
事物收藏表favorites:
用一句sql取出所有用户对商品的行为特征,结果表如下:
select o.user_id,o.item_id, case when o.pay_time is not null then 1 else 0 end as "已购买",case when o.pay_time is not null and f.fav_time is null then 1 else 0 end as "购买未收藏",case when o.pay_time is null and f.fav_time is not null then 1 else 0 end as "收藏未购买",case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end as "收藏且购买"from orders o left join favorites f on o.user_id=f.user_id,o.item_id=f.item_id union select f.user_id,f.item_id,case when o.pay_time is not null then 1 else 0 end as "已购买",case when o.pay_time is not null and f.fav_time is null then 1 else 0 end as "购买未收藏",case when o.pay_time is null and f.fav_time is not null then 1 else 0 end as "收藏未购买",case when o.pay_time is not null and f.fav_time is not null then 1 else 0 end as "收藏且购买"from orders o right join favorites f on o.user_id=f.user_id,o.item_id=f.item_idorder by user_id,item_id;
15. 好评率是用户对产品评价的重要指标。现在需要统计2019年3月1日到2019年3月31日,用户'小张'提交的"母婴"类目"DW"品牌的好评率(好评率=“好评”评价量/总评价量),请写出SQL/Python/其他语言查询语句:
用户评价详情表:a
字段:id(评价id,主键),create_time(评价创建时间,格式'2019-01-01'), user_name(用户名称),goods_id(商品id,外键) ,sub_time(评价提交时间,格式'2019-01-01 23:10:32'),sat_name(好评率类型,包含:“好评”、“中评”、“差评”)
商品详情表:b
字段:goods_id(商品id,主键),goods_name(商品类目), brand_name(品牌名称)
解析:
select sum(case when sat_name = '好评' then 1 else 0 end) / sum (case when sat_name is noy null then 1 else 0 end) as 好评率
from a , b
on a.goods_id = b.goods_id
where
user_name = '小张'
and sub_time between '2019-03-01' and '2019-03-31'
and goods_name = '母婴'
and brand_name = 'DW'
16. 经过一番研究后,我们开发出了商品页面上“相关商品”模块的一个新的推荐算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来对新的算法效果进行评估。假设你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?(假设需要数据都可取到)请按重要性列出最重要的三个指标并给出你的分析过程/思考。
解析:
知识点1:假设检验分析法
知识点2:T检验
知识点3:ABtest
指标:相关商品点击率(点击 / 曝光);进入商详页后购买转化率(点击 / 购买);销售总额(GMV)
方法:假设检验
1.
H0:使用新算法后没有效果(上述指标不变或者下降)
H1:使用新算法后有效果(指标提高)
2. 选择一个时间段进行ABTest
3. T检验,计算P值
4. 分析结果:如果P < 0.05则拒绝原假设,接受备选假设,反之则不能推翻原假设,不能确定
17. 如果我们发现,某店铺的X品类在今年3月的销量,比去年3月的销量下降了50%,如果你是负责此次分析的数据分析师,你会如何分析?请写出你的分析思路/过程/想法
解析:
1. 假设数据源无误
2. 假设此次下降50%拉长时间维度后是异常的
3. 假设客观因素无异常
4. 从用户(新/老用户、或者按照地区、性别等维度拆解)、产品(从采购到售后等一系列流程)、市场三各维度拆解指标(竞品、风控、营销)
5. 从业务流程梳理,定位到具体的业务环节
6. 提出改进建议
18. 某APP 7月份DAU比同年5月份上涨了10%,作为数据分析师,你会从哪些方面分析DAU增长的原因? 请列举至少两种以上拆分思路
解析:
在保证数据无异常的前提下
思路一:按短期和长期因素拆分
长期因素表现在用户量的长期趋势,比如这一年的app DAU整体呈现上升趋势,可估算5-7月的增长量(比如使用移动平均等预测手法计算)。
在排除长期因素导致的之外,考虑短期因素,5-7月有无外部客观事件造成App关注度上升,行业事件可考虑商业合作和商业活动等(618),可以用各月的舆论热度作为对比指标
思路二:按时空维度拆分
可以将日活按照地区城市的粒度细拆,然后进行对比,看看是那些城市维度导致,比如可以分析这些城市的渗透率变化,看看是否可日活变化不大的城市相差较大,若大,则考虑归功于业务推广;若所有城市日活都在上升,则考虑其他因素,如竞品退出、市场趋势、产品改进等有关。
思路三:按用户拆分
活跃用户数可以简单拆分为注册用户数*活跃率,可以进一步拆分新用户数,新用户活跃率,不同来源渠道新用户数,对应渠道新用户活跃率,老用户数,老用户活跃率等等,从多维度拆分,了解变化最大的细分维度,定位问题
思路四:相关因素分析
了解与活跃用户相关的内部和外部因素,如内部发新版本,运营活动等,外部的比如品牌宣传,竞品行为,行业变化等,将对应的内容与活跃用户数据进行相关性分析,了解实际的影响因素,定位问题。
定位问题后,预测8月整体趋势变化,和运营沟通调整
19. 挑选任意一款你使用过的社区类APP(不包括小红书),回答以下问题:
(1)描述使用这款APP的用户特征,并比较该APP用户特征与小红书用户特征的异同
(2)预估每一天有多少人在这款app上发布内容。请写出你需要的辅助数据,并简述预估的方法
(3)你选择的这款APP近期拟邀请ABC三组艺人中的一组开展联动活动,活动的主要目的为提升DAU。
在活动形式完全一致的前提下,你将选择哪一组?
作答要求:1)简述分析思路,2)列出对应的数据指标
解析:
①b站:
用户特征:用户年龄年轻化12-30、男性占比高于女性占比、兴趣方向标签为:动漫、游戏、国创、有趣、知识
小红书:用户年龄18-30,女性高于男性、兴趣方向为:美妆、护肤、旅游
②发布内容数 = 人均产出数 * 平均日活
人均产出数 = b站所有自投视频数 / b站用户数
平均日活 = 某段时间内每日活跃用户数之和 / 某段时间
别人的答案:前三个月内每天在app上发布内容的人数,用线性回归模型对数据进行拟合得到预估的下一周每天在app上发布内容的人数
③我会选择活动内容更贴近b站用户心理的活动
20. 经过一番研究,我们决定在新用户首次激活APP时增加一个短视频介绍页面来增加用户对产品的感知,并且打算通过AB Test(50%为控制组,50%的用户首次激活时会看到短视频介绍)来进行评估。假如你是此次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请列出你认为重要的指标,给出分析过程和可能用到的统计方法。
解析:
指标:跳出率、观看时长、各功能使用转化率
方法:假设检验
H0:新增视频对app无正面作用
H1:——有正面作用
T检验,算P值,P < 0.05,拒绝H0,接受H1,若大于,则无法判断
21. 小红书上海办公室楼下有一便利店,面积约为20平方米,主要提供零食及饮料。请预估该便利店每周的营业额是多少?
解析:
营业额 = 销售量 * 客单价
销量的影响因子:库存(20平米)、消费容量(购买力)、地点(周围竞争对手的影响)
客单价的影响因子:产品组合、竞争对手营销活动
面积20平方米,货品是零食与饮料,主要客群是小红书员工。假设周围不存在竞争对手,且没有其他客源。
以全家的陈设为参照对象,零食摆三个货架陈列,饮料两个冰柜。零食一个货架三层,每层100件sku,零食库存估计900件。饮料同理,货架三层,每层25件,库存150件。
小红书员工2000人,平均一天消费人次占20%(包括重复消费),则一周人次达2800,假设每周库存平均可销售200%,则销量分别计1800件,300件。
单价:零食平均7元,饮料包括酸奶平均7元。
则营业额预估 (1800*7+300*7) = 15700元
22.如果APP有一个功能是用户的位置信息能够每隔1分钟上传一次数据库,那么怎么发挥它的作用?
解析:用户的位置信息能做什么事。比如根据位置信息可以获取用户的行为轨迹,进而分析出用户的行为习惯,进行相应的实时推荐服务
1.App可以根据定位信息获取用户的生活区域,从而分析出用户的消费水平,推荐相应价格区间适合用户消费的商品。
2.App可以根据定位信息获取用户的生活以及消费习惯,例如如果用户经常出入健身房可以推荐运动器材,如果用户经常出入服装店,美容店餐厅等地可以为用户推荐服装,美容项目等。
以上就是本篇文章【小红书2020】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/7557.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多