龙空技术网

从0到1,如何构建用户画像体系?

人人都是产品经理 700

前言:

如今各位老铁们对“用贝叶斯方法进行性别分类”都比较关心,姐妹们都想要学习一些“用贝叶斯方法进行性别分类”的相关资讯。那么小编也在网络上搜集了一些有关“用贝叶斯方法进行性别分类””的相关资讯,希望看官们能喜欢,兄弟们一起来学习一下吧!

文章从数据产品层面出发,对如何从0到1建设用户画像体系进行了梳理分析,主要是4个步骤:业务需求分析、建设标签体系、建设画像系统和画像应用,供大家一同参考和学习。

从PC到移动互联网,一批搭乘流量红利快车的互联网产品,曾极速崛起。而如今,流量红利消失,一个疯狂的、传奇般的流量时代,已然结束。增量乏力,存量市场竞争更加激烈的环境下催生了精细化运营,结合大数据,对用户进行分群,针对不同群体的用户采用不同的营销策略。

兵法云:“知己知彼,百战不殆”,在整个精细化运营过程中,用户画像体系的搭建起到不可或缺的作用。前面草帽小子介绍了埋点数据采集、指标体系搭建、数仓和OLAP分析等数据基础层建设,接下来我们来研究如何从0-1搭建用户画像体系,以及用户画像的应用场景。

初识用户画像

用户画像的概念,最早由交互设计之父Alan Cooper提出,是对产品或服务的目标人群做出的特征刻画。

在早期,用户数据的来源渠道比较少,数据量也相对比较小的时期,用户画像的研究主要基于统计分析层面,通过用户调研来构建用户画像标签。

后来,加利福尼亚大学的Syskill和Webert,通过手动收集网站用户对页面的满意度,然后通过统计分析逐渐构建出用户兴趣模型。

再随着互联网及信息采集技术的发展,加州管理大学开发了Web Watcher,可以通过数据采集器,记录互联网上用户产生的各种浏览行为以及用户的兴趣偏好,实现对用户兴趣模型的构建,并随着数据的不断累积,扩大更新系统模型,用户画像标签也更加丰富。

近年来,随着互联网海量数据的爆炸式增长,众多企业的用户画像研究有了新的机遇,基于用户的属性、行为、兴趣爱好等数据标签,运用算法对特征进行分析建模,从而抽象出用户的全貌,成为了产品人员的关注重点。

例如对于路飞而言,其用户画像可简单描述为18-25岁中二少年,15亿身价,爱吃肉,爱炫酷机器人,冲动性消费人群,若某电商网站提前得知了该用户信息,就可以根据其偏好特征,给其推送肉类以及高科技商品,促进路飞在平台上完成购买。

这个过程中,用于描绘用户画像的关键性因素就是标签,通常不同应用场景下,标签分类不同。

例如腾讯广告对标签的分类,可分为:

人口学标签:性别、年龄、居住地、学历、婚恋、资产及工作状态等。兴趣类标签:商业兴趣、泛娱乐兴趣、语义兴趣等。设备类标签:设备品牌、运营商、 联网方式、型号、操作系统等。行为类标签:人群上班地、出游频率、使用电商购物、O2O、游戏等应用特定行为、互动行为、支付行为等。

按阿里电商对标签的分类,可分为:

用户属性类标签:性别、年龄、地域、注册日期、手机品牌、手机系统、联系方式、历史购买状态、用户活跃度、RFM价值度。用户行为类标签:近30日访问次数、近30日客单价、近30日活跃天数、近30日访问时长、平均访问深度、充值用户等。消费类标签:收入状况、购买力水平、已购商品、购买渠道偏好、最后购买时间、购买频次。商品品类标签:高跟鞋、靴子、衬衫、法式连衣裙、肉脯、牛肉干、扫地机器人、智能音响等。社交类标签:经常活跃的时间段、活跃地点、单身、评价次数、好评度等。

整个画像体系包含标签建模、画像系统、画像应用,那从数据产品层面来看,如何0-1建立用户画像体系呢?接下来我们按照如下结构进行展开:

业务需求分析建设标签体系建设画像系统画像应用

第一步:业务需求分析

用户画像体系的建设不能凭空捏造,需要以经济建设为中心,根据实际的业务需求,考量画像系统能为业务带来的价值,所以我们第一步要做的是分析业务需求。

明确用户画像服务于企业的对象,如产品、用户运营、活动运营、市场、风控等部门;再根据业务方需求,明确未来产品建设目标和用户画像分析之后的预期效果。

就公司整体而言,他的目标是提升平台整体的收益,过程中会驱动产品、运营、数据分析、市场、客服等同事协同工作,画像会更加关注如何进行精细化运营,提升公司营收上;

就运营人员娜美而言,她的目标是提升转化率,过程中会采用内容的个性化推送的策略、用户精准触达,画像会更加关注用户个人行为偏好上;

就数据分析人员罗宾而言,她的目标是做用户的流失预警,做针对性的精准营销,那过程中就需要分析用户行为特征,用户的消费偏好;

在需求分析阶段,我们需要分析业务过程,各部门核心关注点、部门KPI、组织结构、用户行为路径、功能流程图。此处分析过程跟埋点业务需求分析类似,详情可查看埋点业务需求分析,此处不做展开。

第二步:搭建标签体系

从数据产品建设标签体系来看,可以根据标签的统计方式,将标签分为3类:统计类标签、规则类标签、预测类标签;

1. 统计类标签

用户画像最为基础常见的标签,统计类标签值统计用户相关数值、客观描述用户状态的标签,这类数据通常可以从用户注册数据、用户访问、消费统计中可以得出。

例如对于某个用户来说,其性别、年龄、城市、星座、近7日活跃天数、近7日活跃次数、累计购买金额、累计购买次数、月均消费金额等字段,

2. 规则类标签

基于用户行为及确定的规则产生,在实际开发画像的过程中,根据业务的需要,由运营人员和数据人员共同协商制定,包含活跃度标签、RFM标签等。例如,对平台上“交易活跃”这一口径的定义为“近90天交易次数>3”。

下面由草帽小子来介绍,常用的用户活跃度标签、RFM标签的划分方法。

(1)用户活跃度标签

实际业务场景中会涉及根据用户的活跃情况,给用户打上高活跃、中活跃、低活跃、流失等标签。

那这个过程中高中低的时间范围是如何划分的呢?

在这里,路飞的拍脑门可行不通,标签的建设讲究定义有依据,建设有方法。

首先划分用户的流失周期,通常有2种方法:

一是拐点理论:X轴上数值的增加会带来Y轴数值大幅增益(减益),直到超过某个点之后,当X增加时Y的数据增益(减益)大幅下降,即经济学里面的边际收益的大幅减少,那个点就是图表中的“拐点”。

比如图中流失周期增加到5周的时候,用户回访率的缩减速度明显下降,所以这里的5周就是拐点,我们可以用5周作为定义用户流失的期限,即一个之前访问/登录过的用户,如果之后连续5周都没有访问/登录,则定义该用户流失。

二是统计用户最后一次访问与倒数第二次访问之间的时间间隔,可认为大于这个时间间隔的用户基本不会再访问,即用户已流失。查看历史数据可以了解到用户最后一次访问与倒数第二次访问间隔30日以上的用户不足10%,可以认为大于这个时间间隔的用户为“流失用户”。

划分完流失周期之后,根据用户的活跃情况进一步将其划分高中低活跃。对历史数据,按照二八原则进行划分。

例如分析得出活跃次数10次以上的用户占近30日访问用户量的20%,则这批为“高活跃用户”;进一步把活跃5-10次的用户划分为“中活跃用户”;把活跃1-5次的用户划分为“低活跃用户”。

(2)RFM标签

RFM模型主要由3个基础指标组成:最近一次消费时间、消费频率、消费金额。根据历史数据,查看用户量的占比,可按照二八原则进行划分,得到细分标签。

R:如历史数据中80%的用户最近访问<60日为“近”,用户最近访问>=60日为“远”。F:如历史交易订单量80%的用户订单量<5单为“低频”,订单量>=5单为“高频”。M:如历史交易订单金额80%的用户交易金额<500元为“低额”,交易金额>=500元的为“高额”。

3. 预测类标签

基于用户的属性、行为、位置和特征,运用决策树算法、回归算法等挖掘用户的相关特征,挖掘其潜在需求,针对这些潜在需求,给用户打标签,配合不同的营销策略,进行推送。

例如,根据一个用户的消费习惯判断,他对商品的偏好程度;根据用户的退差评等行为,预测其风险程度。

一般统计类和规则类标签即可满足应用需求,在开发过程中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户风险、用户购买商品偏好、用户流失意向等,其开发周期长、开发成本高。

例如,今日头条上积累了大量与数据产品主题相关的文章、帖子等文本数据,由于历史原因,这些文章没有做内容分类,也没有打上相应的标签,不便于对内容进行管理。现在需要对帖子打上相应的主题标签。

一是根据已经划定的文章类型,将为做过分类的文章自动划分到相应类型下

二是支持文章的集约化管理,根据文章内容自动为每篇文章打赏与其主题相关的标签

(1)特征选取及开发流程

数据分类:人工对一批文档进行准确标注,作为训练集样本,未进行标注的一批文档作为测试集

数据预处理:对测试集和训练集文本进行分词处理,建立词料库,去掉停用词、语气词等

朴素贝叶斯分类:从精度、召回率、F-测度值3方面来划分文章分类

(2)计算标签权重

用户在平台上的不同行为,在用户标签层面权重不同,比如用户购买某商品的行为权重要比用户添加购物车、收藏某商品、浏览某商品行为权重依次要高。

在标签制定过程中用户画像建模人员与业务人员需要密切沟通,结合业务场景制定不同行为类型和权重。常用的确定权重的方法有TF-IDF词空间向量、时间衰减系数。

1)TF-IDF词空间向量

TF-IDF是一种统计方法,用以评估一个字或词相对于一个文件集或一个语料库中其他词的重要程度。字词的重要性与它在文件集中出现的次数,成正比;与它在语料库中出现的次数成反比。

2)时间衰减系数

当用户数据达到足够密集的程度后,用户身上打的标签对应的属性会表现出较高的稳定性,这种稳定性与用户长期行为形成的个人特征相匹配。

用户标签权重=行为类型权重*时间衰减*用户行为次数*TF-IDF计算标签权重

第三步:建设用户画像系统

画像系统作为支撑系统,主要目标用户是市场、运营、产品、数据分析师等人员,满足其用户分析、标签查询、营销活动对接的需求。所以画像系统的设计需要考虑功能上的用户分析需求,以及非功能上的接口开发需求。

1. 功能需求

功能上可划分为:首页画像数据、标签管理、用户查询、用户分群等。

首页画像数据,展示用户数据的整体情况,包含用户的基本特征,如性别、年龄、地域、职业分布等基础信息;用户价值特征,如用户活跃度、会员等级、流失预警、用户价值RFM分布等信息。标签管理,供数据人员提供标签的增、删、改、查等操作,包含标签分类、新建标签、标签审核、标签下线、异常标签等。用户查询,主要能力包含通过输入用户ID,来查看用户画像等详情数据,如用户的基本信息、用户属性信息、用户行为等数据。用户分群,应用场景主要为业务使用标签时,往往不会只使用一个标签进行推送,更多的情况下需要组合多个标签来满足业务上对人群的定义,用户分群相当于制作一个人群模版,在不同场景下做人群的推送。

添加分群时通常会配置人群名称、满足的条件,计算覆盖的人群数量,推送到消息通知、电子邮件、短信。

2. 非功能需求

非功能性需求主要包含接口需求,保障画像系统数据与各系统之间打通,如push推送系统、营销系统、广告系统、推荐系统、BI等平台,并且保证各系统数据的实时更新,避免同源不同数的问题。

标签体系和用户画像系统都搭建完成了,那用户画像具体在哪用、怎么用,能给业务带来哪些价值呢?

第四步:画像应用

在广告投放、电商等领域,用户画像常用来作为精准营销、推荐系统的基础性工作,主要应用场景包含3类:精准营销、用户分析、个性化推荐。

1. 精准营销

根据历史用户特征,运营人员可以分析产品的潜在用户和用户的相关需求,针对特定群体提供个性化营销服务。常用的有短信、邮件、站内信、push消息的精准推送,客服针对用户的不同话术、针对高价值用户的极速退款退货等VIP服务。

短信/邮件/push营销

日常生活中会从多个渠道收到营销信息,一条关于红包到账的短信消息推送,可能会促使用户打开很久没访问的app,一条关于心愿单内的降价消息,可能会刺激用户打开推送链接,直接购买。

借助画像系统进行营销需要注意的有:

短信敏感度:有的用户对营销短信的敏感度较差,比如从历史数据来看,推送其10次短信,只打开过1次或从未打开过。考虑到短信渠道需要营销成本,可以把这批用户排除掉,并减少对用户的干扰。

无效手机号:对于平台上随意填写非自己的手机号、手机号已经作废/更换,接收到短信回复了“TD”的用户来说,短信无法接收,属于短信黑名单,这类用户也需要排除

对营销商品感兴趣的用户:近期曾多次浏览、收藏或是加购、下单行为的用户,是某累商品的潜在意向用户,可以通过满减优惠券或是红包的方式进行营销。

客服话术

当我们在向某平台的客服部门投诉、咨询或反馈意见时,客服人员可以准确的说出我们在平台的购买情况,上一次咨询问题的处理结果等信息,针对性的提出解决方法,对于高价值用户提供VIP客服通道等专项服务。

2. 推荐系统

应用的运营者,可以通过个推用户画像中的性别、年龄段、兴趣爱好、浏览购买行为等标签,给用户推荐不同的内容。如今日头条上的个性化文章内容推荐、抖音上基于用户画像做的个性化视频内容推荐、淘宝上基于用户浏览行为等画像数据做的个性化商品推荐等。

3. 数据分析

用户画像的标签可应用于各类分析,包含用户分析、订单分析、漏斗分析、人群特征分析等。

总结

本文主要从数据产品层面来看,如何0-1建设用户画像体系。看过草帽小子之前写的埋点、指标体系文章的朋友可能已发现,画像体系搭建跟埋点、指标建设一样,也是遵循普通的产品设计流程,从需求分析、到标签/指标设计、后台设计,最终再应用于业务。

正所谓万变不离其宗,就像路飞的技能看起来千变万化,其核心点都是在用橡胶能力做各种变化。数据产品的各种变化形式,其核心在于业务。

作者:草帽小子;公众号:一个数据人的自留地,wx:luckily304

本文由 @草帽小子 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

标签: #用贝叶斯方法进行性别分类