用户画像建设指南

一、什么是用户画像

用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。

用户画像是对现实世界中用户的建模，用户画像应该包含目标，方式，组织，标准，验证这5个方面。

目标：指的是描述人，认识人，了解人，理解人。

方式：又分为非形式化手段，如使用文字、语言、图像、视频等方式描述人；形式化手段，即使用数据的方式来刻画人物的画像。

组织：指的是结构化、非结构化的组织形式。

标准：指的是使用常识、共识、知识体系的渐进过程来刻画人物，认识了解用户。

验证：依据侧重说明了用户画像应该来源事实、经得起推理和检验。

在产品早期和发展期，会较多地借助用户画像，帮助产品人员理解用户的需求，想象用户使用的场景，产品设计从为所有人做产品变成为三四个人做产品，间接的降低复杂度。

用户画像使用的标签是网络标签的一种深化应用方式，是某一种用户特征的符号表示，是我们观察、认识和描述用户的一个角度，用户标签是基于用户的特征数据、行为数据和消费数据进行统计计算得到的，包含了用户的各个维度。而所谓的用户画像就是可以用用户标签的集合来表示的，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。

用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

二、用户标签的分类

1、按照标签的变化频率，可分为静态标签和动态标签。

静态标签是指用户与生俱来的属性信息，或者是很少发生变化的信息，比如用户的姓名、性别、出身日期，又例如用户学历、职业等，虽然有可能发生变动，但这个变动频率是相对比较低或者很少发生变化的。动态标签是指非常经常发生变动的、非常不稳定的特征和行为，例如“一段时间内经常去的商场、购买的商品品类”这类的标签的变动可能是按天，甚至是按小时计算的。

2、按照标签的指代和评估指标的不同，可分为定性标签和定量标签。

定性标签指不能直接量化而需通过其他途径实现量化的标签，其标签的值是用文字来描述的，例如“用户爱好的运动”为“跑步、游泳”，“用户的在职状态”为“未婚”等。定量标签指可以准确数量定义、精确衡量并能设定量化指标的标签，其标签的值是常用数值或数值范围来描述的。定量标签并不能直观的说明用户的某种特性，但是我们可以通过对大量用户的数值进行统计比较后，得到某些信息。例如“用户的年龄结构”为“20-25岁”、“单次购买平均金额”为“300元”，“购买的总金额”为“20万元”……，当我们获得以上信息是否就可以将该用户划分为高价值客户呢？

3、按照标签的来源渠道和生成方式不同，可以分为基础标签、业务标签、智能标签。

基础标签主要是指对用户基础特征的描述，比如：姓名、性别、年龄、身高、体重等。业务标签是在基础标签之上依据相关业务的业务经验并结合统计方法生成的标签，比如：用户忠诚度、用户购买力等标签就是根据用户的登录次数、在线时间、单位时间活跃次数、购买次数、单次购买金额、总购买金额等指标计算出来的。业务标签可以将经营固化为知识，为更多的人使用。智能标签是利用人工智能技术基于机器学习算法，通过大量的数据计算而实现的自动化、推荐式的进行打标签，比如今日头条的推荐引擎就是通过智能标签体系给用户推送其感兴趣的内容的。

4、按照标签体系分级分层的方式，可以分为一级标签、二级标签、三级标签等，每一个层级的标签相当于一个业务维度的切面。在标签应用中按照不同的业务场景进行标签组合，形成相应用户画像。

5、按照数据提取和处理的维度，可以将标签分为事实标签，模型标签，预测标签。这种用户标签的分类方式更多是面向技术人员使用，帮助他们设计合理的数据处理单元。

事实标签。既定事实，直接从原始数据中提取，描述用户的自然属性、产品属性、消费属性等，事实标签其本身不需要模型与算法，实现简单，但规模需要不断基于业务补充与丰富，比如：姓名、购买的产品品类、所在小区等。

模型标签。对用户属性及行为等属性的抽象和聚类，通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数，标签代表用户的兴趣、偏好、需求等，指数代表用户的兴趣程度、需求程度、购买概率等。

预测标签。参考已有事实数据，基于用户的属性、行为、位置和特征，通过机器学习、深度学习以及神经网络等算法进行用户行为预测，针对这些行为预测配合营销策略、规则进行打标签，实现营销适时、适机、适景推送给用户。例如试用了某产品A后预测可能还想买产品B并推送购买链接给该用户。

三、用户画像标签体系的建立

1、什么是标签体系

用户画像是对现实用户做的一个数学模型，在整个数学模型中，核心是怎么描述业务知识体系，而这个业务知识体系就是本体论，本体论很复杂，我们找到一个特别朴素的实现，就是标签。

标签是某一种用户特征的符号表示。是一种内容组织方式，是一种关联性很强的关键字，能方便的帮助我们找到合适的内容及内容分类。（注：简单说，就是你把用户分到多少个类别里面去，这些类是什么，彼此之间有什么关系，就构成了标签体系）

标签解决的是描述（或命名）问题，但在实际应用中，还需要解决数据之间的关联，所以通常将标签作为一个体系来设计，以解决数据之间的关联问题。

一般来说，将能关联到具体用户数据的标签，称为叶子标签。对叶子标签进行分类汇总的标签，称为父标签。父标签和叶子标签共同构成标签体系，但两者是相对概念。例如：下表中，地市、型号在标签体系中相对于省份、品牌，是叶子标签。

用户画像标签体系创建后一般要包含以下几个方面的内容

（1）标签分类

用户画像标签可以分为基础属性标签和行为属性标签。

由于基于一个目标的画像，其标签是在动态扩展的，所以其标签体系也没有统一的模板，在大分类上，与自身的业务特征有很大的关联，在整体思路上可以从横纵两个维度展开思考：横向是产品内数据和产品外数据，纵向是线上数据和线下数据。而正中间则是永恒不变的“人物基础属性”。

如果说其他的分类因企业特征而定，那么只有人物特征属性（至于名字叫什么不重要，关键是内涵）是各家企业不能缺失的板块。

所谓人物基础属性指的是：用户客观的属性而非用户自我表达的属性，也就是描述用户真实人口属性的标签。所谓非“自我表达”，举例来说，某产品内个人信息有性别一项，用户填写为“女”，而通过用户上传的身份证号，以及用户照片，用户购买的产品，甚至用户打来的客服电话，都发现该用户性别是“男性”。那么在人物基础属性中的性别，应该标识的是“男性”，但是用户信息标签部分，自我描述的性别则可能标注为女性。

（2）标签级别（标签的体系结构）

分级有两个层面的含义，其一是：指标到最低层级的涵盖的层级；其二是指：指标的运算层级。其一非常好理解，这里重点说运算层级。

标签从运算层级角度可以分为三层：事实标签、模型标签、预测标签。

事实标签：是通过对于原始数据库的数据进行统计分析而来的，比如用户投诉次数，是基于用户一段时间内实际投诉的行为做的统计。

模型标签：模型标签是以事实标签为基础，通过构建事实标签与业务问题之间的模型，进行模型分析得到。比如，结合用户实际投诉次数、用户购买品类、用户支付的金额等，进行用户投诉倾向类型的识别，方便客服进行分类处理。

预测标签：则是在模型的基础上做预测，比如针对投诉倾向类型结构的变化，预测平台舆情风险指数。

（3）标签命名&赋值

我们用一张图来说明一下命名和赋值的差别，只要在构建用户标签的过程种，有意识的区别标签命名和赋值足矣，不再赘述。

（4）标签属性

标签属性可以理解为针对标签进行的再标注，这一环节的工作主要目的是帮助内部理解标签赋值的来源，进而理解指标的含义。如图所示，可以总结为5种来源：

1、固有属性：是指这些指标的赋值体现的是用户生而有之或者事实存在的，不以外界条件或者自身认知的改变而改变的属性。比如：性别、年龄、是否生育等。

2、推导属性：由其他属性推导而来的属性，比如星座，我们可以通过用户的生日推导，比如用户的品类偏好，则可以通过日常购买来推导。

3、行为属性：产品内外实际发生的行为被记录后形成的赋值，比如用户的登陆时间，页面停留时长等。

4、态度属性：用户自我表达的态度和意愿。比如说我们通过一份问卷向用户询问一些问题，并形成标签，如询问用户：是否愿意结婚，是否喜欢某个品牌等。当然在大数据的需求背景下，利用问卷收集用户标签的方法效率显得过低，更多的是利用产品中相关的模块做了用户态度信息收集。

5、测试属性：测试属性是指来自用户的态度表达，但并不是用户直接表达的内容，而是通过分析用户的表达，结构化处理后，得出的测试结论。比如，用户填答了一系列的态度问卷，推导出用户的价值观类型等。

值得注意的是，一种标签的属性可以是多重的，比如：个人星座这个标签，既是固有属性，也是推导属性，它首先不以个人的意志为转移，同时可以通过身份证号推导而来。

即便你成功了建立用户画像的标签体系，也不意味着你就开启了用户画像的成功之路，因为有很大的可能是这些标签根本无法获得，或者说无法赋值。

标签无法赋值的原因有：数据无法采集（没有有效的渠道和方法采集到准确的数据，比如用户身份证号）、数据库不能打通、建模失败（预测指标无法获得赋值）等等。

2、标签体系结构

标签体系可以归纳出如下的层级结构。

（1）原始输入层

主要指用户的历史数据信息，如会员信息、消费信息、网络行为信息。经过数据的清洗，从而达到用户标签体系的事实层。

（2）事实层

事实层是用户信息的准确描述层，其最重要的特点是，可以从用户身上得到确定与肯定的验证。如用户的人口属性、性别、年龄、籍贯、会员信息等。

（3）模型预测层

通过利用统计建模，数据挖掘、机器学习的思想，对事实层的数据进行分析利用，从而得到描述用户更为深刻的信息。如通过建模分析，可以对用户的性别偏好进行预测，从而能对没有收集到性别数据的新用户进行预测。还可以通过建模与数据挖掘，使用聚类、关联思想，发现人群的聚集特征。

（4）营销模型预测

利用模型预测层结果，对不同用户群体，相同需求的客户，通过打标签，建立营销模型，从而分析用户的活跃度、忠诚度、流失度、影响力等可以用来进行营销的数据。

（5）业务层

业务层可以是展现层。它是业务逻辑的直接体现，如图中所表示的，有车一族、有房一族等。

3、标签体系结构分类

一般来说，设计一个标签体系有3种思路，分别是：（1）结构化标签体系；（2）半结构化标签体系；（3）非结构化标签体系。

（1）结构化标签体系

简单地说，就是标签组织成比较规整的树或森林，有明确的层级划分和父子关系。结构化标签体系看起来整洁，又比较好解释，在面向品牌广告井喷时比较好用。性别、年龄这类人口属性标签，是最典型的结构化体系。下图就是Yahoo!受众定向广告平台采用的结构化标签体系。

（2）半结构化标签体系

在用于效果广告时，标签设计的灵活性大大提高了。标签体系是不是规整，就不那么重要了，只要有效果就行。在这种思路下，用户标签往往是在行业上呈现出一定的并列体系，而各行业内的标签设计则以“逮住老鼠就是好猫”为最高指导原则，切不可拘泥于形式。下图是Bluekai聚合多家数据形成的半结构化标签体系。

（3）非结构化标签体系

非结构化，就是各个标签就事论事，各自反应各自的用户兴趣，彼此之间并无层级关系，也很难组织成规整的树状结构。非结构化标签的典型例子，是搜索广告里用的关键词。还有Facebook用的用户兴趣词。

4、用户画像标签层级的建模方法

用户画像的核心是标签的建立，用户画像标签建立的各个阶段使用的模型和算法如下图所示。

原始数据层。对原始数据，我们主要使用文本挖掘的算法进行分析如常见的TF-IDF、TopicModel主题模型、LDA 等算法，主要是对原始数据的预处理和清洗，对用户数据的匹配和标识。

事实标签层。通过文本挖掘的方法，我们从数据中尽可能多的提取事实数据信息，如人口属性信息，用户行为信息，消费信息等。其主要使用的算法是分类和聚类。分类主要用于预测新用户，信息不全的用户的信息，对用户进行预测分类。聚类主要用于分析挖掘出具有相同特征的群体信息，进行受众细分，市场细分。对于文本的特征数据，其主要使用相似度计算，如余弦夹角，欧式距离等。

模型标签层。使用机器学习的方法，结合推荐算法。模型标签层完成对用户的标签建模与用户标识。其主要可以采用的算法有回归，决策树，支持向量机等。通过建模分析，我们可以进一步挖掘出用户的群体特征和个性权重特征，从而完善用户的价值衡量，服务满意度衡量等。

预测层。也是标签体系中的营销模型预测层。这一层级利用预测算法，如机器学习中的监督学习，计量经济学中的回归预测，数学中的线性规划等方法。实习对用户的流失预测，忠实度预测，兴趣程度预测等等，从而实现精准营销，个性化和定制化服务。

不同的标签层级会考虑使用对其适用的建模方法，对一些具体的问题，有专门的文章对其进行研究。

五、用户画像的应用场景

用户画像，即用户信息标签化，是企业通过收集与分析消费者基本属性、社会属性、生活习惯、行为特征等主要信息的数据之后，抽象出用户的商业全貌。大数据的发展让各行各业都日益聚焦于怎样利用大数据了解用户需求，实现精准营销，进而深入挖掘潜在的商业价值。

不同的企业做用户画像有不同的战略目的，广告公司做用户画像是为精准广告服务，电商做用户画像是为用户购买更多商品，内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。企业对用户的了解越多，就越容易为用户提供所需产品和服务，从而提升用户的粘性，提升企业盈利能力。

1、了解用户

不得不承认大数据正在改变着各行各业，以前了解用户主要是通过用户调研和访谈的形式，形式单一、数据收集不全、真假难辨。尤其是在产品用户量扩大后，调研的效用降低，以不能满足企业发展的要求。利用大数据技术，基于标签体系构建用户的360°画像，从用户的各个维度进行分析，了解用户是谁，他们有什么特征，他们的兴趣偏好，而这些信息的研究是企业制定营销策略、服务策略，提升用户满意度的重要依据。

2、精准营销

要做到精准营销，数据是最不可缺的存在。以数据为基础，建立用户画像，利用标签，让系统进行智能分组，获得不同类型的目标用户群，针对每一个群体策划并推送针对性的营销。精准化营销具有极强的针对性，是企业和用户之间点对点的交互。它不但可以让营销变得更加高效，也能为企业节约成本。

3、产品创新

在用户需求为导向的产品研发中，企业通过获取到的大量目标用户数据，进行分析、处理、组合，初步搭建用户画像，做出用户喜好、功能需求统计，从而设计制造更加符合用户核心需求的新产品，为用户提供更加良好的体验和服务。

4、渠道优化

当前的零售企业的销售渠道有多种，比如：自营门店、经销商代理、电商平台、电商APP等，每个渠道的用户群体的消费能力、兴趣偏好可能是不一样的，通过用户画像可以让合适的产品投放在合适的渠道投放，从而增加销售量，这是目前零售行业惯用的方法。

5、个性推荐

众所周知，今日头条是个个性化的新闻推荐引擎，在今日头条CEO张一鸣看来，算法是《今日头条》这款兴趣推荐搜索引擎应用的核心，这也是与传统媒体最本质的区别，今日头条之所以能够非常懂用户，精准推荐出用户所喜好的新闻，完全得益于算法，而正是精准推荐，使得今日头条在短短两年多的时间内拥有了2.2亿用户，每天有超过2000万用户在今日头条上阅读自己感兴趣的文章。

六、用户画像的分类

从画像方法来说，可以分为定性画像、定性+定量画像、定量画像

从应用角度来看，可以分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像和经济画像等。

七、用户画像需要用到哪些数据

一般来说，根据具体的业务内容，会有不同的数据，不同的业务目标，也会使用不同的数据。在互联网领域，用户画像数据可以包括以下内容：

（1）人口属性：包括性别、年龄等人的基本信息
（2）兴趣特征：浏览内容、收藏内容、阅读咨询、购买物品偏好等
（3）消费特征：与消费相关的特征
（4）位置特征：用户所处城市、所处居住区域、用户移动轨迹等
（5）设备属性：使用的终端特征等
（6）行为数据：访问时间、浏览路径等用户在网站的行为日志数据
（7）社交数据：用户社交相关数据

用户画像数据来源广泛，这些数据是全方位了解用户的基础，这里以Qunar的画像为例，其画像数据主要维度如下所示，包括用户RFM信息、航线信息等。

Qunar的画像数据仓库构建都是基于Qunar基础数据仓库构建，然后按照维度进行划分。

八、用户画像的作用

在互联网、电商领域用户画像常用来作为精准营销、推荐系统的基础性工作，其作用总体包括：

（1）精准营销：根据历史用户特征，分析产品的潜在用户和用户的潜在需求，针对特定群体，利用短信、邮件等方式进行营销。
（2）用户统计：根据用户的属性、行为特征对用户进行分类后，统计不同特征下的用户数量、分布；分析不同用户画像群体的分布特征。
（3）数据挖掘：以用户画像为基础构建推荐系统、搜索引擎、广告投放系统，提升服务精准度。
（4）服务产品：对产品进行用户画像，对产品进行受众分析，更透彻地理解用户使用产品的心理动机和行为习惯，完善产品运营，提升服务质量。
（5）行业报告&用户研究：通过用户画像分析可以了解行业动态，比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析

根据用户画像的作用可以看出，用户画像的使用场景较多，用户画像可以用来挖掘用户兴趣、偏好、人口统计学特征，主要目的是提升营销精准度、推荐匹配度，终极目的是提升产品服务，起到提升企业利润。用户画像适合于各个产品周期：从新用户的引流到潜在用户的挖掘、从老用户的培养到流失用户的回流等。

总结来说，用户画像必须从实际业务场景出发，解决实际的业务问题，之所以进行用户画像，要么是获取新用户，要么是提升用户体验、或者挽回流失用户等具有明确的业务目标。

另外关于用户画像数据维度的问题，并不是说数据维度越丰富越好，总之，画像维度的设计同样需要紧跟业务实际情况进行开展。

九、用户画像的体系架构

按照应用系统分层设计的原则，基于标签体系的用户画像的体系结构可以分为：数据源层、数据采集层、数据建模层、数据应用层，行业应用层等。

数据源层：用户标签体系建设的需要从不同的来源汇集数据，例如，企业的核心系统（不同的行业其核心系统不同，对制造业来说核心系统有ERP、MES、PLM等），营销系统（CRM），互联网数据（电商平台以及微信、微博、论坛等社交平台获取的数据），以及从第三方专业机构获取的数据（各地的数据交易中心购买的数据）。

数据采集层：与传统数据项目的数据采集不同，基于标签体系的用户画像的数据来源广泛、数据量巨大，数据类型丰富（包括：结构化数据、半结构化数据和非结构化数据），有线上的用户行为数据，也有应用系统日志数据，有互联网爬虫数据，也有API接口的第三方数据包。用户画像数据采集需要通过网络爬虫或网站公开API等方式从网站上获取数据信息，并且可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并支持以结构化的方式存储。同时支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。

数据建模：基于标签体系的用户画像建模主要是针对用户画像的建模和产品的建模。产品画像建模包括了数据清洗、文本建模、类别识别、品牌识别、属性识别、产品画像等；用户画像建模包括了数据清洗、用户全渠道ID识别、信息整合、分析建模和用户画像。通过统一产品类目和属性体系和统一的用户画像标签体系的建设，为用户标签的应用提供支撑。

数据应用：即基于标签体系的应用，包括分析类应用（如用户分析、产品分析）、服务类应用（如服务及产品创新）、营销类应用（精准营销）、数据接口API等。行业应用：基于标签体系的用户画像在各行业的所应用和探索，将为行业的发展和创新带来更多可能。

行业应用：基于标签体系的用户画像在各行业的所应用和探索，将为行业的发展和创新带来更多可能。

十、用户画像的建设步骤

1、数据采集

用户画像是根据用户的人口信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像，用户画像数据来源多样，采集方式也不同：线下采集、线上采集、第三方接口等。

2、数据清洗

要实现精准的用户画像就需要对这些噪声数据、脏数据进行处理，这个过程我们叫做数据清洗。

3、数据标准化

数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。

4、数据建模

数据建模就是根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

用户动态建模公式：用户标识 +时间 + 行为类型 + 接触点(网址+内容)，表示某用户在什么时间、地点、做了什么事，所以会打上某标签。用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型，同时该标签对该用户的重要程度也决定了用户标签的权重，进一步转换为公式：用户标签权重 = 行为类型权重 × 时间衰减 × 用户行为次数 × TF-IDF计算标签权重

行为类型权重：用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性（偏序关系），该权重值一般由运营人员或业务来决定；

时间衰减：用户某些行为受时间影响不断减弱，行为时间距现在越远，该行为对用户当前来说的意义越小，采用牛顿冷却定律；

行为次数：用户标签权重按天统计，用户某天与该标签产生的行为次数越多，该标签对用户的影响越大。

公式：t=初始温度×exp(-冷却系数×间隔的时间)，实际应用中，初始温度为1就行，间隔的时间为今天与产生行为那天的天数，或者小时数都行，根据业务进行调整，冷却系数的业务来决定，或者通过数据分析而来。

TF-IDF计算标签权重：tf为某标签在该用户出现频率，idf为某标签在全部标签中的稀缺程度。

5、标签挖掘

标签挖掘，即对用户标签体系中的用户数据进行挖掘，形成用户标签，这个过程也叫标签生产。标签的生产方式主要有以下两种：①基于规则定义的标签生产方式，即根据固定的规则，通过数据查询的结果生产标签，重点在于如何制定规则。②基于主题模型的标签生产方式，主题模型最开始运用于内容领域，目的是找到用户的偏好，在用户标签中我们可以参照分类算法将用户进行分类、聚类，使用关键词的算法挖掘用户的偏好，从而生产标签。

6、数据可视化

数据可视化是基于标签体系的用户画像的重要应用，通过详实、准确对用户的各类标签数据进行汇集和分析，并以图片、表格等可视化手段帮助企业全面了解用户的基础信息，用户关系情况，用户经济情况、用户偏好情况、健康情况、饮食情况等信息。同时，利用数据标签体系的用户画像可视化技术，通过对用户关系数据、用户内容数据、用户行为等数据进行可视化展示，能够帮助企业管理人员、业务人员全面了解用户，了解用户是谁，他们有什么特征，他们的兴趣偏好等，从而为智能推荐、精准营销、产品和服务创新、渠道优化等业务提供支撑。

十一、用户画像平台&架构

用户画像平台需要实现的功能。

用户画像系统技术架构

1、数据处理

a、数据指标的梳理来源于各个系统日常积累的日志记录系统，通过sqoop导入hdfs,也可以用代码来实现，比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式，可以通过将数据写入本地文件，然后通过sparksql的load或者hive的export等方式导入HDFS。

b、通过hive编写UDF 或者hiveql根据业务逻辑拼接ETL，使用户对应上不同的用户标签数据（这里的指标可以理解为每个用户打上了相应的标签），生成相应的源表数据,以便于后续用户画像系统，通过不同的规则进行标签宽表的生成。

2、数据平台

a、数据平台应用的分布式文件系统为Hadoop的HDFS，因为Hadoop2.0以后,任何的大数据应用都可以通过ResoureManager申请资源，注册服务。比如(sparksubmit、hive）等等。而基于内存的计算框架的出现，就并不选用Hadoop的MapReduce了。当然很多离线处理的业务，很多人还是倾向于使用Hadoop,但是Hadoop封装的函数只有map和Reduce太过单一，而不像spark一类的计算框架有更多封装的函数（可参考博客spark专栏）。可以大大提升开发效率。

b、计算的框架选用Spark以及RHadoop,这里Spark的主要用途有两种，一种是对于数据处理与上层应用所指定的规则的数据筛选过滤，(通过Scala编写spark代码提交至sparksubmit)。一种是服务于上层应用的SparkSQL（通过启动spark thriftserver与前台应用进行连接）。RHadoop的应用主要在于对于标签数据的打分，比如利用协同过滤算法等各种推荐算法对数据进行各方面评分。

c、MongoDB内存数据的应用主要在于对于单个用户的实时的查询，也是通过对spark数据梳理后的标签宽表进行数据格式转换(json格式）导入mongodb,前台应用可通过连接mongodb进行数据转换，从而进行单个标签的展现。（当然也可将数据转换为Redis中的key value形式，导入Redis集群)

d、mysql的作用在于针对上层应用标签规则的存储，以及页面信息的展现。后台的数据宽表是与spark相关联，通过连接mysql随后cache元数据进行filter、select、map、reduce等对元数据信息的整理,再与真实存在于Hdfs的数据进行处理。

3、面向应用

从刚才的数据整理、数据平台的计算，都已经将服务于上层应用的标签大宽表生成。（用户所对应的各类标签信息）。那么前台根据业务逻辑，勾选不同的标签进行求和、剔除等操作，比如本月流量大于200M用户（标签）+本月消费超过100元用户（标签）进行和的操作，通过前台代码实现sql的拼接，进行客户数目的探索。这里就是通过jdbc的方式连接spark的thriftserver，通过集群进行HDFS上的大宽表的运算求count。（这里要注意一点，很多sql聚合函数以及多表关联join 相当于hadoop的mapreduce的shuffle,很容易造成内存溢出，相关参数调整可参考本博客spark栏目中的配置信息）这样便可以定位相应的客户数量，从而进行客户群、标签的分析，产品的策略匹配从而精准营销。

十二、用户画像困难点、用户画像瓶颈

困难点

用户画像困难点主要表现为以下4个方面

在画像之前需要知道产品的用户特征和用户使用产品的行为等因素，从而从总体上掌握对用户需求需求

创建用户画像不是抽离出典型进行单独标签化的过程，而是要融合边缘环境的相关信息来进行讨论

挑战

我们期间遇到了两方面的挑战：

1、亿级画像系统实践和应用

2、记录和存储亿级用户的画像，支持和扩展不断增加的维度和偏好，毫秒级的更新，支撑个公司性化推荐、广告投放和精细化营销等产品。

用户画像建设指南

一、 什么是用户画像

二、用户标签的分类

三、用户画像标签体系的建立

五、用户画像的应用场景

六、用户画像的分类

七、用户画像需要用到哪些数据

八、用户画像的作用

九、用户画像的体系架构

十、用户画像的建设步骤

十一、 用户画像平台&架构

1、数据处理

2、数据平台

3、面向应用

十二、用户画像困难点、用户画像瓶颈

困难点

挑战

相关推荐

专访交通银行副行长钱斌——交通银行数字化转型实践与创新

重写游戏规则：决胜零售银行新格局

个人客户画像助力农行零售数字化转型

腾讯研究院：汽车产业数字化转型白皮书46页

亿邦动力研究院：2021新锐品牌数字化增长白皮书（43页）

安永EY：印度金融业的数字化颠覆-英文版（25页）

分享到:

请登录

一、什么是用户画像

十一、用户画像平台&架构