一种个性化信息推荐方法和装置与流程

文档序号:16919637 发布日期:2019-02-19 19:14
一种个性化信息推荐方法和装置与流程

本发明涉及信息处理技术领域,尤其涉及一种个性化信息推荐方法和装置。



背景技术:

推荐系统基于用户的历史行为数据或物品数据,通过一定的算法,为用户推荐符合要求的物品。在信息过载时,推荐系统预测用户的兴趣和需求,帮助用户快速找到感兴趣的物品。用户画像简单来说就是对用户的信息进行标签化,用户画像作为推荐系统的副产品,可以将用户进行标签化,刻画出用户的社会属性、行为习惯与偏好信息,解决推荐系统中新用户的冷启动问题,支撑推荐系统的数据基础。

然而,在现有推荐系统的画像技术中,仅仅包括对用户画像的构建,并且粒度较粗,不够全面,忽略了商品和商铺的特征挖掘和画像信息构建,因此,在商品或商铺推荐时很难获得精准的效果。

因此,需要对现有技术进行改进,以提供更加全面完整、包含多维特征的推荐系统中的画像构建方法。



技术实现要素:

本发明的目的在于克服上述现有技术的缺陷,提供一种个性化信息推荐方法和装置,通过建立多维度的标签体系,为推荐系统提供更加丰富的特征。

根据本发明的第一方面,提供了一种个性化的信息推荐方法。该方法包括以下步骤:

步骤1:采集用户的多维属性特征、商品的多维属性特征和商铺的多维属性特征;

步骤2:基于获得的用户的多维属性特征、商品的多维属性特征、商铺的多维属性特征提取标签信息并计算标签的权值,以构建用户画像、商品画像、商铺画像;

步骤3:基于所构建的用户画像、商品画像或商铺画像为用户提供推荐信息。

在一个实施例中,所述用户的多维属性特征包括性别、年龄、业务性质、关注行业、搜索行为、收藏行为、浏览行为、购物车行为、点赞行为、消费行为、评论行为、用户设备、用户位置中的至少一项。

在一个实施例中,所述商品的多维属性特征包括商品的分类、品牌、价格、所在行业、附属词、点击率中的至少一项。

在一个实施例中,所述商铺的多维属性特征包括商铺位置、主营商品、点击率、行业信息、品牌信息、帖子的多标签分类中的至少一项。

在一个实施例中,所述用户画像包括性别标签、年龄标签、业务性质标签、关注行业标签、用户兴趣偏好标签、设备标签、用户位置标签、消费能力标签、忠诚度标签、活跃度标签、用户价值标签中的至少一项。

在一个实施例中,根据以下步骤计算所述用户兴趣偏好标签的权重:。

其中,w(i)是浏览行为、搜索行为、收藏行为、购物车行为、点赞行为、消费行为、评论行为对应的权重值,i是行为的索引,是衰减因子,staytimefactor(st)是浏览行为的停留时间因子,对于搜索行为、收藏行为、购物车行为、点赞行为、消费行为、评论行为的停留时间因子为1,deepfactor(j)是搜索行为的深度因子,对于浏览行为、收藏行为、购物车行为、点赞行为、消费行为、评论行为的深度因子为1,m是行为的个数,n是行为发生时间距离当前日期的天数,t是浏览网页时的停留时间,d是搜索关键词后的访问深度,α为常数。

在一个实施例中,根据以下公式计算用户价值标签的权值:

其中,σ是sigmoid函数,i是用于表示消费能力、忠诚度或活跃度的索引,xi表示消费能力标签、忠诚度标签或活跃度标签的权值,wi是用户价值相对于消费能力、忠诚度、活跃度三者的权值。

在一个实施例中,所述商品画像包括商品的分类标签、品牌标签、价格标签、行业标签、附属词标签、热度标签中的至少一项。

在一个实施例中,采用以下步骤获得所述商品画像:

对所述商品的多维属性特征中的商品的多分类取前K个结果得到商品的分类标签,其中K为大于等于2的整数;

根据商品的品牌信息直接获得商品的品牌标签;

根据商品的价格获得商品的价格区间标签;

根据商品的所在行业信息获得商品的行业标签;

根据商品的附属词信息获得商品的附属词标签;

根据商品的点击率与所有商品的点击率之和相除,获得商品的点击比作为商品的热度标签。

在一个实施例中,所述商铺画像包括商铺位置标签、商铺主营商品标签、商铺行业标签、商铺热度标签、商铺品牌标签中的至少一项。

在一个实施例中,根据以下步骤获得所述商铺画像:

将所述商铺的多维属性特征中的位置特征抽取出商铺位置标签;

将商铺主营商品特征进行分词处理并与帖子的多标签分类进行合并获得商铺主营商品标签;

将商铺点击率特征与所有商铺的点击率之和相除,获得商铺的点击比作为商铺热度标签;

将商铺行业信息抽取出商铺行业类型作为商铺行业标签;

将商铺中商品的品牌信息进行合并获得商铺品牌标签。

根据本发明的第二方面,提供了一种个性化的信息推荐装置。该装置包括:

特征提取模块:采集用户的多维属性特征、商品的多维属性特征和商铺的多维属性特征;

画像构建模块:基于获得的用户的多维属性特征、商品的多维属性特征、商铺的多维属性特征提取标签信息并计算标签的权值,以构建用户画像、商品画像、商铺画像;

实时推荐模块:用于基于所构建的用户画像、商品画像或商铺画像为用户提供推荐信息。

与现有技术相比,本发明的优点在于:通过采集多源用户行为数据,为用户、商品、商铺分别建立画像,并动态更新画像中的标签权重值,构建的画像不仅全面完整,而且具有较好的时效性,为个性化推荐系统提供数据支撑。

附图说明

以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:

图1示出了根据本发明一个实施例的推荐系统中画像构建方法的流程图;

图2示出了根据本发明一个实施例的推荐系统中画像构建装置的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。

根据本发明的一个实施例,提供了一种推荐系统中的画像构建方法,该方法能够从用户、商品、商铺等多方面,构建多维度的标签体系,参见图1所示,该方法包括以下步骤:

步骤S110,获取数据并对数据进行预处理。

获取的数据包括用户行为日志和社交网络数据,其中,用户行为日志包括用户标识、URL、来源URL、IP、商品或商铺ID、session ID、user-agent信息、用户行为日志的数据源标识等信息,社交网络数据包括普通用户与商铺用户的社交关系、帖子发布、评论、点赞数据等。

在实际应用中,可从日志服务器上获得多源用户行为日志,所述多源用户行为日志包括不同省份、国家的多站点的用户行为日志。社交网络数据可通过查询业务数据库获得,其中,业务数据库中还包括用户信息、商品信息、商铺信息、用户收藏信息、购物车信息、订单信息、点赞信息等数据。

数据预处理过程包括对非结构化的用户行为日志进行处理,以得到统一规范格式化的用户行为日志,对获得的社交网络数据中的帖子内容(例如包括商铺上新、商铺库存、用户求购、热门动态等)和评论信息等进行处理,抽取出帖子和评论信息的多标签分类,得到用户和商铺的社交网络属性特征。

数据预处理过程还对用户行为日志进行检测,过滤爬虫以删除无关网页信息以及过滤异常数据等。

在一个实施例中,通过对多源用户行为日志进行预处理之后,提取的关键字段包括用户标识、URL、来源URL、IP、商品或商铺ID、session ID、行为发生的时间、user-agent信息、多源用户行为日志的数据源标识等中的一项或多项。

在一个实施例中,通过以下过程获得用户和商铺的社交网络属性特征:对所述帖子内容中的文本信息和评论信息进行分词处理,得到多个分词结果;对多个分词结果进行过滤;对过滤后的分词结果进行词向量处理,得到帖子文本信息和评论信息的词嵌入(Word Embedding);对帖子文本信息和评论信息的词嵌入利用TextCNN(文本分类的卷积神经网络)模型进行多标签短文本分类,输出多个标签的概率值,得到所述帖子内容中文本信息的多标签分类和评论信息的多标签分类;对帖子内容中的图片利用Resnet进行图片分类,得到所述帖子内容的图片5个分类的概率值结果;对帖子内容中文本信息的多标签分类和图片分类结果进行合并,并将权值归一化,得到帖子的多标签分类,每个标签分类具有不同的权值;将用户对所述帖子的浏览、点赞、评论行为以及商铺的发布行为和所述帖子的多标签分类进行存储,得到用户和商铺的社交网络属性特征库。

步骤S120,提取用户的多维属性特征、商品的多维属性特征、商铺的多维属性特征。

对经过预处理后的用户行为数据、用户和商铺的社交网络属性特征以及业务数据库中的数据进行分析,以提取用户、商品、商铺的多维属性特征。

在一个实施例中,用户的多维属性特征包括用户的静态属性特征和动态属性特征,其中,静态属性特征包括性别、年龄、业务性质、关注行业等,动态属性特征包括搜索、收藏、浏览、购物车、点赞、消费、评论等动态行为特征以及从通过对多源用户行为日志关键字段进行分析所获得的用户设备、位置特征等中的至少一项。

对于上述动态属性特征,其中的搜索行为特征包括用户搜索的商品分类、关键词、搜索关键词深度;收藏、购物车、点赞、评论的行为特征分别包括商品ID、商品分类、帖子的多标签分类以及商品所在行业等;浏览行为特征包括浏览的商品ID、商品分类、商品所在行业、帖子的多标签分类、设备信息、地域信息、停留时间、最近访问间隔、访问频率、浏览深度、登陆次数等;消费行为特征包括订单总额、平均消费金额、消费频率、最近消费间隔、退单比等。此外,对于动态属性特征中的用户设备和位置特征,可通过分析用户行为日志中的关键字段获得,例如,user-agent中的设备信息包括用户使用的浏览器类型、操作系统类型、手机类型等。

在一个实施例中,商品的多维属性特征包括商品的多分类、品牌、价格、所在行业、附属词、点击率(例如日/周/月点击率),其中,附属词是指商品的风格、材质、款式等属性特征中的至少一项。

对于商品的多维属性特征,其中商品的多分类、品牌、附属词等特征可通过提取商品标题,并对标题的文本信息进行分词、过滤、命名实体识别、文本分类等处理获得,例如,根据商品ID直接查询已建立好的商品数据库也可得到商品多分类、品牌和附属词结果等;商品所在行业可通过查询商品所属商铺的数据库表得到;商品的日/周/月点击率可通过分析用户行为日志中的数据进行统计分析获得。

在一个实施例中,商铺的多维属性特征包括位置特征、主营商品、日/周/月点击率、行业信息、品牌信息、帖子的多标签分类等中的至少一项。

对于商铺的多维属性特征,其中的商铺位置可通过商铺的经纬度信息获得;主营商品是商铺描述信息中的主营业务介绍,该特征可通过对主营业务介绍进行信息抽取获得;商铺日/周/月点击率可通过获得用户行为日志进行统计分析获得;商铺行业信息和品牌信息通过查询业务数据库中的商铺表获得;帖子的多标签分类可通过查询步骤S110中的商铺社交网络属性特征库获得。

将获得用户的多维属性特征、商品的多维属性特征、商铺的多维属性特征进行存储,得到用户、商品、商铺的特征库。

步骤S130,分别构建用户画像、商品画像和商铺画像。

在此步骤中,基于用户的多维属性特征、商品多维属性特征、商铺的多维属性特征,提取标签信息,计算并更新标签的权值,从而能够分别得到用户画像、商品画像、商铺画像。

在一个实施例中,用户画像包括静态属性标签和动态更新的用户兴趣偏好标签、设备标签、位置标签、消费能力标签、忠诚度标签、活跃度标签、用户价值标签等中的至少一项。

具体地,静态属性标签是根据静态属性特征(例如性别、年龄、业务性质、关注行业等)直接抽取出对应的静态属性,并且每一个静态属性标签的权重为1。例如,性别是一个标签,该标签可以取值"男"、"女"、"不确定";业务性质也是一个标签,该标签可以取值"批发商"、"外贸公司"、"网商"、"实体店"、"连锁店"、"个人消费者"、"其他"等。

对于动态更新的用户兴趣偏好标签包括从动态属性行为特征中抽取的商铺、行业、商品、分类、品牌属性标签,并计算标签的权重值,得到用户对该标签的兴趣度。根据本发明的一个实施例,根据包括搜索、收藏、浏览、购物车、点赞、消费、评论等动态行为特征分别对应的标签信息和每个动态行为对应的权重值、衰减因子、浏览行为的停留时间因子以及搜索行为的深度因子,采用以下公式计算或更新用户对所述偏好标签的权重:

其中,score是用户对标签的兴趣度,w(i)是动态行为对应的权重值,是衰减因子,staytimefactor(st)是浏览行为的停留时间因子,而搜索、收藏、购物车、点赞、消费、评论行为的停留时间因子为1,deepfactor(j)是搜索行为的深度因子,而浏览、收藏、购物车、点赞、消费、评论的深度因子为1,m是动态行为的个数,n是行为发生时间距离当前日期的天数,t是浏览网页时的停留时间,d是搜索某关键词后的访问深度,α为常数。

对于动态更新的用户设备标签取值为用户历史设备特征的哈希集合,并且权重为1,当用户使用新的设备并且产生行为时,动态更新该设备到哈希集合中,其中,历史设备特征可以是"android""IOS""Winphone""Symbian""Blackberry""PC"等。例如,用户A的设备标签取值为"PC,android",用户B的设备标签取值为"IOS"。

对于动态更新的位置标签通过动态属性特征中的位置信息特征提取出用户足迹的哈希集合,并且权重为1,当用户在新的城市或国家浏览网站时,动态更新该新位置到哈希集合中。例如,用户A的位置标签取值为"中国,广东,深圳"。

对于动态更新的消费能力标签、忠诚度标签、活跃度标签采用CTR(点击率)预估模型中的DeepFM算法对动态属性特征中的搜索、收藏、浏览、购物车、点赞、消费、评论等动态行为特征以及从用户行为日志关键字段进行分析获得的用户设备、位置特征进行特征交叉组合,通过模型训练,预测出消费能力标签、忠诚度标签、活跃度标签的权重值。

根据本发明的一个实施例,用户价值标签权重可根据消费能力标签,忠诚度标签和活跃度标签获得,计算公式如下:

其中,σ是sigmoid函数,用于将用户价值映射到0和1之间,i是用于表示消费能力、忠诚度或活跃度的索引,xi分别指通过上述DeepFM模型学到的消费能力标签、忠诚度标签、活跃度标签的权重值,wi是用户价值相对于消费能力、忠诚度、活跃度三者的权重值,可人工定义。

在一个实施例中,商品画像包括商品的分类标签、品牌标签、价格标签、行业标签、附属词标签、热度标签等中的至少一项。

具体地,可根据以下步骤获得商品画像的各类型标签:对商品的多维属性特征中的商品的多分类取前K个结果得到商品的分类标签;根据商品的品牌信息直接得到商品的品牌标签;根据商品的价格得到商品的价格区间标签;根据商品的所在行业信息得到商品的行业标签;根据商品的附属词信息得到商品的附属词标签;根据商品日/周/月点击率与所有商品的点击率之和相除得到商品的点击比作为商品的热度标签。

在一个实施例中,商铺画像包括商铺位置标签、商铺主营标签、商铺行业标签、商铺热度标签、商铺品牌标签等中的至少一项。

根据本发明的一个实施例,可根据以下步骤获得商品画像的各类型标签:对商铺的多维属性特征中的位置特征抽取出商铺位置标签;对商铺主营商品特征进行分词处理、过滤无用词并与帖子的多标签分类进行合并得到商铺的主营商品标签;对商铺日/周/月点击率与所有商铺的点击率之和相除,得到商铺的点击比作为商铺的热度标签;根据商铺行业信息抽取出商铺行业大类作为商铺的行业标签;根据商铺中商品的品牌信息进行合并得到商铺的品牌标签。

根据本发明的一个实施例,可将用户画像、商品画像、商铺画像以三元组数据形式离线存储到数据库,例如, <用户,标签,权重值> 、 <商品,标签,权重值> 、 <商铺,标签,权重值> 。

步骤S140,为用户进行个性化信息推荐。

在此步骤中,对于推荐系统中的新用户,可从日志服务器上实时采集多源用户行为日志,对日志进行实时处理,提取反映用户行为的关键字段,并利用存储的用户画像、商品画像和商铺画像进行实时商品推荐、商铺推荐等,为用户提供感兴趣的个性化的标签信息。

根据本发明的另一方面,提供了一种推荐系统中的画像构建装置,能够实现本发明的画像构建方法。

参见图2所示,在一个实施例中,本发明的画像构建装置200包括数据获取模块210、数据预处理处理模块220、社交网络信息处理模块230、特征提取模块240、画像构建模块250、画像存储模块260和实时推荐模块270。各模块实现的功能分别与上述画像构建方法的各个步骤对应,为了清楚起见,这里不作详细描述。

数据获取模块210,用于离线或实时从日志服务器获取多源用户行为日志,从业务数据库中查询社交网络数据等。

数据预处理模块220,用于对多源用户行为日志非结构化数据进行预处理,得到统一规范格式化的用户行为数据以及过滤爬虫和异常信息等。

社交网络信息处理模块230,用于对社交网络数据中的帖子内容和评论信息进行处理,得到用户和商铺的社交网络属性特征。

特征提取模块240,用于对预处理后的用户行为数据、用户和商铺的社交网络属性特征和业务数据库中的数据进行数据分析,提取用户、商品、商铺的多维属性特征并进行存储,获得用户、商品、商铺的特征库。

例如,可将动态变化的用户、商品、商铺属性特征存储到分布式Nosql数据库中,以便于更新计算,而将静态的用户、商品、商铺属性特征存储到Sql数据库。

画像构建模块250,用于基于用户、商品、商铺的多维属性特征,提取标签信息,计算并更新标签的权值,得到用户画像、商品画像、商铺画像。

画像存储模块260,用于存储用户画像、商品画像、商铺画像,为实时商品推荐、商铺推荐提供数据支撑。

例如,根据用户画像、商品画像、商铺画像分别得到 <用户,标签,权重值> 、 <商品,标签,权重值> 、 <商铺,标签,权重值> 三元组数据,并存储到数据库中。

实时推荐模块270,用于根据从日志服务器实时采集的多源用户行为日志,实时处理日志,以提取用户的多维属性特征、商品的多维属性特征或商铺的多维属性特征,并利用离线存储的用户画像、商品画像、商铺画像数据进行实时商品推荐、商铺推荐,为用户推荐标签信息。

在另一实施例中,可利用Hadoop、Spark、HBase等分布式存储和计算技术实现本发明的画像构建装置。

例如,数据获取模块将离线获取的数据存储到计算集群的HDFS上,以供Spark离线计算。数据获取模块还可进一步包括:

Flume日志收集子单元,用于将Agent的日志收集;

Kafka中间件存储子单元,Flume日志收集子单元将收集的日志分发到Kafka集群,用于供SparkStreaming实时消费。

特征提取模块可将动态变化的用户、商品、商铺属性特征存储到分布式HBase数据库中,而将静态的用户、商品、商铺属性特征存储到Mysql数据库中。

画像存储模块可将用户画像、商品画像和商铺画像存储到HBase集群中。

本发明提供的画像构建方法,通过采集全面的用户行为日志、社交网络信息等,进行分析处理,获得用户、商品、商铺的多维度属性的特征,并动态更新用户、商品、商铺的画像标签和权重,通过分布式存储画像,为实时推荐提供精准的数据信息,不仅时效性好,还具有很好的全面性。

需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些
当前第1页 1 2 3
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1