通过老用户的静态特征(手机品牌、性别、地域、安装的APP列表),以及用户的兴趣标签tag分数,构造模型预测新用户的兴趣标签tag。
1. 手机品牌组
原始手机品牌非常杂乱,包括各大厂商的子品牌,共计6W个。
取京东上有售的118个手机品牌,从0-118进行编号,其中0为缺省值。
这部分作为一个特征。
2. 地域组
一共237个地区(包括国外地区),由于国外地区人数分布比较多,将其保留,并从0-237进行编号,其中0为缺省值。
这部分作为一个特征。
3. 性别组
包括男性、女性、未知,从0-2进行编号,其中0为缺省值。
这部分作为一个特征。
4. applist组
这部分为128个特征。
取一个月活跃度最高的100万用户样本(用户文章曝光数>1000,点击率>0.1)。
模型输入:4组共计131维特征,DT算法对特征是数值型还是类别型不敏感。
模型输出:用户画像中兴趣标签的分数。其中,输出的标签是通过选取最近1个月点击率前5000的tag(选取的tag最小点击为0.183)。
最终输出:预测用户在这5000个tag中最喜欢的分数最高的50个tag,作为用户tag画像。
多标签回归问题,也可作为多标签分类问题处理,
本文发布于:2024-01-30 22:30:49,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170662505223289.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |