• 京东如期而至比赛电商平台个性化推荐项目经验分享

  • 发布日期:2019-08-08 17:20   来源:未知   阅读:

  预测出以往购买过的用户在未来一段时间内最有可能购买的指定商品类别的50000个用户,以及可能购买日期

  要做两个模型。第一个模型用来预测用户下个月购买这个类别商品的概率;第二个模型用来预测首次购买的日期。

  第一组训练集用5,6,7月份的数据(去除6.17、6.18、6.19三天的数据)生成有效用户id,用2,3,4,5,6,7月份的数据生成训练数据X,用8月份的数据生成对应的标签(label1:用户是否在本月份购买),groupby(“user_id”)

  第二组训练集用4,5,6月份的数据(去除6.17、6.18、6.19三天的数据)生成有效用户id,用1~6月数据生成训练数据X,用7月份的数据生成对应的标签(label1:用户是否在本月份购买),groupby(“user_id”)

  *第三组训练集用2,3,4月份的数据生成有效用户id,用11~4月数据生成训练数据X,用5月份的数据生成对应的标签(label1:用户是否在本月份购买),groupby(“user_id”)

  分析以往整年的数据、8、7、5的数据分布情况和预测月9月相近,6月有618活动影响,噪声太大,不适合做取标签的数据集。但最后没有用第三组数据。

  因为第三组数据做训练集X的时候没有考虑618,而第一组、第二组、测试集都有考虑,所以第三组的数据分布其实是和它们不一样的,放进去对模型效果有影响。

  通过分析用户间隔购买的天数与人数数据关系,可以发现越间隔天数越小的购买人数越多(也就是重复购买的概率越大),当间隔购买天数超过60天,购买概率就变得很小了。所以选标签月的就近3个月用户在标签月再次购买的概率会比较大,作为有效用户。

  6月有618,噪声大,可能有很多跟着活动而来的不稳定用户,不适合当有效用户参考,去掉头尾和当天共三天的数据。

  用2~7月数据得到的X中,用户在8月有购买过目标品类(101/31)商品的打上”1”标签,否则打上”0”标签。

  用6,7,8月份的数据(去除6.17、6.18、6.19三天的数据)生成待预测的有效用户,用3~8月数据生成测试数据X,groupby(“user_id”),预测9月份的情况。

  在选有效用户id和取标签数据需要考虑618的影响,做训练集、测试集X是可以不用考虑618的影响的,因为它们都有考虑618,它们实际上数据分布是一致的。

  eta:学习率,用于更新叶节点权重时,乘该系数,避免步长过大。就是梯度下降损失函数下降的那一张图的解释,每一轮迭代损失函数都是沿着减小幅度最大的那个方向下降,如果步长太大,可能下降到接近最低点的时候,损失就跨到另一边去了比前一个模型的损失还大,导致无法收敛。参数值越大,越可能无法收敛。把eta设置的小一些,小的学习率可以使后面的学习更加仔细。

  min_child_weight:每个叶子里面的h的和至少是多少,这个参数非常影响结果,控制叶子节点中二阶导的和的最小值,该参数越小,越容易过拟合。

  max_delta_step:该参数可以使得更新更加平缓,如果取0表示没有约束,如果取正值则使得更新步骤更加保守,防止更新时迈的步子太大。

  colsample_bytree:列采样,对每棵树生成时用的特征进行列采样,一般设置为0.5-1。

  2 逐个调参:相关的参数一起调参,如果没有相关的参数,单个调参。每调到一个最优参数,把其更新。

  打标签有些不一样,用标签月的用户购买目标品类的日期离当月1号的距离(即购买当天的日期号数)作为标签值,如果标签月的用户没有购买目标品类的商品,则标签值为31。 得到总体用户(约100000个)在下个月可能购买的日期,然后用第一个模型得到的50000个id merge第二个模型的预测结果,就是整个比赛的最终预测结果输出。

  在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线...博文来自:CSDN人工智能

  一、个性化推荐系统简介个性化推荐系统是建立在海量数据挖掘基础上的一种智能平台,可以模拟商店销售人员向顾客提供商品信息和建议,为顾客购物提供完全个性化的决策支持和信息服务,它的目标是既满足用户意识到的需...博文来自:喜欢打酱油的老鸟

  京东赛告一段落。作为一个菜菜鸟,虽然无缘前十,但是也算是有一点小感悟和一些对数据挖掘的认知。毕竟这是第一次接触比较接近实际工程中的数据,而且是时间序列相关的数据。一.数据集的划分在做京东赛的时候,第一...博文来自:暗时间

  推荐系统核心任务是排序,从线上服务角度看,就是将数据从给定集合中数据选择出来,选出后根据一定规则策略方法进行排序。        线上服务要根据一定规则进行架构设计,架构设计是什么?每一次权衡取舍都是...博文来自:javaxuexi123的博客

  性化推荐系统由亚马逊电子商务公司、Netflix电影租赁公司,在线上业务大力使用推荐系统,并大力通过文章、竞赛形式宣传推荐系统。使得个性化推荐系统在电商领域及其受欢迎,并且个性化推荐技术应用到线上个频...博文来自:weixin_33858336的博客

  表5:评论分数数据表(jdata_user_comment_score)1.  读取数据,并获取数据基本信息2.  获取评分等级分布,没有-1即没有空评论3.按o_id进行groupby分组,其中第一...博文来自:zhuzuwei的博客

  本人参与挑战杯参赛,在这个过程有些经验希望分享给大家,一起交流学习。项目开发注意事项:1、今曰玄机图B_2018,开发思路(1)在确定一个项目之前,要到网上(例如知网:博文来自:ai_XZP_master

  赛题2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户...博文来自:MrChen11的博客

  第一步数据清洗,我们首先针对那些三个月内没有发生点击,没有发生购买,没有发生贷款同时没有白条贷款的用户,有529个用户,认为在未来一个月不带款,因此数据清洗掉。第二步数学建模采用滑窗法采样扩充训练样本...博文来自:kkkkkkkkq的博客

  ORACLE比较好的设计架构和应用程序设计也能支持比较高的电商网站:第一首先按业务来分库第二按业务类型来OLTP,OLAP来分库(比读写分离更好)第三按模块来分实例....博文来自:AricZhou

  初学者可以参考资料:,这是一位热心的参赛者提供的一份入门程序,涵盖了数据清洗、数据(统计)分析、特征抽取、搭建模型、模型评估,这些机器...博文来自:liuhuoxingkong的专栏

  前言本篇博文主要根据博主自身的参赛学习经历,分享一些关于机器学习和数据挖掘比赛的资料与经验。因为自己在学习过程中,也多亏大佬前辈们的指导和分享,才慢慢学会一些技能,所以,希望大家一起学习交流,一起进步...博文来自:huakai16的博客

  今年kaggle华人优胜团队很多,所以经验、心得不少,都是干货慢慢收集。一、【干货】Kaggle数据挖掘比赛经验分享github:博文来自:素质云笔记/Recorder...

  目录 1.前言2.正文程序框架数据库代码结构代码结语1.前言电商是当今最火爆的一种商业模式,学习springMVC等网页后端技术的我们,都很难找得到相关的实例,而往往很多公司在招聘的时候都会或多或少地...博文来自:Akira_Rexlee的博客

  【前言】小编最近接手电商的项目,为了做出更适应市场需求的产品,小编去了解了一下关于电商的发展,下面小编会跟大家分享小编了解到的内容。如有不足或者更好的建议,大家可以在底下给小编指出,谢谢大家。【内容】...博文来自:王小波

  一、京东AI时尚挑战赛Top3﹀北京时间2018年9月16日,由京东AI平台与研究部发起的从七月开始的京东AI时尚挑战赛正式在ChinaMM2018大会上圆满落幕!大会现场而经过两个多月的角逐,由极市...博文来自:极市平台的技术博客

  先介绍下的咱们目前推荐系统的做的两个大方向:     1、基于自然语言处理的用户短期和长期兴趣+rank排序。      推荐方法:a)、基于topic&keywrods等信息构建的videoprof...博文来自:修鹏的专栏

  上一篇中介绍了以为热心参赛者的代码和流程。这篇将记录自己的策略更新过程。一数据特征统计分析几个主要的点:(1)各类行为与转化(购买)之间的关联关系,包括浏览、加入购物车、关注(2)已购商品的复购率(3...博文来自:liuhuoxingkong的专栏

  垂直网站最大的瓶颈在于频次太低了,用户留不住。规模有限的情况下,也不容易拉到风险投资,更难成功了。此外,京东淘宝又那么强,BAT流量又垄断了,难上加难。So,悲观地说,电商只有综合型电商,没有垂直电商...博文来自:襄阳雷哥:梦想是一定要实现的(预计10.1发表工作7年总结,延期3.5个月)

  编辑KaterinaDonna润色鸽子11月6日,由京东金融与红杉资本联合主办的首届“JDD-2017京东金融全球数据探索者大会”在751大罐举行,同时,大会宣布首届“JDD-2017京东金融全球...博文来自:AI科技大本营

  为了工作的需要亦或者是做笔记从3/4号开始持续更新博客 我是刚毕业的小白写给自己看的希望大牛偶尔翻到了就当个玩笑吧...博文来自:ws495471092的博客

  “华鑫杯”京东量化大赛,开始接受报名啦!报名页面:访问活动页面,登录/注册京东账户,点击我要报名,填写报名信息+提交...博文来自:JDquant的博客

  原文:根据用户百万条历史行为数据,包括:user_id用户唯一IDitem_id内容或物品唯一IDcate_...博文来自:大数据部落

  二、技术要点 12.背景图片  CSS样式里background-image:url(此处为图片地址);雪碧图:CSS雪碧图的基本原理是把你的网站上用到的一些图片整合到一张单独...博文来自:木易一

  一、说明这篇分析报告单纯是为了自我学习,找出各个电商平台在搜索中间页设计上的差异,如有不足之处,欢迎拍砖点评。此次分析,挑选的APP产品有:手机淘宝、手机天猫、京东、拼多多、苏宁易购、唯品会。为了便于...博文来自:hungpn

  序言:项目管理经验,这篇文章根据实际出发,站在一个项目经理的角度,充分考虑甲乙双方利益,如何成功交付,如何保证质量,如何规避风险等等,不仅是给项目经理看的,也是给每个开发人员看的,开发有时候也需要具备...博文来自:Android小码家

  机器学习通用的完整流程:数据清洗、数据分析、特征抽取、搭建模型、模型评估数据清洗高潜用户的购买意向预测,从机器学习的角度来讲,可以认为这是一个二分类的任务.那么我们就是尝试去构建自己的正负样本.原始数...博文来自:Yasin的博客

  一、背景随着互联网的普及,网络购物已经成了人们购物的首选。用户只需在电商平台搜索商品名,便可得到成百上千条商品信息。商品信息的排序算法很复杂,但总的说来基本上都是根据与搜索关键词的关联度和商品的人气或...博文来自:Chen_yuazzy的博客

  2017年蓝桥杯单片机比赛经验分享我的蓝桥杯单片机获得江苏省二等奖,大约是江苏省130名(江苏省一等奖103个)。比赛失利的主要原因还是当时比较的单纯,只知道一味的死练。这也是我感觉死的最莫名其妙的比...博文来自:王强的博客

  首先附上该项目地址:vue仿电商平台该项目主要是仿照电商平台,使用vue-router处理路由,主要实现数据的展示,其中在项目中,自己封装了如下拉框,单选框等可复用组件。第一:App.vue:实现首页...博文来自:ty987654的博客

  今年4月初,AR圈最受期待的JD-ARARCorebyGoogle消费应用创新大赛拉开帷幕,经过60天的激烈角逐,历经线上报名、提交......博文来自:谷歌开发者

  这篇文章主要说下我们在个性化推荐策略的选择、实践和总结,没有太多机器学习方面的东西,就是简简单单说说大概的做法。推荐系统主要方法:协同过滤(CollaborativeFiltering)Userbas...博文来自:修鹏的专栏

  电商平台的服务接口网关 电商的服务接口调用,分为内部调用和外部调用,内部调用一般经过服务的注册和发现,变成客户端直接通过ip地址调用服务端的服务接口,外部的调用则不能直接提供内部服务器的ip地址(并且...博文来自:lijianhua1205的专栏

  特此声明:引用白虎QQ群的吉更大神京东竞赛技术参考汇总关键字xgboost高纬度特征的特征轮交叉验证网格搜索调参单一模型多模型融合特征工程描述统计量ML指代机器学**,DM指代数据挖掘DM流程通常分两...博文来自:一花一世界 一叶一菩提

  (由于平台限制,公式无法正常显示,更好排版请访问我的博客:)项目源代码:博文来自:weixin_34267123的博客

  转化率篇在店铺赚足了流量之后,我们考虑怎么将流量转化为销售额,才是我们的最终目的。重要指标我们将转化率按照购物环节进行拆解,那么可以分为:静默转化率、咨询转化率、加购转化率、付款转化率。我们还是介绍一...博文来自:Gavin Chen的专栏