内容产品如何进行冷启动


作为连接人与物的推荐系统,无时无刻不面对着增量的问题:新增的用户,新增的事物。 新的用户、新的事物对推荐系统来说都是没有过往信息量积累的,需要通过累积一定的曝光量和互动量(点击、收藏、分享等)来收集基础数据,这个从0到1积累基础数据的过程就是冷启动。其需要解决的问题如下:

 

  • 用户冷启动——需要解决的问题是一个新用户,没有任何历史行为数据,怎么做推荐。
  • 事物冷启动——一个新上线的物品,没有用户对它产生过行为,怎么推荐给感兴趣的用户。

 

下面以内容类产品为切入点,尝试整理出如何解决用户和内容冷启动阶段的问题。

 

一、内容冷启动

 

1.1 基于系统进行内容冷启动


在内容被提交进入系统伊始,由于缺乏用户行为反馈,推荐系统更依赖于内容本身的固有属性来进行冷启动。基于内容的展示和消费,这些属性可以拆分为内容展现维度和内容消费维度。

 

1. 内容展现维度

 

内容展现维度是列表页展现给用户的信息,如标题、封面、发布时间等,下图为今日头条推荐栏目里面展示内容的信息列表,可以看到不同内容的展示形式不一样,甚至同一内容的展示信息也会有所差别。

对新发布的内容而言,评论数和发布时间是可以忽略的,那么,展示的重点就集中在标题、 封面和作者信息上:标题吸引人,封面清晰、表意明确,作者名称有权威度、与内容的领域保持一致等。

此外,需要探寻面向不同载体、不同人群的,更适合的表现形式。比如:对小视频应用(抖音、快手)来说,更适合突出创作者主体;对于高质量后台强推的作品, 以预览动图作为封面可以增强其吸引力。

 

2. 内容消费维度

 

内容消费维度包括作者层和内容层两方面:作者层内容消费维度是指,作者的粉丝群体更应该看到该作者的新内容,一个过往表现更好的作者可以得到更高的冷启动推荐量内容层内容消费维度是指分类信息、关键词、命中的实体和话题等,用于判断内容与用户的偏好是否匹配

对视频载体或短内容来说,由于文本信息匮乏,系统会更倾向于从标题、描述、作者维度来预估其点击率和内容质量。也可以从作者层面着手,引导作者主动完善内容信息。比如,给视频增加简介和标注,尽量选择自定义封面而非视频截图等,帮助系统获得更多可供冷启动使用的信息。业界也有公司采用专门的运营标注团队,对高质量视频进行系统化的标签完善和建设工作。

此外,尽可能挖掘和完善不同载体的特征、权重。比如:对视频而言,长度信息、画面清晰度都可以成为补充的特征;对短内容而言,在冷启动阶段应尽量放大作者的权重,优先推荐给其粉丝和准粉丝群体,用以证明内容消费的价值。

 

1.2 内容冷启动的人工干预

 

对于内容冷启动如果新类目的展示量过低,就调整新品类内容的加权系数,以保证内容能够展示在一定规模用户群体的信息流中,即以规模换效果。对应到超市的场景下,或许就是你走进超市入口那个打着新品促销招牌的堆头。

此外,支持人工推荐,比如大品类内容是具备大规模内容生产能力和内容消费需求的,即便是生推,点击率的损失也不会太高。

由于生推的方式太过于简单粗暴,可引入专家系统的先验知识。基于专家的判断制定简单的人群定向规则,用规则引导新品类、新品牌的加权分发,将全人群的强展现转为特定人群的强展现,从而换取可能更高的点击率。以嘻哈音乐为例,如果我们对嘻哈音乐的预估是年轻人、喜欢标榜个性、喜欢潮流服饰、街舞等分类内容,那么,嘻哈音乐的分发规则就会被指定为15~30岁,对潮流服饰、街舞等内容有偏好的人群,只给具有此类画像的用户进行探索分发。

 

二、用户冷启动

 

2.1收集用户信息


对于冷启动的内容, 我们可以基于文本分析抽离出内容的关键字、话题来建立内容画像; 对于冷启动的用户,我们同样需要尽快完善信息的搜集和预处理工作,建立对用户的初步认知。 对移动端产品来说,可以获取信息的途径有多种:

 

  • 利用注册信息,比如提供的年龄,性别等做粗粒化的推荐。
  • 利用用户社交网络账号登录。
  • 要求用户在注册时对一些物品进行反馈。收集用户兴趣信息。

 

此外,对BAT这种有多款热门应用的公司而言,应用与应用之间的交叉验证,就已经能将未登录的设备对应上已注册的用户,从而复用已有的用户信息了。

 

2.2 选择合适的内容启动用户兴趣

 

用户第一次访问推荐系统时,不立即进行推荐,而是提供一些内容让用户进行反馈。然后根据反馈结果进行个性化推荐。而这些提供的内容应该具有哪些特性呢?一般来讲应该符合以下几个原则:

 

  • 近期较热门——这种方式主要满足了“ 新” 和“ 热” 两个特点,即使用户对推荐内容不感兴趣也不至于太过反感。
  • 具有代表性和区分性——选择有区分度的内容进行用户偏好的探测,基于已有用户群体的偏好统计数据,动态调整后续用于兴趣探测的类目和内容。
  • 具有多样性——在冷启动时,我们不知道用户的兴趣,而用户兴趣的可能性非常多,为了匹配多样的兴趣,我们需要提供不同类别的内容。

 

2.3 兴趣探索

 

在用户冷启动阶段,系统会基于统计学的概率(喜欢A的用户有多大概率喜欢B,喜欢A和B的用户有多大概率喜欢 C)来给用户推荐新领域的内容,逐步探索和完善 用户画像。

如下图所示,娱乐、军事、体育是内容消费大类,可以优先展示这些类目的内容给用户。如果用户表现出了对娱乐类目的偏好,系统一方面可以纵向深挖用户对娱乐类目下各个子类的兴趣分布,另一方面也可以通过已有的“ 喜欢娱乐的用户是更喜欢军事,还是更喜欢体育”的统计数据,选择下一步应该优先探测军事类目还是体育类目,并沿着树状结构优先探寻用户更可能感兴趣的类目内容。

 

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

被以下专题收入,发现更多相似内容