图网络数据在快手跟风拍摄中的实践与应用

导读:在快手短视频APP 平台上,每时每刻都有大量用户参与短视频的生产消费与分享,期间会产生大量的高热度视频,引起社区爆发病毒式传播与复制,而图结构在描述社交网络关系上有着天然的优势,因此本次分享题目为图网络数据在跟风拍摄中的实践与应用,主要内容包括:

  • 图网络基本概念
  • 网络数据在快手的应用现状
  • 网络数据在跟风拍摄中的实践
  • 利用传播网络关键节点形成的频率错觉

01

图网络基本概念概述

1. 网络必要元素

网络的最基本组成部分:节点(nodes)和边(edges)。节点表示网络中的人或其他实体,同时拥有自身属性(如用户画像、用户自身活跃度等)和基于网络的属性(如与n个用户建立联系等);边表示节点之间的连接,根据场景需要可以有强度(社交关系的强弱,如单向关注、双向关注等)和方向(信息的传播方向)等属性。

在实际构建网络时,小世界网络、无标度网络和随机网络可能会同时存在,可能是不同的子网络。

2. 网络关键节点

中心节点在网络中起到维持稳定的作用,如同维持整个网络生态的连接器。在不同的网络结构(场景)中,中心节点定义也不尽相同,例如被众多邻居包围、拥有更多的边或处于连接的重要路径上,通常有以下指标来衡量中心性:

3. 网络基本分类

支持的业务类型不同,对应的网络定义也不尽相同,如单向关注更多采用有向网络,双向关注则采用无向网络,衡量用户亲密度考虑加权网络。

4. 图网络应用

① 图神经网络

多用于社会影响的预测、电子健康记录与建模。

② 图网络因果推断

后文频率错觉部分做详细介绍,此处不再赘述。

③网络中社区的挖掘

将杂乱的网络结构通过算法划分为子社区,通过中心节点在子社区间产生联系。

--

02

网络数据在快手的应用现状

1. 社区的形成

可以将单个用户视作散点,用户通过“广义社交”形成关系对,交织在一起形成社交网,通过不同社交关系网的特性可以定义不同的社区。

2. 关系网络——从无序到有序

用户关系网络错综复杂,可以通过louvain等开源的社区网络算法,将无序网络转化成有序网络并挖掘出不同的社区,这些社区基于关键节点建立联系,针对挖掘出的不同社区可以使用不同的策略。

3. 线下到线上的社区迁移

大多数与社交相关的互联网公司都希望达到的目标:随着时间的推移,将线下的好友关系迁移至线上,并利用迁移后的社交关系做用户冷启动。针对迁移较差的社区,可以多鼓励用户去关注线下的好友,实现线下好友关系的线上迁移。

4. 社区策略

不同社区用户分属于不同的垂类,可能产生差异化的行为。根据六度分隔理论,不同社区的用户也可以通过媒介用户(网络中的关键节点)与其他社区产生联系,进而对更大范围用户产生影响。如用户关注某一个主播,通过其所在的社区与其他相关联的主播社区产生联系(如鼓励相关联的两个社区的主播连麦,增强社区间交流与互动),将更多可能喜欢的主播推荐给该用户,丰富用户的推荐内容。

关于主播所在的社区定义,要与业务方共同协商,确定社区的属性与描述,这涉及到社区的后续运营及其与业务的关系程度。

--

03

网络数据在跟风拍摄中的实践

1. 风与跟风

风的必要条件:可(易)模仿、生产门槛低、有趣有料、符合大众品味;

注意:由于平台新作品较多,因此默认潜在的爆款视频可以自己做到冷启动,不需要平台运营的扶持与助推,否则认为缺乏后续数据爆发的力量。

跟风的定义:普通ugc和pgc作者能够基于所看到的视频,模仿视频的主题或风格拍摄出类似的作品。

2. 风的载体

①活动(hashtag)

②音乐

③魔法表情

④模板

3. 网络中的关键节点

在实际操作中定义了四种可解释性较强的中心节点,包括超级传播节点、中心传播节点、种子传播节点和低效传播节点,如下图粉色节点所示。

①超级传播节点

超级传播节点对网络影响最大,能直接影响周围节点,通过影响大量的一度关系用户,进而影响网络内部更多的关键用户,在实际业务过程中表现为消费带产(可理解为跟风)传播强度高且深度长。

②中心传播节点

中心传播节点对网络节点即一度关系用户影响最直接,消费带产传播强度高,但是影响对用户继续传递的概率较低,即传播深度浅。

③种子传播节点

种子传播节点自身的直接影响力较低,只能影响一个节点,但其影响的节点非常重要,可能是超级传播节点或中心传播节点,这种情况下我们认为该节点的消费带产传播强度低,但深度长。

④低效传播节点

低效传播节点是业务中关注较少的类别,此类用户通常只是发布记录生活的一些作品,一般不做研究。

4. 关键节点策略

由于网络中的关键节点影响力较大,可以制定一些有针对性的促产策略(如拍摄跟风视频等),“精准制导”命中关键用户,使该类群体在内容的生产和传播网络中形成更大的影响力,具体策略包括:

①特定召回和排序调权

②荣誉激励任务体系

③定向人工运营

5. 工具赋能业务

营造“话题”除了算法分发侧的优化,运营的有效干预更为重要,因此在业务实操中利用工具进行热点素材与流行信息的挖掘与分析,再结合运营策略(如助推、定向扶持、话题热榜等)让这些素材“出圈”,进一步提升社区内部用户参与度(如点赞、评论、转发、搜索等)。

--

04

利用传播网络关键节点形成频率错觉

1. 何为频率错觉

频率错觉,也被称为巴德尔-迈因霍夫现象或频率偏见,是一种认知偏见,即在第一次注意到某一事物后,有一种更频繁地注意到它的倾向,导致某人相信它有很高的频率(一种选择偏见)。当对某一事物的认识增加,造成它更经常出现的错觉时,就会发生频率错觉。说白了,频率错觉就是"你刚刚发现的一个概念或事物突然好像到处出现"。

2. 生活中的频率错觉

基于信息不对称产生的认知偏差:由于普通人缺乏上帝视角,因此对于很多事情发生概率的估计是基于自身感知来判断,此时得到的结论往往是有偏的。

产生原因:作为用户缺少产品的宏观数据,只能被动接受算法推荐的内容,进而形成部分内容很火爆的认知。

3. 频率错觉的影响及价值

一个基于经验的推断:由于频率错觉的存在,人们在重复看到某种特定属性的内容后,会深刻影响其后续的行为,则跟风拍摄类似视频的概率会大幅增加,我们通常称其为视频创作中的频率错觉。

但是否能将该作品的生产归因于重复推荐导致用户形成的频率错觉上?即二者之间究竟是存在确切的因果关系,还是隐形的混淆变量(如用户画像、行为特征、节假日等外部信息)导致了这种外显的假因果关系。如前文提到的图网络在数据科学中的应用,基于图网络的因果推断可以验证这一假设的正确性。

在做因果推断时,筛选混淆变量X至关重要,这决定着我们能否将T(同素材作品重复分发次数)对Y的因果影响计算更纯净。由于业务方向是促产,因此关注的特征类型包括用户画像、用户消费行为、用户时序行为趋势、用户生产及成就等,不同的特征对应不同的变量。

采用双重机器学习模型(DML)计算频率错觉对用户生产造成的影响,我们发现:在不同的地区,频率错觉均会显著提升用户的生产意愿,详见金雅然老师的文章:因果推断与实验设计。

4. 如何形成频率错觉

基于DML验证了频率错觉有助于激励用户跟拍后,我们如何利用这一结论,让用户形成频率错觉呢?通过条件概率公式可知:

P(跟拍|消费某类作品)=P(消费某类作品且跟拍)/P(消费某类作品)

因此,基于用户的先验数据针对频率错觉的形成通常有以下策略:

①对超级传播节点作品加权

②取消特定主题内容的打散策略

③运营活动预热,增加用户印象

④产品功能上突出热门素材显示

今天的分享就到这里,谢谢大家。


分享嘉宾:李健伟 快手 数据分析专家

编辑整理:王柳月 上海对外经贸大学

出品平台:DataFunTalk


01/分享嘉宾

李健伟|快手 数据分析专家


快手 国际化生产DS组TechLead。

长期在互联网公司从事用户行为分析、因果推断、机器学习等相关工作。负责爆款视频传播网络研究、用户兴趣探索等方向,通过频率错觉、网络传播等方式打造内容规模化生产和传播的网络,并基于用户兴趣承接、多样性研究、内容冷启优化等,为从0到1打造中视频分发体系优化提供持续、高质的分析建模支持。已完成多个专利,开源算法成功落地为公司内部的数据产品。



02/关于我们

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章