当前位置:主页 > 学新知识 > 如何预测社交网络的突发热点事件

如何预测社交网络的突发热点事件

时间:2023-09-22 15:02:00 作者:
摘要:现实生活中经常有突发热点事件,例如突发热点新闻,突发疫情,突发信息安全事件等等。如果能够提前预测突发事件,不仅能够防止重大安全事件的发生,在某些商业应用场景下还

现实生活中经常有突发热点事件,例如突发热点新闻,突发疫情,突发信息安全事件等等。如果能够提前预测突发事件,不仅能够防止重大安全事件的发生,在某些商业应用场景下还能带来高额的商业收益。不管是在学术界还是工业界,突发热点事件都是研究和关注的重点。

信息瀑布模型(Information Cascades)是近年来社交网络分析的研究热点。信息瀑布模型主要研究社交网络中信息的扩散情况,例如豆瓣网对某本书点赞行为的扩散模型。信息瀑布模型在学术界和工业界引起了广泛的关注。Facebook 作为全球最大的社交网站,对信息瀑布模型也非常的重视。本文编译自知名国际会议 WWW 2017 年 Facebook 和弗吉尼亚理工联合发表的论文 Detecting Large Reshare Cascades in Social Networks。

信息瀑布模型可以归约为如下问题:判断社交网络中某个时间什么时候会产生爆发式的流行行为。因为这种爆发式的流行行为非常的少见,并且是爆发式的,因此传统的一些算法会受到极大的影响。如果用分类的方式对问题进行预测,会导致不均衡分类问题;如果用时间序列分析的方法来对问题建模,因为爆发式的流行行为与时间序列的平滑性等要求不符,因此也很难对问题进行好的刻画。而生存分析技术能够很好地解决这一问题。

Facebook 为了解决这类信息瀑布模型问题,提出了 SansNet 方法。问题的场景是为了刻画网站上转播行为(reshare)的信息传播模式。

首先我们定义一下什么样的行为被认为是爆发式的流行行为。Facebook 认为当转播行为超过了绝对或者相对大小的某个阈值,就认为是爆发式的流行行为,例如某个帖子被转播了1万次。问题的定义如下:

如何预测社交网络的突发热点事件

Facebook 用扩展 COX 模型对 m 个转贴时间序列进行预测。这个模型的生存函数如下:

如何预测社交网络的突发热点事件

其中 v(t) 是 t 时刻信息瀑布的大小。

爆发式流行行为可以归约为如下最优化问题:

如何预测社交网络的突发热点事件

该最优化问题的本质是分类问题 , 其中 是分类标签( +1 / -1) 用来标记某个帖子的转播时间序列是否是爆发式流行行为。 是每一类的误分率。这个问题的实质是通过生存概率来最优化两个不同分类之间的最大间隔,或者换句话来说,最小化分类问题的误分率。

SansNet 算法的伪代码如下:

如何预测社交网络的突发热点事件

SansNet 的总的时间复杂度是 O(m(|R|+T)) 。

Facebook 的研究人员选取了 2015 年 8 月8日上传到 Facebook 的 25 万个照片和视频,统计了每个小时照片/视频的转发量,将持续一周时间的数据作为实验数据集进行了算法实验。SansNet 在照片和视频上的召回率(红色线条)如下:

如何预测社交网络的突发热点事件

可以看到 SansNet 算法与线形模型、逻辑回归、树模型和随机过程模型相比有明显的优势。

SansNet 在 Top 10 热点的覆盖率如下所示:

如何预测社交网络的突发热点事件

SansNet 在 Top 30 热点的覆盖率如下所示:

如何预测社交网络的突发热点事件

Facebook 的这篇论文是 2017 年发表的最新成果,具有广泛的应用场景。例如:新闻网站如新浪和网易均把热点预测作为重要的算法研究问题。另外针对社交网站例如 Twitter 上流行微博和流行主题的预测也引起了学术界和工业界的广泛关注。预测问题是大数据领域具有重要现实意义的问题,特别是长期预测,至今仍是一个充满挑战性的命题。

原文标题:Detecting Large Reshare Cascades in Social Networks,

作者:Karthik Subbian , B. Aditya Prakash , Lada Adamic

相关阅读

发表评论

登录后才能评论

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。