八卦之王:社交网络中谁最八卦?

随着对社交网络(social network)研究的不断深入,一个现实的问题一直困扰着政策制定者和社交网络中的个人:可不可以识别出哪些人在一个社交网络中对信息传播有最强的影响力?或者说,社交网络中的个人究竟会不会知道社交网络中谁是影响力最大的?

这里的困难在于,无论对于政策制定者和社交网络中的个人,都不可能有完整的社交网络的信息(即谁是谁的朋友)。即使是身处社交网络中的个人,也只可能知道自己认识的人的信息,而对于自己的朋友之外的信息仍然很难获取。

之前的研究定义了社交网络中每个个体的“重要性”,或者说“集中度(centrality)”,比如特征向量集中度( eigenvector centrality )以及 Katz-Bonacich 集中度。但是这些定义前提是我们必须知道整个社交网络的信息。

Banerjee, Chandrasekhar, Duflo 以及 Jackson 等人在 NBER 上的一篇 working paper:GOSSIP: IDENTIFYING CENTRAL INDIVIDUALS IN A SOCIAL NETWORK从理论上解决了这一问题。这篇文章从理论上证明了,社交网络中的每个个体,通过简单的数一下每条消息传过来的源头的次数,个体可以知道社交网络中每个人的重要性(集中度)的排序。

(前方高能预警,有数学出没)

故事是怎样的呢?假设一个社交网络中有 n 个个体,n 个个体之间的关系可以通过一个矩阵 g 来表示(

![宽客网,量化投资,宽客俱乐部](http://zhihu.com/equation?tex=g_%7Bi%2Cj%7D%3D1" />

表示 i 认识 j),假设每个个体在得知一个消息(gossip)之后以 p 的概率告知其朋友,那么可以定义矩阵

宽客网,量化投资,宽客俱乐部

其中 H 的第 i,j 个元素代表在消息传递了 T 次之后,第 j 个人从 i 得到消息的次数的期望。这样就可以定义一个传播的集中度(diffusion centrality):

宽客网,量化投资,宽客俱乐部

这个集中度(以下简称 DC)代表了在经过了 T 次传播之后,第 i 个个体所传播的人数的期望值,这个个体能直接或者间接传播的人数越多,那么显然这个个体在社交网络中就越重要。其他的集中度定义(特征向量集中度、KB 集中度)在这里不赘述。

作者考虑了这么一个消息传播的过程(Gossip Process):有一个新消息(无论是消息是事实、猜测或者甚至是谣言、观点)从 i 传出,i 可以告诉 k 和 q,k 可能告诉 j,j 可能告诉 q 和 r,但是在每一次传递中,每个人都告诉传递的下家,这条消息是从 i 这里传出来的。比如在这里,k 从 i 这里听到了一次,而 q 则直接从 i 听到了一次,间接从 j 这里听到了一次,所以共两次。

这里的关键点在于,这个过程并不需要每个人知道消息传播的路径,而仅仅需要知道消息是从谁传出来的,以及自己听到了多少次这个消息。这个计数过程可以如下描述:

宽客网,量化投资,宽客俱乐部

也就是 H 矩阵的第 j 列,代表了经过 T 次消息传递之后,j 从每个个体听到消息的期望次数。

作者证明了,每个人的排序与定义的 DC 是正相关的,而且随着 T 趋向于无穷,每个个体都可以完美的知道每个人的集中度的排序。

好了,证明了上面的结论,你能拿出点证据来说明你的理论是对的么?

作者于是需要证明,每个个体的确有识别出“八卦之王”的能力。

于是,作者调查了 35 个村庄,首先通过调查的方式(比如问你你曾拜访过谁,谁曾拜访过你等问题)描绘出了每个村庄的社交网络结构(g)。然后问了两个问题来统计村民心目中谁是八卦之王:1、如果你有一个贷款产品你想告诉村子里每一个人,你会告诉谁?2、如果有演出消息你想告诉村子里每个人,你会告诉谁?这样,作者就获得了每个村庄的“八卦之王”的提名以及排序。

此外,作者还把商店老板、教师等与其他人接触较多的个体单独列出来作为“leaders”,因为这些人是天然的“八卦之王”候选人(仿照 Bharatha Swamukti Samsthe 的做法)。

首先,比较一下被提名的人以及 leaders 的分布:

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

可以发现,(A)中的 leaders 更容易包括很多不重要的人物,而(B)中的排名看起来更靠谱一点。

既然有了网络的信息,就可以计算一下特征值集中度,然后看看村民报告的“八卦之王”跟理论计算出来的特征值集中度是不是一致的:

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

可以发现,通过特征向量集中度计算的“八卦之王”更容易被村民提名(上图),而且被提名的也更多的出现于特征向量集中度更高的人群(下图)。

当然,这种比较太过于粗略。村民可能仅仅报告那些有更多朋友的人,或者地理位置上更方便传播消息的人,所以作者还做了回归分析,通过控制其他的变量,看前面的 DC 集中度是不是能更好的预测被提名的概率(次数):

宽客网,量化投资,宽客俱乐部

至于回归结果吗,大家看看就好,作者的 DC 集中度一开始很显著吗,但是随着控制其他变量,显著性水平越来越差,虽然系数值越来越大。但是作者指出,如果做三个集中度变量的联合检验,联合起来却是显著的。问题可能出现在三个变量的共线性上(这也就是我一直强调的,共线性怎么办?没办法,看大神写文章是顺着写的,一开始变量少,慢慢增加变量,而不是相反,怀疑有共线性了再删变量)。

所以呢,你看,村民都是有这种能力的~

今天就写这么多,我去看自己的回归结果了~

Via:知乎
金融工程, 数学算法

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击下方“内容举报”进行投诉反馈!
立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部