重返沙堆: 通往理解信息扩散的实在之路
黠之大者 2012-05-16
17赞
黠之大者
任何一个学科都需要从其它学科学习其精髓,对于在走向可计算化道路的社会科学,尤其是传播学而言,这种开放性更是时代的压力和必然的结果。因为网络时代的到来所带了的传播关系的变革、数字化的行为印记(digital traces or digital footprint)、大规模的网络数据的开放都推动着学科的变革。无疑对于传播学而言,这是一个必须抓住的机遇。
爱因斯坦在老年时在一个自述中讨论了一个问题,即为什么他念了物理没有念数学。他说:“在数学领域里,我的直觉不够,不能辨别哪些是真正重要的研究,哪些只是不重要的。在物理领域里,我很快学到怎样找到基本的问题来下功夫。”我想这几句话的意思应该是每一个大学教授,每一个大学研究生应该仔细想法体会的。如果思考重要的问题,自然做出的东西不容易琐碎(trivial)。虽然最终问题的本质可以用一个美妙的数学形式表达(不应该是统计方程),但从那么多的相(万象)中找到基本的相,稳定的相(pattern)。依然是一个不容易的事情。
到幂律分布(power law)之类的发现依然是唯相的阶段。社会科学的冒进在于每次都妄想一个理论框架。每次都拿理论发现来宽慰自己。殊不知己之理论与彼之理论,相差如同天壤。大数据(big data)引发了很多欢呼和争论,虽然这是机遇,但也隐含着危险。大数据(big data)如果是无偏的,有代表性的,那么就蕴含着机遇。常见的一个错误是误以为google成功于海量数据,谬矣。信度和效度的问题,在我的理解里,这都是你选择的测量的可计算性的问题。好的测量(measure)往往一针见血,如货币,如基因,如能量,如比特。在互联网里目前最成功的测量是什么?我以为是pagerank。借助用户的评价,一下子就抓住了一个网页的重要性!googe最成功的是pagerank这个好的测量。这样好的测量才能赚钱,才有可计算性,基于兹的研究才有信度和效度。类似的测量当属度了,度分布的幂律分布(power law)被无数的研究所发现,可以算到了唯相了。
作者愚见,觉得扩散是最为普遍而重要的现象,它广泛地存在于各个学科中,并几乎都成为最重要也是研究的最彻底的、最吸引人注意力的领域。我自己对于扩散有着超乎直觉的兴趣。借用古希腊哲学家的话:万物皆流,万物皆变。身在浩浩汤汤的洪流中的个体很容易对流产生兴趣。因而,我将研究流的扩散,更具体的说信息的扩散,作为了自己博士研究的主要工作。
而选择研究信息扩散的一个驱动力就是巴克(Per Bak)的这本书《大自然是如何工作的》,这本书通过沙堆模型讲自组织临界性,对我的启发很大。当我对信息扩散的数据浸淫日久之后,深感必须重返沙堆模型,才能真正理解信息的扩散,因此便有了本文。在本文当中,我将归纳关于扩散研究的三种路径。
一、描述式的社会科学套路
如经典的新闻扩散(news diffusion)的研究、两级传播理论(two-step flow)、创新的扩散(diffusion of innovations)。这些研究主要是为了描述现实,沿着这条道路走下去,可以更真实地理解5w,却很难理解1h(即how)。
虽然社会科学因为无历史包袱,所以视角更为多元,比如两级传播理论所揭示的媒介的直接影响非常不同于自然系统的扩散的特点, 经典的新闻扩散研究发现的J曲线指出人际作用和媒介作用的对立,以及其对传播规模的非线性影响也很有想象力。但社会科学却在可计算化方面做得并不好(读者可参见本文作者在上一期杂志上关于计算传播学的文章)。比如经典的创新的扩散理论中所着重论述的s曲线实在是一个坏到家的定义。因为并未能给出s曲线的数学表达,而几乎不管什么曲线方程(如罗杰斯蒂方程,但注意s曲线不是罗杰斯蒂曲线),只要使用超过三个数学参数就可以拟合任何曲线,这使得大家即喜欢这个s曲线的比喻,又根本抓不住什么才是s曲线。成为了难以比较,不可琢磨的臆测。
二、微分方程的数学视角。
比如Bass扩散模型(bass diffusion model), 这实在是一个了不起的工作。我写一个的短评,如下:
从bass diffusion model开始讲,这个与生存(survival analysis)里的hazard rate息息相关。因为F'(t)/(1-F(t))被定义为hazard rate。其实是一个条件概率,就是没有采纳的人(没被传染的人)(1-F(t))在时间点t采纳(被传染)的概率。
关于hazard rate设置的方法导致Bass扩散模型(bass diffusion model),前几天刚看了,h(t)=p+q*F(t)。解这个微分方程,可以求出F(t)和f(t)。这个东西可以预测增长曲线。p和q分别代表创新性和模仿性。感觉很好玩。p=0, 即没有创新性的时候,是罗杰斯蒂增长(logistic growth);q=0, 即没有模仿性,只有创新性的时候,是指数增长(exponential growth)。
讲到谣言传播的第一种模型的时候,hazard rate=d,这个时候就是指数增长;但这样设置有些随意(arbitrary),因为有些人拒绝传播。就有了一个叫拒绝率r的东西,这个我还是第一次看到,因此它是在试图修正hazard rate。那么r是什么呢?没有讲清楚。我试图从R(t)=r*F(t)/(1-F(t))这个我自己构造的公式来理解。r*F(t)衡量的是已经知道谣言的人拒绝传播的概率, 再除以1-F(t)就是不知道谣言的人受拒绝传播的人影响的概率。 那么就有h(t)=d-R(t)。 但这种工作有点arbitrary,因为你说p是创新性,q是模仿性,然后就开始推导了 (推导可见我的一篇博文, 另电子杂志可以加链接于我而言是意见快乐的事情)
下面沿着率方程的道路走下去的是一个伟大的传统,即传染模型(epidemic model)。最主要的是sis和sir。其主要思路是将传染的过程分为3个阶段:susceptible--->infectious---->recovered (and immune)。sir说一次恢复,永远免疫,再也不怕了;sis则不然,好了还会被再次感染。传染病模型中一个主要的工作是确定一个传播率,它是感染率和治愈率的比值。这个传播率一般存在一个threshold,当高于这个threshold的时候,能够全局传播;否则只能感染少输人。
网络科学开始考虑人际接触关系(contact relationship)是如何受网络度分布的影响的,加入度分布的因素之后开始考虑统合门槛(threshold)的大小问题,一个著名的工作是Romualdo etc在2001年发表的一篇题为epidemic spreading in scale-free networks的论文,被广泛引用,因为他们发现scale-free network里的感染门槛是0!!!没错,就是0,也就是说全局传播不是问题。
不过,要小心,这个模型是根据sis做的,如果是sir情况是如何呢?(留作思考,其实我也不知道)这一点很重要,因为当你把它用在信息的渗流的时候,是有风险的。举例子说:Romero &Jon kleinberg (2011)等人研究hashtag(e.g. #ows)在twitter上的扩散,发现多次接触具有很高的边际作用,发现多次接触信息对于信息转发具有显著效果(Repeated exposures to a hashtag on Twitter has significant effects)。那么多次接触单个的信息(repeated exposure to a specific tweet)呢?其情况会大有不同。因为hashtag是一个类别(category),下面有很多子类别。正如感冒细菌下面包含各种各样的细菌一样。加到一块的影响,使得影响很大,但对于单个类别的感冒细菌来说,你得了一次,就不会再得第二次了。即对于单个信息来说,多次接触没有那么大的影响。
三、平均场理论视角下的门槛模型(threshold model)
门槛模型(threshold model)最好的诠释仍然是元胞自动机(cellular automaton), Thomas Schelling的分隔模型(Models of segregation)说每个人都有一个关于周围邻居肤色比例的偏好(peference),超过一定比例后,就会迁移。最简单的就是Granovetter等提出的门槛模型了,计算每个个体(agent)行为改变时其朋友中行为改变比率,但按照平均场视角,这其实不重要,重要的是平均起来的总体效果,最简单的就是门槛的数学分布,按照格兰诺维特的想法,这个数学分布最终决定了扩散的规模。
自组织临界性最早是BTW sandpile model所提出的,沙堆理论是一个非常强大的metaphor,其主要提出者bak写了另外一本非常强大的书籍介绍其核心思想:其所覆盖的范围真是超乎想象。
自组织的魅力在于可以对扰动做出最丰富的反应!反应是很平常的,难在最丰富的反应。那是什么样的呢?其实是空间和时间两种分布的幂律特征。
沙堆模型(Bak等人1988年的论文)所描述的自组织系统中流的规模分布(Size distribution,e.g., earthquake,financial markets,landscape formation;forest fires;landslides;epidemics; andbiological evolution)和流的持续时间分布(Duration distribution)都满足幂律的关系。
Bak曾说自己对自组织临界性的理解是压力和压力的释放。比如向沙堆上加沙子,这种动力推动系统重新演化到平衡状态。这种释放压力的系统被称为耗散系统(dissipative system。这是一个很好的概念和视角:其实森林火、地震、河流涌动,信息传播,树叶中的营养输送,等可以以之概括。
自组织临界可以按照平均场方法进行解析式的理解。平均场方法首先要确定的是phase transition的问题。第一步,便是要有一个稳定的pattern作为起点。因为相变是由一个序转变为另外一个序。而用来标识这种转变的变量称之为“相变序参量” (sigma),一个相到另一个相的转变需要一个驱动,而这个驱动变量即称为“相变驱动参量。比如铁磁相变中:
sigma=(t-tc)^r
这种标度律的稳定的关系吸引着科学家的注意力。 平均场方法认为跨越一切尺度的个体的相互作用结果的总体效果(即”平均场"),而不简单的是每个个体的局部信息(local information),决定着相变。
结尾
It puzzles me that geophysicists show little interest in underlying principles of their science. Perhaps they take it for granted that the earth is so complicated and messy that no general principles apply.
——Bak, How nature works
本文开始引用了Bak在其书中的一句戏谑地理学研究的一句话。其实地理科学家们当中也有一些有先见者。比如hack’s law揭示的流的直径和覆盖面积之间的标度关系。 用C来表示单位时间的平均流,A表示网络覆盖面积,之间也满足标度关系关系。
相反,这句话是留给社会科学家(不是哲学家或价值批判研究者)的,对于网络科学所刻画的可计算性的传播行为的研究,在通往可计算性传播学研究的道路上,只有实在性是最好的美德。不能停留在表面,必须深入到简单的相下面的基本规律中去。