13
35 2012 CHINESEJOURNALOFCOMPUTERS Vol.35No.4 Apr.2012 收稿日期 20110111 最终修改稿收到日期 20120104. 窦炳琳 1980 年生 博士研究生 主要研究方向为社会网络分析与社区识 .Email binglin.dou gmail.com. 李澍淞 1980 年生 博士研究生 主要研究方向为舆论动力学和复杂系统仿真 张世永 1950 年生 教授 博士生导师 中国计算机学会 CCF 高级会员 主要研究领域为计算机网络 信息安全 无线通信 移动计算 基于结构的社会网络分析 窦炳琳 李澍淞 张世永 复旦大学计算机科学技术学院上海 200433 互联网的发展和社交网站的流行为研究社会网络提供了大规模的实验平台 主要使用 DBLP Facebook 数据集构建网络 采取角色连接轮廓方法从结构上进行划分 发现它们属于外围串类型 验证了社会网络的一些统 计性质 比如无标度分布 稠化定律和直径缩减等 发现社会网络中存在紧密连接且直径较小的核心结构 规模中 等的社区主要呈现星型结构 基于事件框架研究了社会网络中社区结构的进化 发现社区间的融合很大程度上取 决于社区间直接连接的节点所构成网络的聚类系数 而社区的分裂则与该社区的聚类系数相关 关键词 复杂网络 网络分类 网络性质 社区进化 社会网络 中图法分类号 TP393 犇犗犐 10.3724 SP.J.1016.2012.00741 犛狅犮犻犪犾犖犲狋狑狅狉犽犃狀犪犾 狊犻狊犅犪狊犲犱狅狀犛狋狉狌犮狋狌狉犲 DOUBingLin LIShuSong ZHANGShiYong 犛犮犺狅狅犾狅 犆狅犿 狌狋犲狉犛犮犻犲狀犮犲 犉狌犱犪狀犝狀犻狏犲狉狊犻狋 犛犺犪狀 犺犪犻 200433 犃犫狊狋狉犪犮狋ThedevelopmentofInternetandthepopularityofsocialsitesprovidethelarge scale experimentalplatformforresearchingthestatisticalpropertiesandstructureevolutionofsocial networks.ThispapermainlyusesDBLPandFacebookdatasetsandbuiltthesocialnetworks. Weclassifythesenetworksbyusingrole toroleconnectivityprofilesandfoundthattheybelong tostringyperipheryclass.Weconfirmthattheyhavetheseproperties suchasfree scaledistri bution densificationlawandshrinkingdiameter.Wediscoverthereisasmallcorewithhighcon nectivityinsocialnetworks andobservedthatmanymiddle scalecommunitiesarecomposedof stars.Weresearchtheevolutionofcommunitystructurebasedoneventframeworkandrevealed thatthecommunitymergedependslargelyontheclusteringcoefficientofthegraphcomposedof nodeswhicharedirectlyconnectedbetweencommunitiesandthecommunitysplitisrelatedtoits clusteringcoefficient. 犓犲狔狑狅狉犱狊 complexnetworks networkclassification networkproperty communityevolution socialnetworks 社会网络是由节点和链接这些节点的边组成的 复杂结构 节点表示人 边表示人与人之间的各种社 会关系 像共作者网络 电子邮件网络和互联网社区 等都是社会网络的例子 随着 Internet 的快速发展 和各种社交网站的出现 许多大型社会网络的数据 可以从运营商或互联网上获得 而在此以前的调查 统计手段则对此显得力不从心 根据不同社会网络 的功能 可以简单地将它们划分为交友网络 Facebook Myspace )、 媒体分享网络 Youtube

第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

书书书

第35卷 第4期2012年4月

计  算  机  学  报CHINESEJOURNALOFCOMPUTERS

Vol.35No.4Apr.2012

 

收稿日期:20110111;最终修改稿收到日期:20120104.窦炳琳,男,1980年生,博士研究生,主要研究方向为社会网络分析与社区识别.Email:binglin.dou@gmail.com.李澍淞,男,1980年生,博士研究生,主要研究方向为舆论动力学和复杂系统仿真.张世永,男,1950年生,教授,博士生导师,中国计算机学会(CCF)高级会员,主要研究领域为计算机网络、信息安全、无线通信、移动计算.

基于结构的社会网络分析窦炳琳 李澍淞 张世永(复旦大学计算机科学技术学院 上海 200433)

摘 要 互联网的发展和社交网站的流行为研究社会网络提供了大规模的实验平台.主要使用DBLP和Facebook数据集构建网络,采取角色连接轮廓方法从结构上进行划分,发现它们属于外围串类型;验证了社会网络的一些统计性质,比如无标度分布、稠化定律和直径缩减等;发现社会网络中存在紧密连接且直径较小的核心结构,规模中等的社区主要呈现星型结构;基于事件框架研究了社会网络中社区结构的进化,发现社区间的融合很大程度上取决于社区间直接连接的节点所构成网络的聚类系数,而社区的分裂则与该社区的聚类系数相关.

关键词 复杂网络;网络分类;网络性质;社区进化;社会网络中图法分类号TP393   犇犗犐号:10.3724/SP.J.1016.2012.00741

犛狅犮犻犪犾犖犲狋狑狅狉犽犃狀犪犾狔狊犻狊犅犪狊犲犱狅狀犛狋狉狌犮狋狌狉犲DOUBingLin LIShuSong ZHANGShiYong(犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲,犉狌犱犪狀犝狀犻狏犲狉狊犻狋狔,犛犺犪狀犵犺犪犻 200433)

犃犫狊狋狉犪犮狋 ThedevelopmentofInternetandthepopularityofsocialsitesprovidethelargescaleexperimentalplatformforresearchingthestatisticalpropertiesandstructureevolutionofsocialnetworks.ThispapermainlyusesDBLPandFacebookdatasetsandbuiltthesocialnetworks.Weclassifythesenetworksbyusingroletoroleconnectivityprofilesandfoundthattheybelongtostringyperipheryclass.Weconfirmthattheyhavetheseproperties,suchasfreescaledistribution,densificationlawandshrinkingdiameter.Wediscoverthereisasmallcorewithhighconnectivityinsocialnetworks,andobservedthatmanymiddlescalecommunitiesarecomposedofstars.Weresearchtheevolutionofcommunitystructurebasedoneventframeworkandrevealedthatthecommunitymergedependslargelyontheclusteringcoefficientofthegraphcomposedofnodeswhicharedirectlyconnectedbetweencommunitiesandthecommunitysplitisrelatedtoitsclusteringcoefficient.

犓犲狔狑狅狉犱狊 complexnetworks;networkclassification;networkproperty;communityevolution;socialnetworks

1 引 言社会网络是由节点和链接这些节点的边组成的

复杂结构,节点表示人,边表示人与人之间的各种社会关系.像共作者网络、电子邮件网络和互联网社区

等都是社会网络的例子.随着Internet的快速发展和各种社交网站的出现,许多大型社会网络的数据可以从运营商或互联网上获得,而在此以前的调查统计手段则对此显得力不从心.根据不同社会网络的功能,可以简单地将它们划分为交友网络(如Facebook、Myspace等)、媒体分享网络(如Youtube、

Page 2: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

Flickr等)、博客网络(如LiveJournal、Twitter等)、即时通信网络(如MSN、QQ等)和BBS论坛网络(如天涯社区)等等.这些网络的注册用户数少则几十万、多则几千万甚至上亿,为研究社会网络的结构和性质提供了丰富的平台.20世纪60年代,美国哈佛大学社会心理学家

Milgram提出了“六度分割”(sixdegreeofseparation)推断,也就是说世界上任何两个人之间的平均距离为6[1].这被认为是社会网络的理论基础.随着计算设备能力的大幅提升、网络的迅猛发展以及不同学科的相互渗透,人们可以处理和比较规模巨大且类型不同的实际网络数据以揭示网络共有的结构特性.以1998年Watts和Strogatz建立小世界网络模型[2]、1999年Barabsi和Albert建立无标度网络模型[3]为标志,人们对复杂网络的研究进入发展和繁荣时期,也吸引了来自数学与系统科学、统计物理、生命科学、信息科学、社会科学、经济金融等多个领域的研究人员的关注.使用复杂网络理论对社会网络进行分析主要关注个体间相互关联和作用的拓扑结构,这也是理解社会网络性质和功能的基础.就计算机领域而言,关于社会网络研究的文章在近几年已经频繁出现于VLDB、KDD、WWW、IMC、ICDM、WI等国际会议上,一些针对社会网络的专题研讨会也有举行,比如WOSN(ACMSIGCOMMWorkshoponOnlineSocialNetworks)、SNS(ACMEuroSysWorkshoponSocialNetworkSystems)等.

社会网络的研究主要从两个方面考虑:社会网络的静态性质和动态特征.对于它的静态性质研究包括拓扑分析[45]、社区挖掘[67]、关键节点发现[89]

等.随着时间的推移,社会网络中新节点会不断地加入,节点间的链接也会形成,从而使得社会网络具有动态特性.对于这方面的研究主要集中在社会网络形成和社区进化[1011]等方面.另外,社会网络拓扑与其上动力学的相互作用也被人们所关注,比如社会网络中的信息传播[1213]等.本文主要的贡献包括:

(1)关于社会网络的类型.目前,通过同配性系数对不同类型的网络进行分类,人们普遍认为社会网络具有同配特性.然而,我们发现一些实际的社会网络却是异配的.我们利用角色连接轮廓方法能够对本文所研究的数据集进行一致划分,它本质上反映的是网络内部结构特征.

(2)关于社会网络的性质和结构.我们验证了本文所研究数据集的度幂律分布、网络直径缩减以

及网络稠化的性质,发现这些网络中的社区大小服从幂律分布,中等规模的社区主要呈现星型结构.另外,我们发现社会网络中存在紧密连接且直径较小的核心结构.

(3)关于社会网络的进化.我们基于事件框架研究了社会网络中社区结构的进化,使用神经网络方法来判定主导社区间事件产生的结构条件.我们发现社区间的融合很大程度上取决于社区间直接连接的节点所构成的网络的聚类系数,而社区的分裂则与这个社区的聚类系数相关.

本文第2节介绍相关工作和基本概念;第3节介绍角色连接轮廓方法并对本文所使用的数据集进行研究;第4节验证社会网络的一些性质并给出社会网络的结构特征;第5节研究社会网络中社区进化的结构条件和因素;最后给出本文的结论.

2 相关工作和基本概念21 相关工作

大体上来讲,复杂网络要研究的是各种看上去互不相干但其实密切关联的形形色色网络之间的共同属性和处理它们的普适性方法[14].人们已经提出了许多描述网络拓扑的统计特征,包括度节点、平均路径长度、聚簇系数、介数、同配系数等[15].许多研究也发现了网络上的一些重要性质,比如度分布的幂律特征、社区结构的存在、网络上的小世界现象等等[16].

研究网络的社区结构能够使人们理解系统的层次和功能特性,有利于揭示出网络内部错综复杂的关系.目前人们已经开发了大量的社区结构发现的方法,可以参考文献[14,17].这里简单介绍Newman等人在社区发现领域中的贡献.Girvan和Newman提出了一种发现社区的GN算法[18],该算法已经成为社区结构分析的标准算法.但是该算法在社区数目未知的情况下不知道在哪一步终止分解.为了解决这个问题,Newman等人引入模块度(modularity)[19]的概念来作为衡量网络划分质量的标准.鉴于它独立于社区发现算法本身,之后人们利用各种启发式方法对模块度进行优化,比如采用贪婪算法、模拟退火算法、极值优化等.另外,GN算法具有较高的时间复杂度,Newman在GN算法的基础上提出了一种快速算法(FN算法)[20].它实际上是基于贪婪算法思想且与GN算法操作相反的一种凝聚方法(agglomerativemethod).之后,Clauset、Newman和Morre三人[21]在FN算法基础上采用堆数据结

247 计  算  机  学  报 2012年

Page 3: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

构来计算和更新模块度(CNM算法),该算法的复杂度已接近线性.本文采用该方法进行网络的社区划分.

网络的形成是一个动态的过程而且是一直不断变化的,对于它的研究有助于揭示网络性质的起源并能够对其发展进行预测.因此,人们对网络结构演化过程中展现出来的特性给予了极大的关注.Leskovec等人[22]发现网络中边的数目相对于节点的数目以超线性速度增长(稠化定律,densificationlaws);在许多情况下网络的有效直径随着网络的增长是减小的(直径缩减,shrinkingdiameters).Mislove等人[5]对多个在线社会网络进行了大规模的测量研究和分析.Leskovec等人[4]研究了社会网络中社区结构的统计属性.Shi等人[23]研究了不同论坛的数据集中用户行为的模式和产生这种模式的特征因素.Falkowski等人[24]对社会网络中社区进化行为进行了可视化分析.Asur等人[25]提出了个体和社区在网络演化中的事件框架,研究了随时间增量计算的个体稳定性、社会性、影响力以及社区流行性的测量方法.与上述研究不同的是,本文在事件框架的基础上探讨社区间相互作用的结构特征.22 基本概念

通常情况下,在由代表实体的节点以及它们之间交互的边构成的社会网络中,所有的节点和边都来自于整个数据收集周期.这种方式导致节点出现和个体交互时序信息的丢失.这里,我们给出一个社会网络的动态模型,它是分时图的离散时间序列.而分时图由特定时间点所观察到的节点以及它们交互的边所构成.形式化的定义如下:

令犌狋=(犞狋,犈狋)表示时间点狋的分时图,其中,犞狋表示在时间点狋出现的节点集合,犈狋表示在时间点狋出现的边的集合,则分时图序列犌犚由犌1,犌2,…,犌犜构成;若犌′犻=(犞′犻,犈′犻)满足犞′犻=∪

犽=1犞犽且

犈′犻=∪犻

犽=1犈犽,则犌′1,犌′2,…,犌′犜称为累时图序列犌犃.令

犌=犌′犜,称为终图.

图1 分时图与累时图示意

对于网络结构的刻画人们已经提出了许多统计特性,这里我们介绍3个基本的概念,包括平均路径长度、聚类系数(clusteringcoefficient)和度分

布[14].网络中两个节点犻和犼之间的距离犱犻犼定义为连接这两个节点的最短路径上的边的数目,网络平均路径长度犔则定义为任意两个节点之间距离的平均犔= 1

12犖(犖+1)

∑犻犼犱犻犼;节点犻有犽犻个邻居节点,这犽犻个节点之间实际存在的边数与其最多可能存在的边数犽犻(犽犻-1)/2之比定义为节点犻的聚类系数,即犆犻=2犲犻

犽犻(犽犻-1),则整个网络的聚类系数为

犆=1犖∑犻犆犻;节点犻的度为犽犻,网络中节点的度的分布函数犘(犽)表示一个随机选定的节点的度恰好为犽的概率.

3 社会网络的类型31 数据集

本文主要使用的两个数据集来自DBLP计算机科学文献库和Facebook社交网络.

(1)DBLP数据集DBLP①提供在主要国际期刊和会议上公开发

表的计算机类文章的检索功能,它在学术界有着较好的声誉和权威性.目前,DBLP收录的各类刊物达到140多万种,并将XML格式的数据公开给研究人员使用.本文选择从1986年到2006年发表在80种计算机各领域重要期刊上的所有文章作为基本数据.将每一个作者作为一个节点,如果两个作者出现在同一篇文章中则相对应的两个节点间存在一条无向边.通过这种方式由在这21年中所有出现的点(83943个节点)和边(190342条边)构成DBLP共作者网络.文中以年为单位构建DBLP分时图序列.

(2)Facebook数据集Facebook是一个著名的在线交友社会网络,注

册用户达5亿.本文使用的Facebook数据来自文献[26],他们收集了Facebook的NewOrleans区域中的朋友关系网络.我们使用从2007年1月1日~2008年12月31日之间所涉及的60567位用户和583766条连接来构建Facebook网络.文中以月为单位构建Facebook分时图序列.

另外,文中用到的Enron数据集被美国联邦能源监管委员会公开,由SRI的CALO项目收集并处理,卡内·基梅隆大学的Cohen为其建立了网站以

3474期 窦炳琳等:基于结构的社会网络分析

①http://dblp.unitrier.de/

Page 4: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

方便研究使用①.这个数据集中包含了50万封电子邮件.将邮件的地址作为节点,如果两个地址间有任一电子邮件存在则建立一条无向边,这样构成的网络有36692个节点以及367662条边.Youtube数据集来自文献[5],我们从中取2007年1月1日~2007年1月15日的数据来构建网络,由35468个节点和261191条边组成.32 社会网络的类型

Newman将现实中的网络根据其自身的特性粗略地归类为生物网络、技术网络、信息网络和社会网络[16].网络的度相关性研究网络中给定具有特定度的节点的邻居节点平均度分布情况,它可以用同配性系数[27](AssortativityCoefficient)加以刻画,即

狉=犕-1∑犻犼犻犽犻-犕-1∑犻

12(犼犻+犽犻[ ])2

犕-1∑犻12(犼

2犻+犽2犻)-犕-1∑犻12(犼犻+犽犻[ ])2,

-1狉1.其中,犼犻,犽犻分别表示第犻条边连接的两个节点的度,犻=1,…,犕,犕表示网络中的总边数.当狉>0时表示网络有正的度关联,即网络是同配的;当狉<0时表示网络有负的度关联,即网络是异配的.如果网络中节点间的度不具关联性,则有狉=0.相关研究表明,技术网络、生物网络和信息网络通常是异配的,社会网络一般是同配的.然而,我们发现对于一些在线社会网络,比如瑞典的婚恋交友网Pussokram(狉=-0.048)[28]、韩国最大的在线交友网Cyworld(狉=-0.13)[29]等,具有异配性.其原因可能在于在线社会网络中每个人都有机会和具有较高人气的角色建立联系.Hu等人[30]的研究进一步指出一些在线社会网络随着时间发展会从同配性过渡到异配性,同样也存在度关联特征不随时间变化的社会网络.这主要取决于社会网络所涉及的领域、功能等自身特征.Szell等人[31]也观察到了网络从同配性到异配性的变迁过程.本文所使用的数据集DBLP、Youtube、Facebook和Enron的同配系数分别为0.372、-0.033、0.177、-0.11.

网络的度相关性同度分布、平均路径长度、聚簇系数一样反映了网络的全局性质.这并不能体现出网络内部的结构特性.人们普遍认为社会网络内部存在有模块(模块(Module)、社区(Community)、组(Group)等表述在不引起歧义的情况下,本文将不加区别地使用)结构[18,3233],也就是说,模块内部节点相互连接密集而模块间节点相互连接稀疏.Guimera等人[3435]根据节点在模块内外的连接模式

将其分类为不同的角色,并在此基础上利用角色连接轮廓(RoletoroleConnectivityProfiles,RCP)将具有模块性质的网络分为两种:串类(stringyperipheryclass)和多星类(multistarclass),两者的主要区别在于Ultraperipheral节点(节点角色R1)间以及Connectorhubs节点(节点角色R6)间的链接模式不同.在串类网络中这些链接模式是高于平均值的而在多星类网络中则相反.Guimera等人对新陈代谢网络、蛋白质交互网络、航空交通网络以及自治系统级别的Internet网络进行分析和归类.然而,我们还不清楚社会网络所表现出来的内部特征,因此划分社会网络的类别对于理解它们的拓扑结构、功能属性具有十分重要的意义.

为了得到网络的RCP需要采取以下3个步骤:(1)划分网络的模块结构.目前,人们已经开发出多种网络模块划分的方

法[17].Guimera等人在文献[34]中采用模拟退火(SimulatedAnnealing,SA)算法来优化网络模块性评价犙函数.由于SA算法本身的特性,导致他们的这种方法对初始参数非常敏感,且收敛速度缓慢.为此,本文采用Clauset、Newman和Moore三人[21]提出的基于快速Newman算法和堆数据结构的新的贪婪算法(CNM算法),它具有接近线性的复杂度犗(狀log2狀).利用该算法,他们分析了具有超过400000个节点和2000000条边的Amazon购书推荐网络.用犖犕表示网络的模块数目.

(2)指定每个模块的节点角色.Guimera等人利用两个参数狕和犘来决定模块

内每个节点的角色.节点犻的狕参数

狕犻=犽犼狊犻-〈犽犼狊犻〉犼∈狊犻〈(犽犼狊犻)2犼∈狊犻-犽犼狊犻〉2犼∈狊槡 犻

其中:犽犼狊犻表示节点犻到其所在模块狊内其它节点的连接数,狊犻表示节点犻所属的模块,〈…〉犼∈狊表示对模块狊内所有节点的计算均值.节点犻的犘参数犘犻=

1-∑犖犕

狊=1

犽犻狊犓()犻2,其中犓犻=∑狊犽犻狊是节点的度.狕参数表

示某节点与模块内其它节点的连接情况,犘参数则表示该节点如何连接到其它模块.根据节点参数狕和犘的取值范围来确定节点的角色,如图2所示.需要注意的是角色犚4与犚7在现实世界的网络中几乎是不会存在的.

447 计  算  机  学  报 2012年

①http://www2.cs.cmu.edu/~enron/

Page 5: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

图2 狕犘坐标上的角色划分及其含义(角色划分的理论依据及其鲁棒性问题可以参考文献[3435]的补充信息①)

  (3)计算不同角色的节点间连接数目的犣犛犮狅狉犲.为了更好地统计不同角色间的连接数目,使用

节点数、边数、每个节点的度、网络的模块以及模块间的连接数目都与实际网络相同的随机化网络来衡量.将MarkovchainMonteCarlo交换算法[36]应用到实际网络的模块内部以及模块与模块的节点之间,来产生随机网络集合

!.该算法重复随机选择连接对(犪,犫)和(犮,犱)并交换它们的一端成为(犪,犱)和

(犮,犫).它使得节点的角色在随机化网络中保持不变.令狉犻犼和犚犻犼分别表示实际网络与随机化网络中角色犻与犼之间的连接数目,则有狕犻犼=狉犻犼-〈犚犻犼〉!

〈犚2犻犼〉!-〈犚犻犼〉2槡 !

.根据所有角色对间的犣犛犮狅狉犲便可得到网络的RCP图.

我们利用上述方法分析了DBLP、Youtube、Facebook和Enron等4个数据集,如图3所示.

图3 4个数据集上的犣犛犮狅狉犲((a)、(b)引自文献[35],分别属于串类和多星类.(c)、(d)、(e)、(f)都属于串类)

① 相关文献补充信息的链接地址:http://www.nature.com/nature/journal/v433/n7028/suppinfo/nature03288.html;http://www.nature.com/nphys/journal/v3/n1/suppinfo/nphys489_S1.html

5474期 窦炳琳等:基于结构的社会网络分析

Page 6: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

  区分两种不同类型网络的关键在于它们角色连接模式的差异,主要涉及到连接类型犚1犚1和犚6犚6.空中交通网(a)与自治系统层的Internet拓扑(b)属于技术网络,度关联具有异配性.但是从角色连接模式来看,它们有着显著的不同.图3(a)中,角色犚1之间连接犚1犚1的犣犛犮狅狉犲(犣a犚1犚1)高于平均水平(犣a犚1犚10),角色犚1与犚2之间连接犚1犚2的犣犛犮狅狉犲(犣a犚1犚2)低于平均水平(犣a犚1犚20),这导致较长的节点链.而图3(b)中犚1犚1、犚1犚2的犣犛犮狅狉犲则与图3(a)相反,犣b犚1犚10且犣b犚1犚20.这意味着网络中存在较多的星型结构.同时,考察图3(a)与图3(b)中心节点角色犚6间的连接模式有犣a犚6犚60而犣b犚6犚60,与这两种网络的实际情况是相符的.Internet的分层结构使得一个自治系统到其它自治系统间存在较少的连接;对于空中交通网络而言,一个国家或地区的交通枢纽则可能会存在到其它国家或地区多个交通枢纽的多条航线.因此,将空中交通网归为串类而Internet自治系统网络则属于多星类.

考察图3中(c)、(d)、(e)、(f)的连接类型犚1犚1、犚1犚2和犚6犚6,可以发现它们具有与图3(a)相似的特征,即它们的犣犚1犚10,犣犚1犚20,犣犚6犚6>0(其中,犣c犚6犚6=0.96,犣e犚6犚6=2.01).可以确定这些社会网络属于串类(我们也研究了Flickr、LiveJournal、Orkut、Wikipedia等社会网络,发现它们也表现出了串类的性质,限于篇幅不再一一列出).同时,利用RCP可以看到社会网络内部丰富的结构形式,这与不同社会网络本身的功能有关.例如,共作者网络DBLP有犣c犚5犚5>0和犣c犚5犚6>0,这是因为有影响力的作者更愿意与自己水平相当的人合作;而视频分享网络Youtube有犣f犚5犚5<0和犣f犚5犚6<0,则说明那些用户更多的是上传而不是分享视频.

4 社会网络的性质和结构41 社会网络的性质

近年兴起的复杂网络理论主要研究的内容之一是揭示刻画网络系统结构的统计性质并给出度量这些性质的合适方法.人们已经发现网络具有小世界、无标度等特征,并利用度分布、平均路径长度、聚类系数等统计手段[15].这里,我们从复杂网络的角度来探讨DBLP和Facebook的性质.无标度分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、人口统计学与社会科学、经济与金融学等众多领域[37],它形式化地表示为犘(犽)=犮犽-α,其中犽表示网

络某特征的变量,犮为常数,α为幂指数.对于网络中节点的度分布而言,其幂指数多在2~3的范围[38].

首先,考察两个数据集的度分布性质.需要说明的是这里的网络是无向的,而且遗失某时间点之前的数据对网络本身性质的影响可以忽略[22].从图4中可以看到,DBLP网络的度分布呈现幂律特征,幂指数为2.732,拟合精确度犚犛狇狌犪狉犲为0.9967;Facebook网络的整体度分布介于指数分布和幂律分布之间,而其尾部幂律特征较为明显(幂指数为2.905,拟合精确度为0.9896).另外,使用CNM算法对DBLP和Facebook划分社区并对其大小情况进行统计,发现幂律分布同样存在,如图5所示.

图4 度分布其次,研究两个网络平均距离随时间的变化,利

用有效直径(effectivediameter)[22]的概念进行度量.至少90%的相互连接的节点对的距离最多不超过犱,它的最小值即为有效直径.从图6中可以看到,随时间的增加网络直径逐渐减小.在DBLP网络中,由于人为选择特定的刊物作为数据源以及计算机各研究领域刚处于起步时期,导致网络的有效直径在1990年以前有较大的变化而之后它呈现逐

647 计  算  机  学  报 2012年

Page 7: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

图5 社区大小分布

图6 网络直径缩减

渐下降趋势.在Facebook网络中,这种特性从一开始就很明显.网络有效直径减少的现象与网络中边与节点的密度和增加速度相关.为此,我们讨论网络中节点和边随时间变化的问题.从图7中可以看到,网络中边犈相对于节点犖呈现非线性增长,这意味着网络平均度的增加.形式上,它服从幂律分布(犈∝犖β).DBLP网络中有β=1.285,犚2=0.9998;Facebook网络中有β=1.626,犚2=0.9987.因此,对于上述两种性质,即社会网络的稠化定律(densificationlaws)和直径缩减(shrinkingdiameters),我们在DBLP和Facebook网络中给予了验证.

图7 网络稠化

42 社会网络的结构在上一节中我们研究了社会网络的宏观性质,

它的微观结构将在本节中讨论.首先,考察构成网络的社区规模随时间变化的

情况.利用CNM算法对DBLP和Facebook网络的多个时间点的累时图分别进行社区划分,并统计不同大小的社区在网络中所占比重,如图8所示.图中底部表示小规模的社区(几个节点),中间部分为中等规模的社区(几十到几百个节点),顶部为较大规模的社区(几百到几千个节点).从网络的形成过程来看,我们发现中等规模的社区所占比重在逐渐减少,大规模的社区的情况与之相反;而小规模社区所

7474期 窦炳琳等:基于结构的社会网络分析

Page 8: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

占比重则基本保持不变.另外,计算中等规模社区的同配性系数发现它们几乎都是负相关的,这说明在这些社区中度较大的节点倾向于与度小的节点连接;同时,对它们进行RCP分析发现有90.3%的社区属于多星类.因此,这两个网络中中等规模的社区大多数具有明显的星型结构特征.

图8 随时间变化的网络社区规模其次,研究网络中是否存在具有较小直径且紧

密连接的核结构.我们首先从网络中移除所有度小于1的节点,然后移除网络中所有度小于2的节点,依次类推直到移除度小于某一设定值的所有节点.通过这种方法来观察网络有效直径以及边节点比值的变化,如图9所示.图9(a)中显示DBLP的有效直径下降了28.94%,Facebook则下降了21.85%;与之相反,图9(b)中显示它们的边节点比分别增长了3.28倍和1.88倍.这也就是说随着外围节点或结构的移除,网络中节点间的有效距离减少而网络中的边更加密集.我们也考察了在这一过程中网络聚簇系数的变化,DBLP的聚簇系数由0.3774上升到了0.5196,Facebook的聚簇系数则由0.4108达到0.6215.因此,可以认为有这样的核结构存在于网络中,但是随着移除节点数目的增加它变得不稳定,这一过程最终会导致核结构分解为多个互不连通的社区.另外,我们考虑社区结构的传导性(conductance)问题.它可以定义为一端在集合内而另一端在集合外的连接数目与该集合所有连接

数目的比值.那么,获得大小为犽且具有最小传导性的集合是一个较为困难的问题.我们使用NCP(NetworkCommunityProfileplot)方法[4]来考察DBLP和Facebook网络中具有不同犽值社区的传导性,如图10所示,图中曲线表示不同规模的社区

图9 移除指定度节点对网络的有效直径以及边节点比的影响

图10 DBLP和Facebook网络的NCP图

847 计  算  机  学  报 2012年

Page 9: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

所具有的最小传导性.从图中可以看到DBLP和Facebook中具有较好传导性的社区规模大致在10~100个节点间而当社区规模较大时其传导性能会变差.通过找到那些最小传导性的社区可以发现它们多数位于网络边缘且与其它社区具有很少的连接.

5 社会网络的进化对复杂网络不仅要研究网络的统计性质而且要

建立合适的模型来阐明它们产生的原理并预测网络的行为.Barabsi和Albert建立的BA无标度模型利用增长(growth)和优先连接(preferentialattachment)机制来解释网络连接度所具有的幂律形式[3].然而,它并不能反映实际网络的一些非幂律特征,如指数截断(exponentialcutoff)、小饱和变量(saturationforsmallvariables)等[14].随后,人们对BA模型进行了扩展,提出了适应度模型[39]、局域世界模型[40]、权重演化模型[41]等.除了优先连接机制外,自组织临界理论也可能是揭示幂律分布的动力学原因之一.人们提出了一些自组织模型能够涌现出网络的无标度结构[4243].然而这些模型并不能反映网络具有的等级和模块化结构,为此,科研人员研究了像“拷贝”模型(copyingmodel)[44]、JGN(Jin,Girvan,Newman)模型[45]等网络社区生成和进化的方法.

近年来,对于大规模社会网络的研究,人们发现了它所具有的许多性质并开发了相应的模型.Leskovec等人给出一个称之为“森林火灾”模型(ForestFireModel)来反映社会网络的社区结构、直径缩减和稠化定律[40].随后,他们基于对几个社会网络时序数据的观察,根据节点和边进入网络的时间顺序构造了“微观进化”模型(MicroscopicEvolutionmodel)[10].Zheleva等人[46]在微观进化模型的基础上提出了社会网络及其社区结构“共进化”模型(Coevolutionmodel).另外,McGlohon等人[47]研究了网络中连通组件的进化特征并提出了“蝴蝶”模型(Butterflymodel).

就社区结构的研究而言,学界主要集中于两个方面:一是网络中社区结构的发现,目前已经有大量的方法可以借鉴[14,17];二是网络中社区结构的形成与进化,主要关注网络中成员与社区之间的各种关系[23,48],而对于社区与社区的相互作用,就我们所了解的知识而言,这方面研究还很少.Asur等人提出了一个事件框架(EventBasedFramework)用于

刻画社区间的各种关系,然而他们的工作主要关注个体的社会性、稳定性、影响力以及社区的受欢迎程度等[25].与他们的工作不同,基于该框架本文侧重于研究社区间的相互作用及结构影响.51 事件框架

事件是当前图犌狋中社区间的相互作用在邻接后续图犌狋+1中的反映.文献[25]中的基本事件包括社区的融合(Merge)、分裂(Split)、形成(Form)、消失(Dissolve)和保持(Continue).本文着重研究影响社区融合和分裂的结构特征.另外,本文根据社区中成员数量的变化来判定各类事件的产生,不涉及具有相同成员的社区在不同时间点它们之间关系的变化.

假定图犌狋=(犞狋,犈狋)划分成犿个社区{犆1狋,犆2狋,…,犆犿狋},其中第犻个社区犆犻狋=(犞犻狋,犈犻狋)且有犞犻狋犞狋,犈犻狋犈狋.使用|·|表示集合的基,阈值φ取0.5.

如果图犌狋中的社区犆犻狋与犌狋+1中的社区犆犽狋+1满足犞犻狋=犞犽狋+1,则称社区保持.

如果图犌狋中不存在任何社区犆犻狋满足|犞犻狋∩犞犽狋+1|>1,则有社区形成;如果图犌狋+1中不存在任何社区犆犽狋+1满足|犞犽狋+1∩犞犻狋|>1,则有社区消失.

如果图犌狋中社区犆犻狋、犆犼狋与犌狋+1中的社区犆犽狋+1满足|(犞犻狋∪犞犼狋)∩犞犽狋+1|

max(|犞犻狋∪犞犼狋|,|犞犽狋+1|)>φ且有|犞犻狋∩犞犽狋+1|>

|犆犻狋|2,|犞犼狋∩犞犽狋+1|>|犆

犼狋|2,则称社区犆犻狋与犆犼狋产生了

融合.如果图犌狋中社区犆犻狋与犌狋+1中的社区犆犼狋+1

和犆犽狋+1满足|(犞犼狋+1∪犞犽狋+1)∩犞犻狋|max(|犞犼狋+1∪犞犽狋+1|,|犞犻狋|)>φ且有

|犞犼狋+1∩犞犻狋|>|犆犼狋+1|2,|犞犽狋+1∩犞犻狋|>|犆

犽狋+1|2,则社区

犆犻狋产生了分裂.52 社区进化的结构特征

研究社区动力学是社会网络分析的目标之一,什么样的结构特征会影响社区的进化是我们关注的焦点.本文使用的结构特征如下:

特征1.社区间的平均距离,指社区间所有节点对最短路径和的均值;

特征2.社区间直接连接的节点数目以及它们所构成的图的聚类系数;

特征3.每一社区中与另一社区直接连接的节点数目以及它们所构成图的聚类系数;

特征4.社区中节点的数目和它的聚类系数.

9474期 窦炳琳等:基于结构的社会网络分析

Page 10: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

为了判断哪些结构特征在社区进化中起主导作用,我们将这些数据输入BP神经网络来进行评估.把一段时间内社区进化中发生的事件划分为训练样本和检验样本,通过控制不同结构特征的输入建立多个神经网络,根据不同神经网络的预测精度决定这些结构或它们的组合在社区进化中的影响力.我们使用Matlab7.8作为神经网络实现的工具,实验环境为IntelCPU3.2GHz主频、4GB内存、Windows7操作系统.所有神经网络都具有相同的三层结构,学习算法使用LM算法.神经网络的输入层包含9个神经元,对应于上述不同的结构特征;输出层有1个神经元,传递函数使用线性函数.隐含层传递函数使用sigmoid,并根据经验公式犎=犐+槡犗+α来确定隐含层神经元的个数,其中犎、犐、犗分别为隐含层、输入层和输出层的神经元个数,α为1~10之间的常数.据此,神经网络隐含层的节点数可取5~14,经反复实验后确定为11,如表1所示(由于训练网络达到目标误差所需的次数与初始权值有关,表中给出的是10次重新初始化权值后训练次数的均值).采用50000个样例训练这样的神经网络所需的平均时间为455.2s,这对于文中的实验从效率上讲是可行的.

表1 隐含层节点数的选择隐含层节点数 训练次数 隐含层节点数 训练次数

5 55.3 10 46.16 54.8 11 42.97 52.2 12 45.58 50.9 13 48.29 48.6 14 53.7

为了评估不同神经网络的预测能力,我们使用受试者操作特性(ReceiverOperationCharacteristic,ROC)曲线[49],它能兼顾灵敏度(sensitivity)和特异性(1specificity)要求,以该曲线下面积(theAreaUnderROCCurve,AUC)作为量化指标可以直观有效地帮助比较不同分类器的性能.我们主要讨论产生社区融合与分裂事件的特征条件.对于DBLP和Facebook的数据集而言,我们得到了一致的结论.限于篇幅,我们在下文中只具体讨论DBLP数据的实验结果.5.2.1 融 合

考察DBLP中从1996年到2006年间的数据,符合条件|犞犻狋∩犞犽狋+1|>|犆

犻狋|2和|犞犼狋∩犞犽狋+1|>|犆

犼狋|2

的社区共计5722对,其中有768对社区产生了融合.我们计算得到这些社区的特征数据,并使用

4000(包含550对产生融合的社区)对社区数据作为神经网络的训练样本,其余数据作为检验样本,构造了4个神经网络进行预测.这些特征对社区融合的预测精度如图11(a)所示.

图11 不同社区结构特征的ROC曲线及其AUC值

从图11(a)中可以看到,使用不同的特征对于社区融合预测有较大差异.特征4、3、2的ROC曲线下面积分别为0.5563、0.6922和0.7150,而使用所有特征进行预测的准确度则达到0.8349.也就是说ROC曲线越凸,其下面积也就越大,对系统的灵敏度和特异度兼顾性越好,那么对应的网络结构预测性能就越高.由此,我们可以认为特征2在社区融合的过程中扮演着重要的角色.为了进一步验证特征2对社区融合的影响,我们在DBLP数据的5722对社区中找到有直接连接的社区共计3751对,其中产生融合的社区有409对.计算社区间直接连接节点和边所构成的图的聚类系数,统计它们分别位于0~1平均划分的10个区间内的对数以及产生融合的社区的对数,近似地将两者之比作为社区融合的概率.从图12(a)中我们可以看到社区间的聚类系数增加,则它们产生融合的机会越大.对Facebook数据采用同样的方法进行考察可以得到同样的结果,如图11(b)和12(b)所示.

057 计  算  机  学  报 2012年

Page 11: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

图12 聚类系数对社区融合概率的影响

5.2.2 分 裂从1996年到2006年间的DBLP数据中,符合

条件|犞犼狋+1∩犞犻狋|>|犆犼狋+1|2和|犞犽狋+1∩犞犻狋|>犆犽狋+1

2的社区共计3811对,其中有475对社区由同一社区分裂产生.同样使用神经网络对社区分裂进行预测,训练样本为2500对(其中包含300对社区由同一社区分裂而产生),其余数据作为检验样本.

表2 不同社区特征的犃犝犆值DBLPAUC FacebookAUC

特征2 0.5138 0.6447特征3 0.6229 0.6123特征4 0.6710 0.7394所有特征 0.7451 0.8016

从表2DBLPAUC列中可以看到,使用特征4对社区的分裂进行预测有较高的精度.我们计算DBLP数据中475个产生分裂社区的聚类系数,观察聚类系数与社区分裂的关系.从图13(a)中可以看到社区的聚类系数越高,它产生分裂的可能性就越小.同样,Facebook数据的实验结果在表2FacebookAUC列和图13(b)中给出,可以看到其社区分裂也与该社区的聚类系数密切相关.

图13 聚类系数对社区分裂概率的影响

6 结 论本文研究了社会网络的类型、性质和社区进化

的结构特征.本文主要使用DBLP和Facebook数据集构建网络,采用角色连接轮廓方法从结构上将它们划分为外围串类型;本文验证了社会网络的无标度分布、直径缩减和稠化性质,发现社会网络中社区大小服从幂律分布,规模中等的社区主要呈现星型结构;发现社会网络中存在紧密连接且直径较小的核心结构;本文基于事件框架研究了社会网络中社区结构的进化特征,发现社区间的融合很大程度上取决于社区间直接连接的节点所构成网络的聚类系数,而社区的分裂则与该社区的聚类系数相关.本文的进一步工作是提出新的社区进化分析方法,深入挖掘影响社区进化的结构特征,并建立相应的演化模型.

社会网络是以人为中心构建的网络,与它相关的研究成果对人们的工作生活有着潜在的影响.互联网的发展和各种社交网站的出现也为我们提供了实验平台,并为计算机相关学科的研究带来了新的挑战和机遇.社会网络所表现出来的各种性质是如何形成的,是否存在一个理论模型能够解释在个体与个体交互中涌现出来的这些特征?不同的网络拓

1574期 窦炳琳等:基于结构的社会网络分析

Page 12: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

扑结构与个体的行为如何相互产生影响?如何刻画和控制信息在社会网络上的传播?等等,这些是需要我们研究和解决的问题.

参考文献

[1]MilgramS.Thesmallworldproblem.PsychologyToday,1967,2(1):6067

[2]WattsDJ,StrogatzSH.Collectivedynamicsof‘smallworld’networks.Nature,1998,393(6684):440442

[3]BarabsiAL,AlbertR.Emergenceofscalinginrandomnetworks.Science,1999,286(5439):509512

[4]LeskovecJ,LangKJ,DasguptaA,MahoneyMW.Statisticalpropertiesofcommunitystructureinlargesocialandinformationnetworks//Proceedingsofthe17thInternationalConferenceonWorldWideWeb(WWW).Beijing,China,2008:695704

[5]MisloveA,MarconM,GummadiKP,DruschelP,BhattacharjeeB.Measurementandanalysisofonlinesocialnetworks//Proceedingsofthe7thACMSIGCOMMConferenceonInternetMeasurementConference(IMC).SanDiego,California,USA,2007:2942

[6]WakitaK,TsurumiT.Findingcommunitystructureinmegascalesocialnetworks//Proceedingsofthe17thInternationalConferenceonWorldWideWeb(WWW).Banff,Alberta,Canada,2007:12751276

[7]KwakH,ChoiY,EomYH,JeongH,SueM.Miningcommunitiesinnetworks:Asolutionforconsistencyanditsevaluation//Proceedingsofthe9thACMSIGCOMMConferenceonInternetMeasurementConference(IMC).Chicago,Illinois,USA,2009:302314

[8]WhiteS,SmythP.Algorithmsforestimatingrelativeimportanceinnetworks//Proceedingsofthe9thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).WashingtonD.C.,USA,2003:266275

[9]LiYM,LaiCY,ChenCW.Identifyingbloggerswithmarketinginfluenceintheblogosphere//Proceedingsofthe11thInternationalConferenceonElectronicCommerce(ICEC).Taipei,Taiwan,China,2009:335340

[10]LeskovecJ,BackstromL,KumarR,TomkinsA.Microscopicevolutionofsocialnetworks//Proceedingsofthe14thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).LasVegas,Nevada,USA,2008:462470

[11]LinYR,ChiY,ZhuS,SundaramH,TsengB.Analyzingcommunitiesandtheirevolutionsindynamicsocialnetworks.ACMTransactionsonKnowledgeDiscoveryfromData(TKDD),2009,3(2):131

[12]TangJ,SunJ,WangC,YangZ.Socialinfluenceanalysisinlargescalenetworks//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).Paris,France,2009:807815

[13]KimuraM,SaitoK,MotodaH.Blockinglinkstominimizecontaminationspreadinasocialnetwork.ACMTransactionsonKnowledgeDiscoveryfromData(TKDD),2009,3(2):123

[14]WangXiaoFan,LiXiang,ChenGuanRong.TheoryandApplicationofComplexNetworks.Beijing:TsinghuaUniversityPress,2006(inChinese)(汪小帆,李翔,陈关荣.复杂网络理论及其应用.北京:清华大学出版社,2006)

[15]CostaLdaF,RodriguesFA,TraviesoG,VillasBoasPR.Characterizationofcomplexnetworks:Asurveyofmeasurements.AdvancesinPhysics,2007,56(1):167242

[16]NewmanMEJ.Thestructureandfunctionofcomplexnetworks.SIAMReview,2003,45(2):167256

[17]YangBo,LiuDaYou,LiuJiming,JinDi,MaHaiBin.Complexnetworkclusteringalgorithms.JournalofSoftware,2009,20(1):5466(inChinese)(杨博,刘大有,LiuJiming,金弟,马海滨.复杂网络聚类方法.软件学报,2009,20(1):5466)

[18]GirvanM,NewmanMEJ.Communitystructureinsocialandbiologicalnetworks.Proc.OftheNationalAcademyofScience(PNAS),2002,9(12):78217826

[19]NewmanMEJ,GirvanM.Findingandevaluatingcommunitystructureinnetworks.PhysicalReviewE,2004,69(2):026113

[20]NewmanMEJ.Fastalgorithmfordetectingcommunitystructureinnetworks.PhysicalReviewE,2004,69(6):066133

[21]ClausetA,NewmanMEJ,MooreC.Findingcommunitystructureinverylargenetworks.PhysicalReviewE,2004,70(6):066111

[22]LeskovecJ,KleinbergJ,FaloutsosC.Graphsovertime:Densificationlaws,shrinkingdiametersandpossibleexplanations//Proceedingsofthe11thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryinDataMining(KDD).Chicago,Illinois,USA,2005:177187

[23]ShiX,ZhuJ,CaiR,ZhangL.Usergroupingbehaviorinonlineforums//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).Paris,France,2009:777785

[24]FalkowskiT,BartelheimerJ,SpiliopoulouM.Miningandvisualizingtheevolutionofsubgroupsinsocialnetworks//Proceedingsofthe2006IEEE/WIC/ACMInternationalConferenceonWebIntelligence(WI).HongKong,China,2006:5258

[25]AsurS,ParthasarathyS,UcarD.Aneventbasedframeworkforcharacterizingtheevolutionarybehaviorofinteractiongraphs//Proceedingsofthe13thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).SanJose,California,USA,2007:913921

[26]ViswanathB,MisloveA,ChaM,GummadiKP.OntheevolutionofuserinteractioninFacebook//Proceedingsofthe2ndACMSIGCOMMWorkshoponSocialNetworks(WOSN).Barcelona,Spain,2009:3742

[27]NewmanMEJ.Assortativemixinginnetworks.PhysicalReviewLetters,2002,89(20):208701

[28]HolmeP,EdlingCR,LiljerosF.StructureandtimeevolutionofanInternetdatingcommunity.SocialNetworks,2004,26(2):155174

[29]AhnYY,HanS,KwakP,MoonP,JeongH.Analysisoftopologicalcharacteristicsofhugeonlinesocialnetworkingservices//Proceedingsofthe16thInternationalConference

257 计  算  机  学  报 2012年

Page 13: 第年卷 第 月期 计 算 机 学 报 Vol.35No.4 Apr.2012 基于 ...cjc.ict.ac.cn/quanwenjiansuo/2012-4/dbl.pdf书 第35卷 第4期 2012年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS

onWorldWideWeb(WWW).Banff,Alberta,Canada,2007:835844

[30]HuHB,WangXF.Disassortativemixinginonlinesocialnetworks.EurophysicsLetters,2009,86(1):18003

[31]SzellM,ThurnerS.Measuringsocialdynamicsinamassivemultiplayeronlinegame.SocialNetworks,2010,32(4):313329

[32]WassermanS,FaustK.SocialNetworkAnalysis.Cambridge,UK:CambridgeUniversityPress,1994

[33]RadicchiF,CastellanoC,CecconiF,LoretoV,ParisiD.Definingandidentifyingcommunitiesinnetworks.ProceedingsoftheNationalAcademyofScience(PNAS),2004,101(9):26582663

[34]GuimeraR,AmaralLAN.Functionalcartographyofcomplexmetabolicnetworks.Nature,2005,433(7028):895900

[35]GuimeraR,SalesPardoM,AmaralLAN.Classesofcomplexnetworksdefinedbyroletoroleconnectivityprofiles.Naturephysics,2007,3(1):6369

[36]MaslovS,SneppenK.Specificityandstabilityintopologyofproteinnetworks.Science,2002,296(5569):910913

[37]HuHaiBo,WangLin.Abriefhistoryofpowerlawdistribution.Physics,2005,34(12):889896(inChinese)(胡海波,王林.幂律分布研究简史.物理,2005,34(12):889896)

[38]BarabsiAL,AlbertR.Statisticalmechanicsofcomplexnetworks.ReviewsofModernPhysics,2002,74(1):4797

[39]BianconiG,BarabsiAL.BoseEinsteincondensationincomplexnetworks.PhysicalReviewLetters,2001,86(11):56325635

[40]LiX,ChenG.Alocalworldevolvingnetworkmodel.PhysicaA:StatisticalMechanicsanditsApplications,2003,328(1):

274286[41]BarratA,BarthelemyM,VespignaniA.Modelingtheevo

lutionofweightednetworks.PhysicalReviewE,2004,70(6):066149

[42]ParkK,LaiYC,YeN.Selforganizedscalefreenetworks.PhysicalReviewE,2005,72(2):026131

[43]GarlaschelliD,CapocciA,CaldarelliG.Selforganizednetworkevolutioncoupledtoextremaldynamics.NaturePhysics,2007,3(11):813817

[44]KumarR,RaghavanP,RajagopalanS,SivakumarD,TomkinsA,UpfalE.Stochasticmodelsforthewebgraph//Proceedingsofthe41stAnnualSymposiumonFoundationsofComputerScience.RedondoBeach.California,USA,2000:5765

[45]JinEM,GirvanM,NewmanMEJ.Structureofgrowingsocialnetworks.PhysicalReviewE,2001,64(4):046132

[46]ZhelevaE,ShararaH,GetoorL.Coevolutionofsocialandaffiliationnetworks//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).Paris,France,2009:10071015

[47]McGlohonM,AkogluL,FaloutsosC.Weightedgraphsanddisconnectedcomponents//Proceedingsofthe14thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).LasVegas,Nevada,USA,2008:524532

[48]BackstromL,HuttenlocherD,KleinbergJ,LanX.Groupformationinlargesocialnetworks:membership,growth,andevolution//Proceedingsofthe12thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD).Philadelphia,Pennsylvania,USA,2006:4454

[49]CharlesEMetz.BasicprinciplesofROCanalysis.SeminarsinNuclearMedicine,1978,8(4):283298

犇犗犝犅犻狀犵犔犻狀,bornin1980,Ph.D.candidate.Hiscurrentresearchinterestsincludesocialnetworkanalysisandcommunitymining.

犔犐犛犺狌犛狅狀犵,bornin1980,Ph.D.candidate.Hiscurrentresearchinterestsincludeopiniondynamicsandcomplexsystemssimulation.

犣犎犃犖犌犛犺犻犢狅狀犵,bornin1950,professor,Ph.D.supervisor.Hisresearchinterestsincludecomputernetwork,informationsecurity,wirelesscommunicationandmobilecomputing.

犅犪犮犽犵狉狅狌狀犱  Complexnetworksroseattheendofthetwentiethcenturyprovideanewperspectiveforstudyingcomplexsystems.Itsmaincontentsincludediscoveringthestatisticalpropertiesofnetworkstructure,establishingtheappropriatemodelstorevealthecauseofnetworkevolution,andstudyingthedynamicprocessesofcomplexnetworkstohelppeopleimprovetheperformanceofexistingnetworksandproposetheefficientmethodsofnetworkdesign.IthaswidelycrossedwithMathematics,Physics,ComputerScience,Biology,SystemScience,SocialScienceandmanyotherdisciplines.Socialnetworksareamediumfordisseminatinginformation,suchasnews,views,rumorsanddiseases,etc.To

studysocialnetworksbasedoncomplexnetworktheoryhasthepotentialvalueoftheoryandapplication.Traditionalresearchonsocialnetworksislimitedtodataaccuracy,objectivityandscale,whiletheInternetandmanysocialnetworksitesprovideagoodlargescaleexperimentalplatform.Currently,mostofthestudiesabouttheevolutionofsocialnetworksfocusontherelationshipbetweentheindividualsandthecommunities,therearefewstudiesabouttheinteractionbetweenthecommunities.Wemainlyresearchcommunityevolutionbasedoneventframework,verifyandfindsomestatisticalpropertiesofsocialnetworks,andclassifythesocialnetworks.

3574期 窦炳琳等:基于结构的社会网络分析