计算传播学导论

52
1 计算传播学导论 An Introduction to Computational Communication 王成军 南京大学新闻传播学院 2015/3/3

Upload: chengjun-wang

Post on 29-Jul-2015

385 views

Category:

Science


14 download

TRANSCRIPT

Page 1: 计算传播学导论

1

计算传播学导论An Introduction to Computational Communication

王成军南京大学新闻传播学院

2015/3/3

Page 2: 计算传播学导论

内容简介

一、引言:大数据时代

二、如何认识世界

三、科学的四重境界

四、可计算性

五、定义计算传播

六、通往计算传播学之路

方法

工具

案例

22015/3/3

Page 3: 计算传播学导论

一、引言

计算社会科学 Lazer et al (2009)

Compuational social science.

Science. V323. 6 Feb 2009

计算社会科学正在涌现

大规模的数据收集和数据分析

网络科学视角

揭示个体和群体行为的模式

D. Watts, A twenty-first

century science. Nature 445,

489 (2007).

互联网大数据

网络科学视角

网络科学(network science)

计算语言学 (computational linguistics)

数据科学(data science)

社会计算 (social computing)

普适计算(ubiquitous computing)

可视化 (visualization)

数据新闻学 (data journalism)

计算广告学 (computational advising)

32015/3/3

Page 4: 计算传播学导论

4

2015/3/3

如何认识计算社会科学?

Page 5: 计算传播学导论

计算社会科学是科学吗?

Sheldon:Geology is

not a real science 计算社会科学对于传

播学的意义?

2015/3/3 5

http://www.youtube.com/watch?v=sYMFHON8LFw

Page 6: 计算传播学导论

二、如何认识计算社会科学?

2015/3/3 6

Page 7: 计算传播学导论

跨学科视野

引用数量 期刊 类别

120 SCIENCE, 1997, SCIENCE, V, P 综合

100 NATURE, 1998, NATURE, V, P 综合

89 P NATL ACAD SCI USA, 2002, P NATL ACAD SCI USA, V, P 综合

46 Am J SOCIOL, 1981, AM J SOCIOL, V, P 社会学

35 Lect NOTES COMPUT SC, 1995, LECT NOTES COMPUT SC, V, P 计算机

34 Psychol REV, 1956, PSYCHOL REV, V, P 心理学

34 J MATH SOCIOL, 1994, J MATH SOCIOL, V, P 社会学

33 Phys REV E, 1999, PHYS REV E, V, P 物理学

32 Commun ACM, 1995, COMMUN ACM, V, P 计算机

29 Soc NETWORKS, 1986, SOC NETWORKS, V, P 社会学

2015/3/3 7

被引用数量前十名的期刊

Page 8: 计算传播学导论

研究脉络

引用数量 文献 类别

26 Lazer D, 2009, SCIENCE, V323, P721 网络科学

22 Axelrod R, 1997, COMPLEXITY COOPERATI, V, P 多主体建模

17 Wasserman S, 1994, SOCIAL NETWORK ANAL, V, P 网络科学

15 Epstein JM, 1996, GROWING ARTIFICIAL S, V, P 多主体建模

12 Schelling TC, 1971, J MATH SOCIOL, V1, P143 多主体建模

10 Watts DJ, 1998, NATURE, V393, P440 网络科学

10 Gilbert N, 2008, AGENT BASED MODELS, V, P1 多主体建模

10 Gilbert N, 2005, SIMULATION SOCIAL SC, V, P 多主体建模

9 Barabasi AL, 1999, SCIENCE, V286, P509 网络科学

9 Albert R, 2002, REV MOD PHYS, V74, P47 网络科学

2015/3/3 8

被引用数量前十名的文献

Page 9: 计算传播学导论

二、如何认识世界?

洞穴之喻

开放思维

康德:“我们所有的知识起源于感知,然后发展为理解,终结为理性。没有比理性更高的东西。”

Immanuel Kant: All our knowledge begins with the

senses, proceeds then to the understanding, and

ends with reason. There is nothing higher than

reason.

9

Follow

Your

Logic

Paul Erdős

2015/3/3

Page 10: 计算传播学导论

10

理论的三个比喻

理论即逻辑的组合。

2015/3/3

Page 11: 计算传播学导论

理论的沙漏模型

学术论文的结构

以小见大

问题驱动

理论驱动

兴趣驱动

研究设计

11

Sandglass Model of

Generalization

Method

Hypothesis

Theory

Findings

Discussion

2015/3/3

Page 12: 计算传播学导论

关于世界的科学

2015/3/3 12

Feynman, Lectures in Physics, Vol.1, Chap.1.

Page 13: 计算传播学导论

三、科学的四重境界

科学的金字塔 数据

模式、定律

机制

原则

13

Principle

Mechanism

Pattern/Law

Data

2015/3/3

Page 14: 计算传播学导论

引力研究为例

托勒密:地球处于宇宙中心 引力第一重境界

哥白尼、弟谷

引力第二重境界

开普勒、伽利略

引力第三重境界

牛顿

引力的第四重境界

爱因斯坦

14

Richard Feynman, which is titled The Character of Physical Law – Part 1 The Law of Gravitation

http://v.youku.com/v_show/id_XNzc4Mjk1NjA=.html

2015/3/3

Page 15: 计算传播学导论

等待牛顿

152015/3/3

Page 16: 计算传播学导论

传播学在哪里?

Claude Shannon

Paul Felix Lazarsfeld

Kurt Zadek Lewin

Harold Dwight Lasswell

Carl Iver Hovland

Everett Rogers

Maxwell McCombs

Elihu Katz

Elisabeth Noelle-Neumann

Jürgen Habermas

George Gerbner

Wilbur Lang Schramm

Walter Lippmann

Herbert Marshall McLuhan

Theodor W. Adorno

16

http://en.wikipedia.org/wiki/Communication_studies

2015/3/3

Page 17: 计算传播学导论

可计算性(Computability)

关注事物本身可以被计算的程度 Computability is the ability to

solve a problem in an effective

manner。

The computability of a problem

is closely linked to the existence

of an algorithm to solve the

problem.

算法的可计算函数

图灵停机:你能用编程语言写出来并运行的都是可计算函数

可计算化(Computational)

关注事物本身可以被计算的方式 可计算化思维(

computational thinking)

任务的分解与自动化实现。 Analyzing and logically organizing data

Data modeling, data abstractions, and simulations

Formulating problems such that computers may assist

Identifying, testing, and implementing possible solutions

Automating solutions via algorithmic thinking

Generalizing and applying this process to other problems

17

四、可计算性

传播学可计算化的基础存在吗?是什么?

2015/3/3

Page 18: 计算传播学导论

可计算性与科学研究

18

Statistical Linguistics

Psychology

Sociology

Computer Science

Communication

Physics

Years since born

Co

mp

uta

bil

ity

Economics

Biology

Network Science

2015/3/3

Page 19: 计算传播学导论

他山之石:网络科学

We live life in the network

19

Lazer et al (2009) Compuational social science.

Science. V323. 6 Feb 2009

2015/3/3

Page 20: 计算传播学导论

网络科学

欧拉

图论(graph theory)

哥尼斯堡七桥问题:一个人怎样才能一次走遍七座桥,每座桥只走过一次,最后回到出发点?

202015/3/3

Page 21: 计算传播学导论

网络科学

斯坦利·米尔格兰姆(Stanley Milgram)

六度分隔

小世界现象“The Small-World Phenomenon”

212015/3/3

Page 22: 计算传播学导论

网络科学

Watts and Strogatz

(1999) 以一定概率随机重连规则网络中的

连边 可以大幅度降低网络的平均路径长

度 可以有效增加网络的聚类系数

222015/3/3

Page 23: 计算传播学导论

网络科学

Barabási, Albert (1999)网络度分布具有标度不变特性

优先链接机制

23

Barabási, A. L., & Albert, R. (1999). Emergence of scaling in random networks.science, 286(5439), 509-512.

2015/3/3

Page 24: 计算传播学导论

网络科学

24

The response time

Oliveira, J. G., & Barabási, A. L. (2005). Human dynamics: Darwin and Einstein correspondence

patterns. Nature, 437(7063), 1251-1251.

2015/3/3

Page 25: 计算传播学导论

间隔时间的幂律分布

252015/3/3

Page 26: 计算传播学导论

成功的秘密

泊松(Simeon-Denis Poisson,1781—1840)

法国数学家。

2015/3/3 26

Page 27: 计算传播学导论

五、定义计算传播学

计算传播学(computational communication

research)是可计算社会科学(computational

social science)的重要分支。 主要关注人类传播行为的可计算性基础。

以传播网络分析、传播文本挖掘、数学建模等为主要分析工具

(以非介入地方式)大规模地收集并分析人类传播行为数据

挖掘人类传播行为背后的模式和法则

分析模式背后的生成机制与基本原理

可以被广泛地应用于数据新闻和计算广告等场景

注重编程训练、数学建模、可计算思维

272015/3/3

Page 28: 计算传播学导论

计算传播学实验研究中心

计算传播学研究中心

数据科学实验室

计算传播学网站

http://computational-

communication.com/

计算传播学豆瓣小站

http://site.douban.com/146782/

计算传播学微博

http://www.weibo.com/jisuanchu

anbo

计算传播学邮件组

https://groups.google.com/group

/computational-communication

282015/3/3

Page 29: 计算传播学导论

Meme背后的社区

Meme为什么能持续流行?

社区驱动 + 解决问题 Big data和machine learning:互联网公司

特征工程

Open science: 学术期刊、学会和大学

出版流程

Data journalism:媒体、新闻从业者、程序员

可视化需求

Network science:网络研究者、社交网站

复杂网络研究

2015/3/3 29

Page 30: 计算传播学导论

寻找可计算化的基因

我们的愿景:寻找人类传播行为可计算化的基因。

基因是生物学飞跃的原因,货币是经济学发展的关键。人类传播行为所隐藏的计算化“基因”是什么?

计算传播学致力于寻找传播学可计算化的基因、学习和传播可计算化思维/方法(电子化数据收集能力、编程能力、数学建模能力、网络分析、文本挖掘)、了解和训练计算传播学的社会化应用方法(数据新闻、计算广告、可视化等)。

302015/3/3

Page 31: 计算传播学导论

六、通往计算传播学之路

方法:从数据到模型 开放数据 (open data)

开放科学(open science)

工具 开源(open source)

R和Python

312015/3/3

Page 32: 计算传播学导论

大数据:数字化“指纹”

数字化“指纹”

32

e

gd b

c

hf

a

Behavioral Data

Relational Data

Longitudinal Data

Big Data

Digital Data

ID Time V1

1 ... ...

... ... ...

1,000 ... ...

... ... ...

10,000 ... ...

... ... ...

2015/3/3

Page 33: 计算传播学导论

互联网数据

D. Watts, A twenty-first

century science. Nature 445, 489

(2007). If handled appropriately, data about Internet-

based communication and interactivity could

revolutionize our understanding of collective

human behaviour.

很少有人会认为社会科学会成为21世纪科学的中心

… 因为社会现象是最难解决的科学问题之一

… 社会现象当中卷入了海量的异质性的个体之间的互动

网站记录(Website Logs)与基于互联网的实验(Web-based experiments)

互联网公司与研究者的合作

332015/3/3

Page 34: 计算传播学导论

学科基础

计算传播学

网络科学

计算语言学

数据科学

计算机科学

数学 物理学

342015/3/3

Page 35: 计算传播学导论

计算语言学

传统语言学

计算语言学

机器翻译

语音识别

词云

语义网络

情感分析

文本聚类

主题模型

352015/3/3

Page 36: 计算传播学导论

数据科学

362015/3/3

Page 37: 计算传播学导论

为什么强调模式?

P值:统计显著的琐碎

理论模式&数据模式

理论模式:《自杀论》居住地:城市高于农村

性别:男性高于女性

宗教:新教高于天主教

年龄:老年人多于年轻人

数据模式:幂律

一个涌现的模式背后对应的社会机制

模式或法则

2015/3/3 37

Stumpf (2012) Critical truth about power laws. Science-665-6

Page 38: 计算传播学导论

模式或法则:异速增长定律

38

http://www.nature.com/scitable/knowledge/library/allometry-the-study-

of-biological-scaling-132284392015/3/3

Page 39: 计算传播学导论

广义的异速增长

392015/3/3

Page 40: 计算传播学导论

注意力动力学

40

Wu & Zhang (2011) Accelerating growth and size-dependent

distribution of human online activities. PhysRevE.84.026113

2015/3/3

Page 41: 计算传播学导论

在线社交网络

选举行为可以通过社交网络传染

41

Robert M. Bond et al. A 61-million-person experiment in social influence and political

mobilization. Nature. 2012

2015/3/3

Page 42: 计算传播学导论

手机通话网络

传播的多样性制约社会经济的发展

42

Nathan Eagle, Michael Macy and Rob Claxton:

Network Diversity and Economic Development,

Science 328, 1029–1031, 2010.

2015/3/3

Page 43: 计算传播学导论

情感分析

43

Miller (2011) Social scientists wade into the tweet stream. Science

2015/3/3

Page 44: 计算传播学导论

预测股票市场?

Emotion

Calm

Alert

Sure

Vital

Kind

Happy

Bollen (2011) Twitter mood predicts the stock

market. JOCS

442015/3/3

Page 45: 计算传播学导论

The Twitter Political Index

45

1 2 3

Figures source: election.twitter.com

2015/3/3

Page 46: 计算传播学导论

实际结果 Facebook and Twitter

预测总统选举

46http://www.huffingtonpost.com/simon-jackman/pollster-predictions_b_2081013.html

http://www.zerogeography.net/2012/11/obama-wins-election-on-twitter.html

http://www.cnn.com/election/2012/facebook-insights/

2015/3/3

Page 47: 计算传播学导论

47

Google Flu Trends

使用搜索引擎预测流感

http://www.google.com/trends/correlate/comicGinsberg et al. Detecting influenza epidemics using search engine query data. Nature 457, 1012-1014 (19 February 2009)

2015/3/3

Page 48: 计算传播学导论

Lazer et al. (2014) The parable of Google Flu Traps in big data analysis. Science

48

“Nature reported that Google flu trends (GFT) was predicting more than double the

proportion of doctor visits for influenza-like illness (ILI) than the Centers for

Disease Control and Prevention (CDC), which bases its estimates on surveillance

reports from laboratories across the United States (1, 2).”

2015/3/3

Page 49: 计算传播学导论

理论的最高标准

Per Bak:“It puzzles me that geophysicists show little interest in

underlying principles of their science. Perhaps they take it for granted that

the earth is so complicated and messy that no general principles apply”.

2015/3/3 49

Page 50: 计算传播学导论

Hack定律

Hack定律指出,在河流网络中,支流的长度(stream length)L和相对应的蓄水盆地面积(basin area)A之间存在如下标度关系:L ~ Ah

其中h的数值在大多数水系的实证数据中都被测为

0.6左右。

2015/3/3 50

Page 51: 计算传播学导论

51

2015/3/3

Before God we are all equally wise and equally foolish. Do not worry about

your difficulties in Mathematics. I can assure you mine are still greater.

——Albert Einstein

Page 52: 计算传播学导论

欢迎关注@计算传播学

感谢聆听,期待交流。

522015/3/3

计算传播学实验研究中心数据科学实验室