大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10Øredefining ecological science...

60

Click here to load reader

Upload: hoangtu

Post on 18-Apr-2018

293 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据,大机遇喻之斌

中国科学院深圳先进技术研究院2013年9月6日

Page 2: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据,热点形成的背景

Page 3: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

何谓大数据?

Big Data, Big怎么比Very Large还大?

《道德经》:有物混成,先天地生。寂兮

寥兮,独立而不改,周行而不殆,可以为

天下母。吾不知其名,强字之曰道,强为

之名曰大。大曰逝,逝曰远,远曰反。故

道大,天大,地大,人亦大 数据亦大

Page 4: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据,数据有多大?

Page 5: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据,数据有多大?

深圳市每天产生的监控视频数据2PB

Page 6: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据,数据有多大?

Page 7: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

Ø 互联网、 物联网时代,信息技术的巨大挑战是

处理和分析快速增长的海量数据

智能电网

智能交通

智慧城市背景下,数据更快增长

Page 8: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

奥巴马总统推动大数据创新计划

奥巴马政府宣布2亿美元大数据创新计划

2012年3月29日

为最大限度利用快速增长的数据,奥巴马政府今天

宣布大数据研发计划。提升大数据知识发现能力,促

进国家挑战性应用进步

Page 9: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour
Page 10: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

智慧地球,大数据

温总理关注大数据

Page 11: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据的作用远未充分发挥

Ø 海量互联网数据,要找到自己需要的很困难

Ø 城市视频监控,数据缺失非常严重

Ø 环境监测,数据处理速度跟不上灾情发展

Ø 数据驱动的科学发现,还有大量数据未利用

Ø 。。。。。。

Page 12: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

ØRedefining ecological science using data

ØBring the night sky closer, discoveries in the data deluge

ØA unified modeling approach to data intensive healthcare

ØA new path for science

ØText in data-centric world

Jim Gray,1999年图灵奖

几千年前,经验观察

几百年前,理论分析

几十年前,计算模拟

近几年前,数据处理

数据驱动:科学发现第四范式

Page 13: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

• Nature,2009年9月刊登文章提出

– 若数据得不到有效利用,科研必不能繁荣

– Data’s shameful neglect

• Science,2011年2月数据科学专刊

– Dealing with Data

– 数据利用远未充分

• 欧盟,Vision 2030规划

– 《欧洲如何从日益兴起的科学数据浪潮中获益》报告

– 未来将支持数据存储、使用、再利用与数据无缝连接

学术界高度关注

Page 14: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

1.11

1.37

2.1

2.98

中国网民规模(亿,人)

3.84

2005 2006 2007 2008 2009

中国网民用户增长—预计未来2-3年,人数将超过5亿。

数据来源:Top Earning Websites

数据来源:CNCC

数据利用远未充分,信息产业差距巨大

Page 15: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

海量 复杂 病态 动态

大规模、多尺度、多粒度、多模态、不确定、不完整、病态、双向感知、智能交互、实时

数据建模与融合

智能处理与分析

大数据存储与管理技术

大数据安全与计算技术

核心问题

Page 16: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

主要的问题在哪里?

Ø 海量互联网数据,要找到自己需要的很困难

Ø 数据太多(Volume),寻找信息需要花费大量时间

Ø 数据太杂(Variety),不知道信息质量如何

Ø 数据量增长快(Velocity),靠人力处理不过来

Ø 数据传播太快(Value),错误信息可能误导民众

Page 17: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据的计算特征

Page 18: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

特征一:实时性

几个典型的计算时间

Ø 中尺度气象预报,1小时

Ø 短临气象预报,5分钟

Ø 电子血压计,1分钟

Ø Google搜索引擎,1秒钟

数据规模可能是1MB-1GB,但计算时间要求可能在

1ms,如金融市场中的建模计算与趋势预测问题

Page 19: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

计算的实时性?

Ø google搜索,可能返回100万条以上,只需要不到1s

Ø 假定每条记录1KB,1GB的数据 1s读不出来啊,why?

Google不单纯是一家做搜索引擎的公司,

更是一家做系统软件的公司,其分布式并

行处理系统Hadoop广泛应用

Page 20: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

特征二:复杂性

用户建模与社区发现

Blog用户情绪可视图像

Page 21: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

复杂网络并行处理?

相互关系、蛋白质相互作用网络、序列拼接等等。图算法,Ø 相互关系、蛋白质相互作用网络、序列拼接等等。图算法,

Ø 109个顶点,对这样的图,如何并行处理?

Page 22: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

社会计算,复杂结构的动态演化

用户建模与社区发现

Page 23: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

特征三:大数据流

Big data, Nature 455, 16-21 (2008)

未来10年,数据量从数百EB增长到数百ZB量级

Page 24: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

24

• Data streams are almost ubiquitous– Giga- or Terabytes collected daily for many modern applications:Ø sensor networks Ø phone call logs

Ø web logs and clickstreams

Ø traffic surveillance

Ø financial tickers

– but unbounded data items from possibly remote sources• continuously arriving and potentially non-terminating• rapid, transient, time-varying, perhaps noisy• distributed, pervasive, transmitted through networks

• Distinctive features – not a finite dataset persistently stored in a DBMS

Ø network security …

往往以数据流的方式产生

Page 25: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

25

• In a streaming context, user requests remain active for long– Example CQs:Ø sensor networks“Every 5 min report average temperature from readings over past hour”

Ø phone call logs “What are the 10 most frequent pairs <caller, callee> over the past week?”

Ø financial tickers“Identify stocks with prices dropping more than 5% during the last 10 minutes”

• Queries are persistent, data is volatile – users are mostly interested in recent information– system must process stream items as they arrive – provide fresh results in almost real-time– multiple queries may compete for limited resources (memory, CPU)

Ø network security “Monitor routers and hubs and issue an alert when anomalous traffic is detected”

要求在线处理

Page 26: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

特征四:大规模系统

Ø 主-从结构遇到的Data-intensive瓶颈

Page 27: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

• Google Model: the system fails ONLY if all units fail

10/2010 SREG Cloud Computing 27

冗余可以提高可靠性?

• When a malfunction is detected, it is removed from service and an alternate unit is brought on-line(Fail-Stop)

• Let the probability of correct detection and reconfiguration be c (Fail Non-Stop or Failure Propagation)

R

n2 4 8 16 32

0.9

0.99

0.999

0.9999

0.99999

0.999999

c = 0.9

c = 0.95

c = 0.99

c = 0.999

c = 1c =

0.9999

Unless c is near-perfect, adding more spares has no significant effect on reliability

Page 28: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据主要应用场景

Page 29: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

智慧健康

人体局域网络监控健康状态

Page 30: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

三网融合

天威视讯董事长吕建杰,阐述在三网融合背景下,天威视讯的发展思路

Page 31: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

视频监控

试应用于罗湖口岸、宝安机场。融合视频监测数据,目标智能发现、异常行为发现城市安全、校园安全、公共场所安全服务

试应用于罗湖口岸、宝安机场。融合视频监测数据,目标智能发现、异常行为发现城市安全、校园安全、公共场所安全服务

Page 32: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

相互作用网络

实现海量超短基因序列拼接处理;序列拼接结果的可视分析与质量分析,输出拼接结果的图谱;校验测序数据的错误率,提高序列长度和精度

实现海量超短基因序列拼接处理;序列拼接结果的可视分析与质量分析,输出拼接结果的图谱;校验测序数据的错误率,提高序列长度和精度

Page 33: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

舆情分析

Page 34: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

谢 谢!

Page 35: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

成为首个应用于大规模商业检索引擎—微软必应(bing)的图像识别技术。

Original Query: lotus

Expanded Query: lotus flower

Original Query: palm

Expanded Query: palm sunset

多媒体分类

Page 36: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

可视搜索

Page 37: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

先进院大数据科研团队

Page 38: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

• 中科院深圳先进院研究员、首席科学家

• 云计算技术研究中心主任

• 2011年入选广东省领军人才,国家千人计划

• 2010中国自然科学基金委海外杰青

• 美国韦恩州立大学终身正教授

• 韦恩州立大学主席学术成就奖

• 2010美国科学基金八项研究奖, 三次评为特优

• 发表SCI论文52篇、EI论文121篇,其中含20多篇

IEEE Trans.,2部专著须成忠教授专著

知名云计算专家

须成忠

2010年10月全职加盟

Page 39: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

全美计算机领域最活跃学术带头人

美国基金会计算机领域2010在研项目主负责人

须成忠,韦恩大学, $1.58M

哈佛大学,$1.95M

伯克利大学, $1.36M

美国科学院, $2.45M

Page 40: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

学术影响

• TPDS等多个国际重要学术杂志编委• IEEE 绿色计算专委会指导委员会委员• 担任10多个国际会议组委会主席

国际著名期刊/会议 大陆论文总数 须成忠数量

SIGMETRICS 4 1SC 3 2

Page 41: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

l 先进院多媒体研究室主任和研究员,MIT博士

l IEEE Fellow,国家千人计划

l 广东省引进创新团队-带头人

l 2005-2007年,微软亚洲研究院视觉计算组主任

l 曾担任计算机视觉最顶尖的国际会议ICCV主席,现任影响因子最高的IEEE 杂志

PAMI和整个计算机科学领域影响因子最高IJCV的编委

l 在ICCV和CVPR发表了57篇论文,个人在这两会中文章总数排名世界第一

l 获CVPR 2009最佳论文奖,CVPR 25年历史上来自亚洲的论文首次获奖

l 在IEEE Trans 上发表了近50篇论文,包括20余篇PAMI。论文总引用数近4400。

在过去五年里还申请了40多项专利

汤晓鸥

Page 42: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

p汤教授及其学生获CVPR 2009年最佳论文奖Ø K. He, J. Sun, and X. Tang, “Single image haze removal using dark

channel prior,” Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), Jun 2009.

Ø 1460投稿论文中唯一获奖论文

Ø CVPR举办25年以来亚洲论文首次获奖

Ø 发现了一个基本的图像特性:暗通道先验知识

Ø 开发出使用单个图像去雾的有效方法

处理前 去雾处理后 深度信息

Page 43: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

顶级机器学习与视觉会议论文数世界领先

CVPR04 CVPR05 CVPR06 CVPR07 CVPR08

计算机视觉实验室 7 9 11 10 5

卡内基梅隆 (CMU CS&RI) 16 9 19 14 26

麻省理工 (MIT EECS) 6 8 4 14 6

伯克利 (Berkeley EECS) 4 8 3 2 10

牛津 (Oxford Eng.) 6 10 8 4 7

剑桥 (Cambridge Eng.) 1 4 11 5 3

ICCV05 ICCV07 Best Paper

CVPR + ICCV

计算机视觉实验室 6 9 1 57 (排名第二)卡内基梅隆 (CMU CS&RI) 9 11 1 104麻省理工 (MIT EECS) 7 6 51伯克利 (Berkeley EECS) 3 3 33牛津 (Oxford Eng.) 4 6 1 45剑桥 (Cambridge Eng.) 3 3 30

Page 44: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

• 中科院深圳先进院研究员、首席科学家

• 2012年入选国家千人计划

• 科罗拉多大学计算机系主任、教授

• 纽约大学,库朗所,博士(1989)

• 北京大学,学士(1984)

蔡小川

专业领域:高性能计算,偏微分方程数值解学术贡献:一些区域分解法发明人,如 RAS, NKS,ASPIN,LNKSz,。。。

Page 45: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

• 中科院深圳先进院研究员、首席科学家、博导

• 香港大学荣誉教授

• 瑞典皇家理工大学博士

• 2010年入选首批广东省领军人才

• 2006年亚太数据挖掘首个最有影响力论文奖

• 算法总引用达到1300次

黄哲学

专业领域:数据挖掘、商务智能、高性能计算、云计算学术贡献:一系列数据挖掘聚类算法发明人,如: k-modes、fuzzy k-modes、k-prototypes、w-k-means等

2009年12月全职加盟

Page 46: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

数据挖掘领域十大经典算法

算法 说明C4.5 机器学习算法中的一种分类决策树算法

k-Means 黄哲学教授提出的k-Modes算法是k-Means算法的重要扩展SVM 监督学习算法,广泛应用于统计分类以及回归分析中

Apriori 最有影响的挖掘布尔关联规则频繁项集的算法

EM 在概率模型中寻找参数最大似然估计的算法PageRank PageRank是Google算法的重要内容,用来衡量网站的价值AdaBoost 针对同一个训练集训练不同分类器,再集合构成更强的分类器

kNN k最近邻(k-Nearest Neighbor,kNN)分类算法Naive Bayes 应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型

CART 分类与回归树算法(Classification and Regression Trees)

国际权威学术会议IEEE International Conference on Data Mining (ICDM) 2006年12月评选结果

Page 47: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

l 属性数据和混合数据快速聚类算法研究的开拓人– 混合数据聚类算法k-modes、fuzzy k-modes、 k-prototypes、– 加权聚类算法w-k-means– 子空间聚类算法EWKM、GW-k-means、FG-k-means

研究成果已经写入教科书

Page 48: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

■ 1999.9-2000.8 美国纽约大学库朗数学研究所(Courant Institute)计算机系博士后

■ 1995.8-1999.12 纽约洲立大学石溪分校 计算机系 博士

■ 1995.8-1997.12 纽约洲立大学石溪分校 计算机系 硕士

■ 1991.8-1994.3 清华大学电子工程系(无线电系)工学硕士

Ken Perlin Denis Zorin Ari Kaufman 李叔梁 谢维信

■ 2008.4-至今 中国科学院深圳先进技术研究院 “百人计划”研究员; 先进计算与数字工程研究所 副所长;可视计算中心 主任

■ 2004.5-2006.5 美国明尼苏达大学McKnight-Land Grant冠名教授

■ 2000.8-2007.5 美国明尼苏达大学计算机系助理教授

■ 1998.6-1998.8 美国海军研究实验室夏季实习博士生

■ 1994.4-1995.5 北京大学计算机技术研究所助教

教育经历

指导老师

工作经历

陈宝权

Page 49: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

主要奖励与荣誉

■ 2008,入选中科院引进海外杰出人才“百人计划”

■ 2006,IEEE杰出服务奖

■ 2005,IEEE可视化年会最佳论文奖

■ 2004,明尼苏达大学McKnight Land-Grant冠名教授 (每年10名)

■ 2003,美国国家科学基金(NSF) CAREER奖 (图形可视化领域每年1-2名)

■ 2002,微软创新优秀项目获得者

■ 2010,国家自然科学基金杰出青年基金获得者

■ 2005,明尼苏达大学国际教育特别贡献奖

Page 50: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

50

SIGGRAPH 录用率 ZJU TNL SIAT

2010 Asia 49/274=18% 1 0 1

2010 103/390=26% 1 2 2

2011 82/432=19% 1 2 2

总计 3 4 5

ZJU:浙江大学 CAD&CG 国家重点实验室

TNL:清华信息科学与技术国家实验室(自动化系+计算机系+…)

SIAT:深圳先进院可视计算研究中心

近两年大陆SIGGRAPH论文发表情况

Page 51: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

曙光4000A1.5万亿次曙光5000A

10万亿次

深腾7000G200万亿次

51

国家华南网格节点,华南地区最好的数据超算研发平台

云服务平台云服务平台

Ø 2006年,先进院,高性能计算与数据模拟网格节点华南地区唯一

的国家网格节点,催生国家超算深圳中心,开创数据超算先河

Ø 2007年,Google/IBM,云计算计划

Ø 2009年,Microsoft(Jim Gray),第四范式—数据驱动的科学

发现

Ø 中科院深圳超算中心、深圳市高性能数据挖掘重点实验室、深圳市

高效能云技术工程实验室

Ø 引进广东省领军人才2名(总共32名,其中计算领域3名)、千人

计划1名

Page 52: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

高级研究人员:

博士:

全所现有各级研究人员400余人,国内同类研究所规模最大全所现有各级研究人员400余人,国内同类研究所规模最大

30余人

70余人

70%以上为海归

Page 53: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

Ø 一级学科博士点、博士后流动站。计算机科学与技术,全市唯一Ø 高端人才(千人、领军、杰青、百人)全国领先Ø 项目总数172项、经费总额1.7亿、SCI/EI论文230篇、专利67项

• 三大国家级平台• 国家发改委云计算检验检测平台

• 中国-意大利电子政务中心

• 国家华南网格节点

• 重大项目合作基地• 广东省产学研合作重大项目基地

• 五个重点实验室• 深圳市高效能云技术工程实验室

• 深圳市北斗位置云技术工程实验室

• 深圳市高性能数据挖掘重点实验室

• 深圳市可视计算重点实验室

• 深港创新圈网格节点

• 中科院深圳超算中心

• 科研队伍,400余人

• 国家百千万人才,1人

• 国家千人计划,5人

• 国家杰出青年基金,1人

• 中科院百人计划,4人

• 广东省领军人才,2人

Page 54: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

积聚一流人才、面向战略性新产业、打造一流的工业技术研究院

面向海云计算的数字所

Page 55: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

小结

l 计算的实时性要求更高,数据量更快速增长,揭

示数据关系复杂需求更旺盛,信息技术发展面临

前所未有的机遇

l 中国科学院深圳先进院在大数据处理、大系统管

理、用户建模与社区网络计算等方面,开展一些

前瞻性工作,凝聚一批海内外知名学者。

期待与各界合作,共同推进大数据技术创新工作!

Page 56: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

谢谢!

Page 57: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据有什么用?

Ø 海量互联网数据,信息获取与分享的基础

Ø 视频监控,城市安防的主要技术手段

Ø 环境监测,防灾减灾的技术支撑

Ø 数据驱动的科学发现

Ø 。。。。。。

Page 58: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

大数据中的数学问题

Page 59: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

Nonnegative Matrix Factorization

Page 60: 大数据,大机遇¤§数据大机遇.pdf ·  · 2013-09-10ØRedefining ecological science using data ... “Every 5 min report average temperature from readings over past hour

L2 regression problem