海量星表数据融合系统 的完善与应用

28
彭彭彭 LAMOST 彭彭彭 彭彭彭彭彭彭彭彭彭彭 2008 彭 11 彭彭彭彭 彭彭彭彭彭彭彭彭彭彭彭彭彭彭彭

Upload: jane-dickson

Post on 03-Jan-2016

123 views

Category:

Documents


0 download

DESCRIPTION

海量星表数据融合系统 的完善与应用. 彭南博 LAMOST 项目组 中国科学院国家天文台 2008 年 11 月于太原. 主 要 内 容. 多波段交叉证认的背景及原理 数据融合工具的国外现状 海量星表融合系统的介绍 将来工作的方向. ◆. ◆. ◆. ◆. 天文学发展背景. 随着科学技术的发展,天文学进入了全波段巡天观测阶段,形成了多波段天文学,来自各个波段的巡天和观测数据急剧增长,如何将这些星表统一起来以探测和研究天体在各波段的特性,这就需要星表之间的交叉证认。. 多波段交叉证认. 原理 : - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 海量星表数据融合系统 的完善与应用

彭南博LAMOST项目组

中国科学院国家天文台

2008年 11月于太原

海量星表数据融合系统的完善与应用

Page 2: 海量星表数据融合系统 的完善与应用

主 要 内 容

多波段交叉证认的背景及原理

数据融合工具的国外现状

海量星表融合系统的介绍

将来工作的方向

Page 3: 海量星表数据融合系统 的完善与应用

随着科学技术的发展,天文学进入了全波段巡天观测阶段,形成了多波段天文学,来自各个波段的巡天和观测数据急剧增长,如何将这些星表统一起来以探测和研究天体在各波段的特性,这就需要星表之间的交叉证认。

天文学发展背景

Page 4: 海量星表数据融合系统 的完善与应用

利用各种数据的共同属性——位置,通过多波段交叉证认可以对天体的物理性质、演化规律获得更全面系统的认识,加深对证认源的新的天文理解,为统计分析和数据挖掘做准备。

多波段交叉证认

原理: 有两个源分别在星表 a、 b中,它们的误差半径分别为 r1

, r2 ,它们的之间的球面距离为 d。如果它们的关系满足

则认为它们可能是同一天体。

2 21 23d r r

Page 5: 海量星表数据融合系统 的完善与应用

数据清洁

数据融合

数据库

数据仓库

特定任务的数据

选择

数据挖掘

模式评估

数据融合 : 数据挖掘的基石

Page 6: 海量星表数据融合系统 的完善与应用

知识发现的过程创建 / 选择目标数据库

取样技巧选择样本数据

处理缺值数据

数据归一化

选择 DM 任务

转化成不同的表示形式

删除噪音数据

转换数据

选择 DM 方法

构造新的参量

提取知识

发现重要的参量及其取

值范围

验证知识 精炼知识

查询和报告产生整合 & 排序高级方法

数据仓库 1

2

3 4

5

数据融合

Page 7: 海量星表数据融合系统 的完善与应用

多波段数据分析流程图

红外数据

光学数据

X 射线数据

其它数据

射电数据

交叉证认

一对一

一对多

多对一

一对无

多对无

概率分析统计研究

数据挖掘

……依赖关系偏差分析序列模式关联规则聚类分析分类分析

特殊分析

多波段数据分析的流程图

Page 8: 海量星表数据融合系统 的完善与应用

数据融合工具的国外现状

VizieR 已经收集 6000 多个星表。每个星表都有小样本交叉证认服务,但结果还需要用户二次加工。

Page 9: 海量星表数据融合系统 的完善与应用

Simbad 提供查询服务,主要提供点源的证认情况。 Aladin 是数据的可视化工具,并提供查询、交叉证认、光谱分析等功能。任意海量数据交叉证认还没有实现。

数据融合工具的国外现状

Page 10: 海量星表数据融合系统 的完善与应用

MAST 是 NASA 资助的基金项目,为天文学界提供各种各样的天文数据库的支持和服务,主要用于获得可见光、紫外和近红外的相关的光谱数据。也提供了仅限于小样本的交叉证认。

数据融合工具的国外现状

Page 11: 海量星表数据融合系统 的完善与应用

OpenSkyQuery 用一种通用的查询语言 ADQL 实现了数据查询、交叉证认等功能,但该系统查询或证认的行数不能超过 5000 行。

数据融合工具的国外现状

Page 12: 海量星表数据融合系统 的完善与应用

OpenSkyQuery 用一种通用的查询语言 ADQL 实现了数据查询、交叉证认等功能,但该系统查询或证认的行数不能超过 5000 行。

SDSS CasJob 提供了 SDSS 巡天数据的 SQL 语言查询和数据下载服务,但每次查询的结果限制在 500M 之内。

Topcats 提供各种方法浏览和分析数据表,包括浏览核心数据、表的原始信息和列的元数据、以及画图工具、统计计算、交叉证认等,但内存一般限制在 256M 范围内。

数据融合工具的国外现状

Page 13: 海量星表数据融合系统 的完善与应用

总的说来当前证认工具种类繁多,但目前国外这些大数据中心提供的多源查询服务都有其局限性,数据资源局限和功能局限,以及一堆严格的标准要熟悉,而且天文学家的很多要求还是不能实现,更不用说海量数据的异地交叉证认了。

数据融合工具的国外现状

Page 14: 海量星表数据融合系统 的完善与应用

海量星表融合系统 XMaS _VO

高丹等同学开发的海量星表融合系统 XMaS _VO系统基于支持 SQL 语言的数据库系统,是面向使用者提供的一种服务。此系统架构在北京天文数据中( BADC), BADC 有包括SDSS 、 2MASS 、 USNO 等大型巡天星表。用户可以上传自己的星表,使用 BADC 的系统提供的服务;也可以方便地移植到任何数据库系统上。

Page 15: 海量星表数据融合系统 的完善与应用

Data1

User’s Data Center

USNO OtherSDSS 2MASS

BADC

XMaS_VO XMaS_VO

User1 User2

OtherData2

基于服务器的海量星表融合系统 基于用户的海量星表融合系统

海量星表融合系统

Page 16: 海量星表数据融合系统 的完善与应用

海量星表融合系统的逻辑过程

开始工作

星表在数据库中不存在 ?

自动入库星表

继续工作 ?

已存在

没有 HTM索引

建HTM索引

继续工作 ?

两星表是否入库并建索引?

交 叉 证认

继续工作?

有索引

是否进行交叉证认 ?

不进行交叉证认

没准备好

是否提取参数

提取参数否

继续工作?

从数据库中提取数据并

自动传回结束工作

Page 17: 海量星表数据融合系统 的完善与应用

XMaS_VO 功能模块

自动入库模块 自动建 HTM索引模块 * 交叉证认模块 * 参数提取模块 数据回传模块

XMaS_VO 系统的功能由以下五步功能模块来实现

Page 18: 海量星表数据融合系统 的完善与应用

HTM索引:起始状态将整个天区分为 8 等份,上下各四个球面直角三角。

自动建 HTM索引模块

Page 19: 海量星表数据融合系统 的完善与应用

HTM 算法编码方案

Page 20: 海量星表数据融合系统 的完善与应用

根据数据表的坐标数据计算出对应 HTM索引的pcode值,为星表建立 HTM索引,将 id_htm 主键和 pcode值两列新建 HTM索引表。经过测试,误差半径小于等于 5arcsec时选 8level ,为30arcsec时选 6level 。

自动建 HTM索引模块

Page 21: 海量星表数据融合系统 的完善与应用

交叉证认算法

基于 HTM索引分区与 kd-tree找最近邻的交叉证认算法以小表为中心,把 HTM索引当作分区,接着分别对每个分区的大表,把赤径、赤纬作为参数建 kd-tree ,并对该分区内小表的每个源,在 kd-tree 中找最近邻。算法用证认判断公式判断是否证认,由于 HTM级数选得比较小,比星表精度低,漏源的可能性小,提高了速度和证认精度。

交叉证认模块

Page 22: 海量星表数据融合系统 的完善与应用

kd-tree

Page 24: 海量星表数据融合系统 的完善与应用

星表 A行数 大小 星表 B 行数 大小 HTM级数 时间

Rosat2 105,924 18M Tycho2 2,539,913 439M 8 3567sec

SDSS qusars

76,989 56M 2MASS 470,992,970 123G 10 5033sec

First 811,117 83M 2MASS 470,992,970 123G 10 24404sec

Gspc24 554,007 65M USNOB 1,045,096,352 172G 5,8 85720sec

GSC2.3 的部分原始数据

295,832 23M 加入位置和星等噪声的数据

295,832 23M 10 338sec

应用实例

一般两个几十万或几百万条数据的大星表交叉证认大概需要一个小时左右,而一个几百万的大星表和2MASS 、 USNO-B1.0 这样几亿或几十亿条数据的海量星表交叉证认需要十几小时到二十几个小时的时间。

Page 25: 海量星表数据融合系统 的完善与应用

展望

天文学已经进入数据爆炸的新时代 。随着 Lamost 的投入使用,必将给中国的天文学家们提供巨大的数据财富,同时也提出了新挑战。传统的数据服务显然已经不能满足需求,必须借助于各种工具提高科学产出的效率。

自动入库工具

自动交叉证认工具

统计分析工具

数据挖掘工具

Page 26: 海量星表数据融合系统 的完善与应用

展望

海量星表融合系统( XMaS _VO 系统),今后还需要对该工具不断完善和更新,建树上的改进,优化用户界面,做进一步的概率分析,并提供与可视化工具、统计分析工具和数据挖掘工具的接口,为下一步的统计分析、数据挖掘和可视化做准备。

Page 27: 海量星表数据融合系统 的完善与应用

进一步完善自动化入库工具,提供支持各种数据格式的便捷服务;

优化交叉证认工具的用户界面;

提供与数据挖掘工具的接口;

应用该工具为 LAMOST 项目提供多波段证认数据;

基于各种巡天数据,用数据挖掘方法为 LAMOST选取类星体候选体。

工作重心

Page 28: 海量星表数据融合系统 的完善与应用

谢谢Q&A