数据治理与网络安全 · 2018-02-11 · tydb 共享数据集 数据清洗 数据转换...

15
2018/1/5 1 数据治理与网络安全 卞艺杰 河海大学网络与信息管理中心 本科生 邮箱 学工 研究生 一卡通 …… 业务数据源 ODS 数据集中库 TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据治理的过程 数据中心(Oracle/MySQL) ETL发布 接口发布 元数据 数据标准 数据质量 数据监控

Upload: others

Post on 28-Feb-2020

43 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

1

数据治理与网络安全

卞艺杰河海大学网络与信息管理中心

本科生 邮箱 学工 研究生一卡通 ……

业务数据源

ODS数据集中库

TYDB共享数据集

数据清洗

数据转换

数据集成(Kettle)

数据

加载

数据

识别

数据管理/交换

数据治理的过程

数据中心(Oracle/MySQL)

ETL发布 接口发布

元数据 数据标准 数据质量

数据监控

Page 2: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

2

数据标准建设1

数据集成服务2

数据共享交换3

目录

校园网安全4

数据标准建设01

Page 3: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

3

数据建设整体方案

帮助学校掌握自己的全量数据资产

业务数据 机器日志数据与学校相关的互联

网数据

教务系统 学工系统

科研系统研究生系统

人事系统

资产系统 财务系统

就业系统

宿舍系统

校友管理系统

图书馆系统

……

无线Wi-Fi日志

上网URL日志

系统访问日志

系统登录日志安全设备日志

上网认证日志

数据库审计日志 ……

社交媒体

论文数据

专利数据

……

Research-Gate软件著作权数据

科研数据

统一数据管理平台

“打通”的数据 “开发”的数据 “引入”的数据

其他文本、视频数据等

数据标准参考:教育部2012版国标

Page 4: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

4

对于数据使用需求进行调研(重要)

数据标准管理

数据标准定义

标准代码集定义

实施标准管理

标准满足度评估

新增/修订范围

提交管理层审核

方案整体评估

建立实施方案

建立&维护数据标准

建立&维护数据字典

数据源

通过不断迭代逐步完善校级数据标准

Page 5: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

5

数据标准管理及发布流程

数据标准管理执行者

提供数据属

性信息

数据标准属

性收集整理

数据标准送审稿征求意

数据标准

初稿

数据标准变

数据标准管理组织协调者

数据标准管理决策者

数据标准编制 数据标准审查 数据标准发布

数据标准、

版本发布

数据集成服务02

Page 6: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

6

本科生 邮箱 学工 研究生一卡通 ……

业务数据源

ODS数据集中库

TYDB共享数据集

数据清洗

数据转换

数据集成(Kettle)

数据加载

数据识别

数据管理/交换

数据集成

数据中心(Oracle/MySQL)

ETL发布 接口发布

元数据 数据标准 数据质量

数据监控

业务系统范围

Page 7: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

7

ODS操作数据库

编码对照表

线下采集(excel)

业务系统(源表)

ODI/Kettle数据采集

注释:如人事系统数据

数据集成1--ODS

人事

学工

一卡通

……

教务

ODS操作数据库

编码对照表

线下采集(excel)

业务系统(源表)

ODI/Kettle数据采集

注释:如人事系统数据

共享数据库

数据集成2--共享数据库

Page 8: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

8

各类数据质量问题的原因识别

数据质量问题

信息问题域技术问题域

管理问题域流程问题域

唯一性一致性完整性

度量

合法性准确性

业务系统数据变化周期

变化频度

实体数据刷新周期

技术元数据

业务元数据

元数据

数据创建延迟

默认值使用不当

数据校验规则不当

数据创建

取数时点不同步数据源不当

接口数据获取过程中失真

数据获取

展示方式展示工具

展示周期

数据使用

维护验证机制

数据存储能力

数据备份恢复

数据维护

人为调整数据

及时性

数据传递

网络传输过程不可靠传输技术

文件传输方式出错

数据清洗算法

数据装载

数据加载算法

数据转换算法

调度机制

硬件平台

平台孤岛

软件平台

安全管理

错误数据维护流程

数据测试流程

变更维护流程

数据维护

人为调整数据流程

数据使用

数据创建

数据转换流程

数据加载流程

调度流程

数据装载

数据清洗流程

稽核流程

稽核传递

奖惩制度执行

奖惩制度

反馈机制

激励

反馈渠道

培训资金

培训内容

培训计划

培训

培训制度

目标工作优先级

责任人

管理

责任心

培训时间

优先级高

优先级中

优先级低

数据质量问题汇总--业务系统共性问题

1,日期存储格式类问题:各系统日期存储格式大相径庭,主要格式分以下几种:

2016/xx/xx,2016-xx-xx,2016xxxx,xxxx2016等。日期没有统一的存储格式。

Page 9: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

9

数据质量问题汇总--业务系统共性问题

2,代码使用不统一或不规范问题,同样表达一类数据,用来对照的代码均有不同。如

下:业务系统中的性别代码都是为“男,女”国标中为“男性,女性”,科研系统

用0、1分别代表女、男等等。

数据质量问题汇总--业务系统共性问题

3,字段值内容错误,如人事系统XLXWB中的SXZYDM代码字段值却填充的是实际值,

如教务系统的XSJBXXB的xslb字段填充的值却是学生来源。

Page 10: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

10

数据质量问题汇总--业务系统共性问题

4,校标代码使用不统一问题。如:同一部门的部门代码在不同的业务系统中不同。如

教务和人事单位代码为两位,而科研系统单位为三位。

数据质量问题汇总--业务系统共性问题

5,字段值填充值不规范或者必要值缺失。如教务系统中的学生基本信息表中的籍贯、

学制字段;人事系统中教职工基本信息中的学历学位、籍贯等。

Page 11: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

11

数据共享交换03

ODS数据集中库

TYDB共享数据集

数据清洗

数据转换

数据集成(Kettle)

数据

加载

数据

识别

数据管理/交换

数据集成

数据中心(Oracle_RAC)

ETL发布 接口发布

元数据 数据标准 数据质量

数据监控

数据应用综合信息查询 统计分析报表 学生行为分析 …… 应用N

本科生 邮箱 学工 研究生一卡通 ……

业务数据源

Page 12: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

12

ETL方式1

数据接口方式2

3 数据服务方式

校园网安全04

Page 13: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

13

1.网络安全建设

序号 对象名称 主要用途

1 互联网边界防火墙 边界访问控制

2 IDC边界防火墙 访问控制,包含IPS模块

3 运维审计系统(堡垒机) 对访问各种业务应用系统的运维日志审计

4 千兆Web应用防火墙(WAF) 对IDC机房所有WEB服务进行防护

1.网络安全现状建设

序号 对象名称 主要用途

1 上网行为管理及分析系统 实现学校对校园网用户对互联网访问使用的行为的日志审计能力

2 业务数据库审计系统 对校园网重要核心业务数据库的访问使用做日志审计

3 校园网日志系统 对重要服务器、网络设备的运行日志,系统登录日志做收集和审计

4 下一代防火墙系统 提供学校应用服务提的访问控制、IPS、查防病毒的功能

5 万兆WEB应用防火墙 对江宁校区数据中心机房和本部IDC机房外的服务器进行WEB防护

6 智能IP管理平台 实现集中式、有效的IP地址管理分配和智能DNS功能等

7 漏洞扫描系统及安全服务 提供对校内业务应用系统的OS系统和应用系统层的漏洞扫描和服务

Page 14: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

14

河海大学网络整改建议拓扑图河海大学网络拓扑图

1.网络安全设备建设

网络环境复杂1

2

3

用户活跃,用网能力强

2 校园网安全问题

对外服务要求高

还需要寻求进一步加强网络安全的服务

Page 15: 数据治理与网络安全 · 2018-02-11 · TYDB 共享数据集 数据清洗 数据转换 数据集成 (Kettle) 数据加载 数据识别 数据管理/交换 数据集成 数据中心(Oracle/MySQL)

2018/1/5

15

29

谢谢