第四章数据处理的技术

第四章数据处理的技术

第一节数据处理概述第二节数据库技术复习思考题四

第一节数据处理概述

（一）数据处理的内容所谓数据处理，就是把来自科学研究、生产实践和社会经

济活动等领域中的原始数据用一定的设备和一定的手段按一定的使用要求加工处理成另一种形式的数据，以便获得对人们决策有价值的信息的过程。

1. 数据的采集数据的采集就是按照用户的需要和系统的要求收集必要的原始数据。这是数据处理工作的第一步。它直接影响到加工信息的质量。在数据采集中，不仅要及时准确，而且还要有针对性，即根据处理的目的和需要有选择地加以采集。

一、数据处理的主要内容与方式

第一节数据处理概述一、数据处理的主要内容与方式

1. 数据的采集数据采集可以是人工采集，也可以通过联机方式形成自动化数据采集系统。

人工采集的数据，一般是经过一定的中间环节而获得的数据，如档案文件、账册、票据、凭证等。利用人工采集的主要优点是简单经济，缺点是及时性差，出错率高。联机方式采集数据，主要是将某种计算装置、测试装置等直接与电子数据处理系统相联接，利用电磁感应、光电感应、声电感应、电热感应及机械原理等，将所需要的有关数值或状态数据直接送入计算机数据处理系统直接处理。采用自动化装置采集数据的优点是快速、准确，缺点是投资较大。

数据的转换也叫数据的预处理，是将采集到的原始数据通过一定手段转换成适合于计算机处理的形式，使数据代码化。如职工文件中的职工性别，年龄，工作单位等数据，对计算机系统来说可以用相应的代码表示这些数据，如用 0 、 1 或 M~F 表示性别，用 00001 表示工作单位号。数据的转换一定要注意正确性、完整性检查。

2. 数据的转换及录入


分类是根据一定顺序将无序的数据元素调整成为一个有序序列 , 也就是将数据元素按某一关键字的先后次序（升序或降序）进行排序，形成一个有序文件。如生产统计报表要求按产值的大小对各车间排序；工资文件按职工编号排序或按工资的多少排序等。

合并是将两个或多个简单有序集合中的数据按同样的顺序连接成一个有序集合。合并后的文件，可以增加记录的数量，也可以增加数据项。

3. 数据的分类与合并


数据的运算包括数据的算术运算、逻辑运算及复杂的数学模型求解。

4. 数据的运算

数据的传输有两层含义：一是指实现数据资源的共享与交换，例如，利用网络和通讯技术共享各网点的数据资源，一是数据处理结果的输出，常以报告、文件、图表等形式输出给各用户、并传送到各部门。


5. 数据的传输

6. 数据的存储数据的存储就是对原始待加工的数据及已加工后的各种信息的储存。为此需要确定储存哪些信息、储存多长时间、以何种方式储存、采用何种数据结构，以符合速度快、占用存储器的容量少、成本低等多方面的要求。

数据的更新、维护是指对原文件中的记录或数据项进行修改、插入（增加）、删除及数据存储的调整，数据正确性的检验和安全性的保证等。


7. 数据的更新、维护

8. 数据的检索数据的检索即为从计算机存储的数据中查找和选取所需

要的数据。采用何种方式检索，取决于数据存储的形式。例如，在职工文件中可按职工编号或姓名查找某职工的工资、出生年月、职称、职务等。

（二）数据处理的方式根据数据的发生及数据处理的响应时间的不同，数据处理方式可分为批处理（ batch processing ）方式和实时处理（ real time processing ）方式两种。 1. 批处理方式批处理方式也叫汇总处理方式。它是把一定时间内准备处理的各个业务地点的数据累积成批后，一次输入到计算机集中进行加工处理。例如，工资计算中，把一个月中的各项津贴、扣款凭证等积累起来，在发薪前一次输入到计算机，经处理以后打印一次工资单。根据系统与用户之间距离的远近不同，数据处理方式可分为本地批处理和远程批处理方式。


（ 1 ）本地批处理本地批处理的数据输入输出发生在计算中心，它把待处理的数据通过邮寄、运输工具等送到计算中心，然后用一定手段输入计算机进行批处理。根据向计算机输人数据的方式不同，本地批处理又可分为中心批处理、联机批处理及脱机批处理三种方式。

（ 2 ）远程批处理方式这种批处理方式是通过把数据从分散的远程终端经过通

信线路输入到计算机，经批处理后再把处理结果返回到运送终端。

批处理的优点是效率高，缺点是不及时。

1. 批处理方式


实时处理方式是指在数据产生的同时，立即输入计算机，计算机即时作出响应并进行相应的处理，将处理结果直接传递给用户。实时处理方式的应用领域非常广泛，例如，监控系统、窗口询问系统、金融流通系统、飞机订票系统等。实时处理又可分为联机实时处理与分时处理两种方式。

2. 实时处理方式

联机实时处理方式联机方式是用户通过终端输入的数据立即由中央计算机处理，并向用户终端输出处理信息。它包括询问方式、事务数据处理方式和信息交换等方式。

（二）数据处理的方式


所谓分时，就是指一个计算机系统可以由许多独立的用户共享，每个用户都可以分到一个虽短但一再出现的计算时间片，使其感到只有自己一个人在使用计算机，并且都能得到最快的响应。这种多用户共用计算机的分时处理又称会话型处理或即时处理。

分时处理方式

实时处理方式的优点是响应迅速，人机配合良好，缺点是不能面向大量的数据处理，且由于线路费用增加而使成本提高。

2. 实时处理方式


（一）数据结构的概念及形式1 、数据结构的概念

“数据结构”是为了解决和研究非数值数据处理问题而提出的理论和方法。在任何问题中，数据元素之间都存在着某种联系，这种数据元素之间所存在的相互关系我们称之为数据的逻辑结构而数据元素在计算机存储器中的表示称之为数据的物理结构，或称为存储结构。

第一节数据处理概述二、数据结构与文件组织

2 、数据结构的主要形式在数据处理过程中常用的数据结构有线性表、堆栈、队列、树及图等形式。

2 、数据结构的主要形式（ 1 ）线性表线性表（ linear list ）是一种最基本、最简单，也是应

用最广泛的数据结构。线性表是由 n 个数据元素组成的有限序列（ al ， a2 ，…， an ）。至于每个元素 ai 的具体含义，可按不同的情况和要求赋予不同的内涵，它可以是一个数，一个符号，一串文字，也可以是其它更复杂的信息。在复杂的线性表中，一个数据元素可以由若干数据项（ item ）组成。通常我们将含有多个数据项的数据元素称为记录（ record ）。


表 4.1 学生基本状况登记表

学号学号姓名姓名年龄年龄性别性别班级班级籍贯籍贯

9607020196070201 张建平张建平 2020 男男 9696信息信息河北河北

9607020296070202 郝晓丽郝晓丽 1919 女女 9696信息信息河北河北

9607020396070203 陈玉东陈玉东 2121 男男 9696信息信息天津天津

…… …… …… …… …… ……

2 、数据结构的主要形式第一节数据处理概述

（ 1 ）线性表例如，一个学校的学生基本情况登记表（见表 4.l ），也构成一个线性表，它的数据元素（或称为记录）由六个数据项：学号、姓名、年龄、性别、班级、籍贯组成。

（ 2 ）堆栈堆栈（ stack ）是一种特殊的线性表，其数据元素只能从表的一端进行插入和删除。允许插入和删除操作的一端称为栈顶（ top ），不允许插入和删除的一端称为栈底（ bottom ），堆栈用来保存尚未处理而又等待处理的数据项，这些数据项的处理是依据后进先出的规则。也就是说，取出（删除）元素顺序恰好是最后进栈的元素。如食堂里的一叠盘子，如果每次只允许一个一个地往上堆，一个一个地往下取，而不允许从中间抽出或插入。


队列也是一种特殊的线性表，它规定在表的一端进行插入，在另一端进行删除。队列是依照先进先出的原则。因此，通常把队列又叫作先进先出表。简称为 FIFO （ First In First Out ）表。所有需要进队的数据项，只能从队列的一端进入，该端称为队列的首部（ front ），而从另一端删除，该端称为队列的尾部（ rear ）。队列是一个两端均打开的向量，它限制数据项从队列的一端移到另一端，保证处理的次序与原来的次序一致。


（ 3 ）队列

树（ tree ）就是一种重要的非线性数据结构，它是以分支关系定义的层次结构。它可以递归地定义：树是一个有n （ n≥1 ）个节点的有限集合，并满足：

有一个特殊的节点称为根节点（ root ）。除根节点之外的其余结点可分为 m （ m≥0 ）个互不

相交的有限集合 t1 ， t2 ，…， tm ，其中每一个集合本身又是一棵树。并且称为根的子树（ subtree ）。


（ 4 ）树

图是比树更复杂的一种非线性数据结构。图中节点之间的联系是任意的，任何一个节点都可以与其它节点相连接，呈现出一种网状形式。

严格地讲，一个图 G 是由两个集合 V 和 E组成， V 是有限的非空顶点式称节点集， E 是边的有限集，并分别用 V（ G ）和 E （ G ）表示图中的顶点集和边集， G= （ V 、E ）表示图。

树中至少有一个根节点，每一个节点，相对于根有一个层次，规定根为节 0层，其它节点根据所处的位置依次为第1层，第 2层……。树中的最大层次加 1称为树的高度或称深度。一个节点子树的个树称为该节点的度（ degree ）。度为零的节点称为终端节点。


（ 4 ）树

（ 5 ）图

计算机处理用的文件具有特定的含义。文件（ file ）是由性质相同的记录组成的集合。根据所记录的内容，文件大致可分为两类：程序文件与数据文件。

（二）文件组织


1. 文件及文件组织的含义

程序文件是把程序作为库加以管理的文件，它包含各种高级语言程序、进行各种数据处理的实用程序以及用户应用程序文件；而用户在程序中定义、处理的文件均为数据文件。

文件的组织和其它类型的数据组织一样，主要是研究它的逻辑结构和物理结构。文件的逻辑结构是指呈现在用户面前的数据组织形式，是用户对数据的表示和存取的方式。文件的物理结构是指数据在外存上的存储方式，是数据的物理表示和组织。文件的逻辑结构主要着眼于用户的使用方便；文件的物理结构则应考虑存储空间的利用率和减少存取记录的时间。


2. 文件的组织方式根据外存介质类型以及记录的访问形式的不同，文件可以有各种各样的组织方式，这里主要介绍顺序文件，索引文件和直接存取文件。

1. 文件及文件组织的含义

（ l ）顺序文件顺序文件是按记录的序号或记录的相对位置来进行存取

的文件组织形式。顺序文件是物理结构最简单的文件。在这种结构中，记录是按进入的次序顺序存放在存储器上，逻辑结构和物理结构一致。若相继的两个记录在存储介质上的存储位置相邻，则又称为连续文件；若物理记录之间的次序由指针相链表示，则称为串链文件。

对顺序文件如果要求记录对关键字有序，则记录进入应按关键字进行排列。例如，如果班级学生文件的关键字是学生的学号，按照记录的顺序，学号为 35012 的记录将放在学号为 35013 的前面。


2. 文件的组织方式

（ 2）索引文件在索引文件组织中，决定存储单元地址的操作与记录的存取是分开的。

对于按关键字存取的文件结构，若用关键字直接对文件进行查找，不论是顺序查找还是折半查找，都因大量记录的输入、输出使查找速度很慢。为此，可以建立一个表，用来指示关键字值与相应建立的存储地址之间的对应关系，如图 4.1 所示。

图 4.1 记录与存储地址的关系

第一节数据处理概述 2. 文件的组织方式

利用这个图可以减少查找时间，提高处理速度。图中 Ki为关键字值； RKi 表示关键字值为 Ki 的记录； A （ RKi ）为记录 RK 的存储地址。这个图中的表叫做索引，其中的＜ Ki ， A （ RKi ）＞则称为索引项。具有索引项的文件称为索引文件，它是由索引和文件本身两部分组成的。相应的，索引文件的存储分为两个区：索引区和记录区。

（ 2）索引文件


（ 3 ）直接存取文件直接存取文件是指用哈希法进行组织的文件。对于磁盘

来说，记录通常是成组存放的，每一个存储单位存放若干个记录，这种存储单位叫做桶（ bucket ）。按桶寻址，一次 I／ O操作可以把一个桶的全部记录读入到内存缓冲区，或者从内存写入外存。通常，一个桶可以存放M 个记录，一个文件空间分为 n 个桶，编号为 0 ， 1 ， 2 ，…， n-1 。哈希函数 H （ K ）是把关键字值转换成桶地址。

直接存取文件比索引、顺序文件更简单，它的特点是：文件随机存放；记录未排序；不能按关键字值读出；插人数据方便；存取速度快；节省空间；不占用索引区。


第二节数据库技术一、数据库基本概念

数据库：是指被计算机存储起来的数据及数据间逻辑关系的集合。换句话说，数据库是通过文件而组织起来的，具有最小冗余度、独立性、共享性和统一管理等特点的数据集合。数据库管理系统：是一个以统一的方式管理、维护数据库中的数据的一系列软件的集合。

数据库系统：是指在计算机系统中引进数据库后的系统构成。一般由数据库、数据库管理系统、计算机软件、硬件以及系统人员和用户等组成。

1. 几个常用的术语

数据模型体现了数据的组织形式及数据之间的联系，是实现现实世界的事物如何转变为信息世界的实体和属性，再转变成计算机世界的记录和数据项的关键。

第二节数据库技术二、数据模型

现实世界中客观存在并可相互区别的“事物”被称之为实体。实体可以指人，也可以指物，可以指实际的东西（如汽车、书），也可以指抽象和概念性的东西（如一次借书，一种感情），还可以指“事物”与“事物”之间的联系（如订货）。在数据库组织中，指客观存在的与某一应用有关的事物。

（ l ）实体（ entity ）

（ 2 ）属性（ attribute ）实体具有的某种（或若干种）特性或特征被称之为属性。例如人的“姓名”、“年龄”、“性别”，产品的“颜色”、“重量”、“单价”等，这些都表示了“人”、“产品”这两个实体的固有特征。属性是对实体特征的抽象描述，属性的具体取值称为属性值，例如：“王芳， 21 ，女”这些值均为属性值。

1. 几个常用的术语第二节数据库技术

（ 3 ）实体集（ entity set ）同一类型的实体集合被称为实体集，即具有同一类属性的客观存在的事物集合。例如所有的人是一个实体集，所有的中国人也是一个实体集，所有活着的人也是一个实体集，只不过范围有大有小，区分的特征有多有少而已。

（ 4 ）域（ domain ）域是属性的取值范围，是由属性值构成的集合。即同一实体集中各实体同一属性具有的值在一定范畴之内，这—范畴称为该属性的值域，简称为域。一个属性的值域可以是整数、实数、字符串等，如“人”这个实体集的姓名属性的值域是字符串，“高度”的值域是实数，“年龄”的值域是整数，“性别’的值域为（男、女）。通常属性是个变量，属性值是变量所取的值，而域是变量取值的集合。（ 5 ）联系（ relationship ）联系一般指实体相互之间关系的抽象表示，亦即现实世界中事物之间的语义关系。例如“系”属于“学校”，“教师”与“学生”属于“系”，“厂长”领导“工人”，“工人”生产“产品”，“产品”使用“材料”等。

1. 几个常用的术语第二节数据库技术

2. 实体联系模型（ entity relationship model ）两个实体集之间的联系可分为三类，如图 4.2 所示。

图 4.2 二元关系模型

第二节数据库技术二、数据模型

（ 1 ）一对一联系（ one—to—one ）一对一的联系是指对于实体集 A 中的每一实体，实体集B 中至多有一个实体与之有联系，反之亦然，则实体集 A 与实体集 B具有一对一的联系。例如医院中的住院病人与病床的联系就是一对一的，即一个病人只占一张病床，而一张病床也只被一个病人占用。

（ 2 ）一对多联系（ one—to—many ）一对多的联系是指对于实体集 A 中的每一实体，实体集

B 中有 n 个实体（ n≥0 ）与之有联系；反之，实体集 B 中每一个实体，实体 A 中最多只有一个实体与之有联系，则称实体集 A 与实体集 B 有一对多的联系。例如医院中的病房与住院的病人的联系就是一对多的，即一间病房可以有多个病人，但每个病人只住一个病房。

2. 实体联系模型（ entity relationship model ）第二节数据库技术

（ 3 ）多对多联系（ many—to—many ）多对多联系是指对于实体集 A 中的每一个实体，实体集 B中有 n 个实体（ n≥0 ）与之有联系；反之，实体集 B 中的每一个实体，实体集 A 中有 m 个实体（ m≥0 ）与之有关系，则称实体集 A 与实体集 B 有多对多的联系。例如工人与技能之间的关系就是多对多的关系，即一个工人可以有多种技能，一种技能也可为多个工人所掌握。

3. 数据库的数据模型数据模型是对客观事物及其联系的数据描述，是实体联系模型数据化。

2. 实体联系模型（ entity relationship model ）第二节数据库技术

（ l ）层次模型（ Hierarchical Model ）层次模型是层次式数据库所采用的数据模型，它是以树结构作为基本结构，通过树结构及树结构之间的逻辑关系来表示数据间联系的一种模型，它反映了现实世界中实体之间的一对多的关系。

层次式数据模型的优点是层次清楚，结点间的联系简单。缺点是处理个别记录效率低，数据库文件的维护麻烦。

（ 2 ）网状模型（ Network Model ）网状模型又叫网络模型，它反映了现实世界中实体间存

在的较为复杂的联系。在网状结构中，任何一个已知实体可以有任意个上属记

录和下属记录。网状结构克服了层次结构中的许多固有缺陷，但网状结构太复杂，数据处理快又繁杂，而且适合于某一网状结构的处理方法往往不适合于别的网状结构。

3. 数据库的数据模型第二节数据库技术

（ 3 ）关系模型（ Relational Model ）关系模型是采用二维表格式的数据模型，在一张二维表

中，一个竖列反映实体的某一属性，我们称之为字段。表中的一行形成一个实体，我们称之为记录，它由各个数据项（字段值）所组成，反映了某一实体的所有有关特性。由许多行、许多列组成的二维表可以用来反映同类实体（或实体集）的所有有关的信息，称为数据库文件。

关系式数据模型是一种数学化的模型。关系式数据结构具有坚实的数学理论基础，简单、明了、直观、容易理解和掌握，在现实生活中应用最多，因此关系式数据库得到了非常广泛的应用。而且，由于层次式和网状式数据结构都可以通过一定方法转化为关系式数据模型来处理。因此，关系式数据库被认为是今后数据库的发展方向。

3. 数据库的数据模型第二节数据库技术

目前数据库的系统结构基本上采用的是三级结构模式，即对应于全局逻辑级的模式，对应于用户级分模式和对应于物理存储级的存储模式。如图 4.3 所示。

图 4.3 数据库系统结构示意图

第二节数据库技术三、数据库的系统结构

数据库管理系统（ Data Base Management System ， DBM ）是对数据进行管理的软件系统，是为数据库建立、使用和维护而配置的。数据库管理系统的主要目的是使数据作为一种可管理的资源，从而使数据易于为各种用户所共享，增进数据的安全性、完整性和可用性，提高数据的独立性。

（ 1 ）数据定义语言数据定义语言用以定义数据库的各级数据结构及它们之间的映象，还包括各种完整性约束和安全性措施。依描述的对象不同，它可分为模式数据描述语言、子模式数据描述语言和物理数据描述语言。

1. 数据库管理系统的组成数据库管理系统由下列三类软件组成：

第二节数据库技术四、数据库管理系统

（ 2 ）数据操纵语言数据操纵语言为用户或应用程序访问数据库提供接口，

它因数据库系统而异。但一般可分为独立式查询语言和嵌入式查询语言两大类。独立式查询语言可以独立使用，交互地对数据库进行操纵。它的特点是命令简单，使用方便；便于非程序员用户使用；但功能有限，需要专门的编译程序。嵌入式查询语言，不独立使用，而是嵌入到某种高级语言中使用。


1. 数据库管理系统的组成

（ 3 ）数据库运行控制系统数据库运行控制系统是数据管理系统的核心，它包含各

种例行程序。主要有：


1. 数据库管理系统的组成

① 存储控制例行程序，支持各种环境下由数据库管理系统或用户提出的对数据的存取请求；② 安全性控制例行程序，用于授权机制的管理控制；③ 完整性控制例行系统，用于各种完整性校验与控制；④ 事务管理例行程序，用于事务完整性控制与并发控制。此外还有恢复例行程序、监控例行程序、系统总控例行程序和通信控制例行程序等。

2. 数据库管理系统的工作方式数据库管理系统的工作方式有以下几种：

（ 1 ）终端用户工作方式在这种方式下，用户使用键盘输入某一带有参数的命令，向数据库存取数据。用发出的命令经过远程处理后，由数据库管理系统作进一步加工并给出命令执行结果。这种工作方式一般称为单命令工作方式或问答式工作方式。

（ 2 ）批处理工作方式批处理工作方式也称为程序方式，用户应用数据库操纵语言编出完整的程序后运行，机器根据应用程序的指示完成所需的一系列工作。


（ 3 ）在线用户工作方式在线用户工作方式也称为联机用户工作方式，也是用数据操纵语言工作的，这一点和批处理工作方式一样。但因为其程序是通过键盘输入，也要经过远程处理程序，这一点又和终端用户工作方式相似。

2. 数据库管理系统的工作方式


3. 关系数据库的特点（ 1 ）简单、灵活易用。由于它对实体集及实体集间的联系均采用关系来描述，对各种用户（最终用户、程序员、 DBA 等）提供统一的单一数据结构形式，使用户很容易掌握和应用这种模型和系统。

（ 2 ）关系数据语言具有较好的非过程化特性，从而面向非专业用户，同时应用系统的开发效率也大大提高。


3. 关系数据库的特点

（ 3 ）有更高的数据独立性。逻辑数据库结构及其操作完全独立于数据的物理存储方式，应用程序不必关心其物理存储细节，不受存储结构变化的影响，因而与层次、网络系统相比有更好的独立性。

（ 4 ）易于实现对数据库的重组和控制，简化了 DBA 的工作。

（ 5 ）易于实现各种不可预计的随机查询，从而对管理决策活动中数据库应用提供较好的支持。


3. 关系数据库的特点

（ 6 ）理论基础好，数据库的研究更加科学化，尤其是关系操作的完备性，规范化及查询优化等方法，为数据库技术的成熟奠定了很好的基础。

（ 7 ）易于向推理系统和知识库系统扩展和综合。关系数据语言与一阶谓词逻辑间具有固有的内在联系，从而为以关系数据库为基础的推理系统和知识库的研究提供了方便。

在关系型数据库中，用范式 (Normal Format,NF) 来衡量数据库规范的层次，要想设计一个好的关系，必须使关系满足一定的约束条件。此约束已形成了范式，分成几个等级，一级比一级要求严格。根据关系模式满足的不同性质和规范化的程度，把关系模式分为 1NF 、 2NF 、 3NF 、 BCNF 、 4NF 、 5NF 。

一个较低范式的关系，可以通过关系的无损分解转换为若干个较高级的范式关系的集合，这一过程称为关系的规范化。

第三节关系规范化

jiangyuguo

关系(Relation)：一个关系对应通常说的一张二维表．属性：表中的一列即为一个属性，每个属性起一个名称即为属性名．元组：表中的一行为一个元组．主键：表中的某个属性组，它可以唯一确定一个元组．关系模式：对关系的描述．表示为：关系名（属性1，属性2，．．．）

11 、、 1NF1NF

定义：如果关系定义：如果关系 RR 的所有属性都是不可再分的所有属性都是不可再分的数据项，则称该关系属于第一范式，记为：的数据项，则称该关系属于第一范式，记为：R 1NF∈R 1NF∈ 。。

1NF1NF 的关系是从关系的基本性质而来的，任的关系是从关系的基本性质而来的，任何关系必须遵守。何关系必须遵守。


表表 1.1. 关系关系 WW 的样值示意的样值示意日期日期工号工号姓名姓名工种工种定额定额超额超额车间车间车间车间主任主任

9090 ．． 55 101101 李一李一车工车工 8080 22%22% 金工金工李明李明 9090 ．． 55 102102 张二张二车工车工 8080 17%17% 金工金工李明李明 9090 ．． 55 103103 王三王三钳工钳工 7575 14%14% 工具工具赵杰赵杰 9090 ．． 55 104104 李四李四铣工铣工 7070 20%20% 金工金工李明李明 9090 ．． 66 101101 李一李一车工车工 8080 19%19% 金工金工李明李明 9090 ．． 66 102102 张二张二车工车工 8080 25%25% 金工金工李明李明 9090 ．． 66 103103 王三王三钳工钳工 7575 16%16% 工具工具赵杰赵杰 9090 ．． 66 104104 李四李四铣工铣工 7070 26%26% 金工金工李明李明

W(W( 日期日期 , , 工号工号 , , 姓名姓名 , , 工种工种 , , 定额定额 ,, 超额超额 , , 车间车间 , , 车间主车间主

任任 ) ) 从表从表 11 中，不难发现其中存在以下毛病：中，不难发现其中存在以下毛病： ①① 数据冗余大数据冗余大 ②② 修改麻烦修改麻烦 ③③ 插入异常插入异常 ④④ 删除异常删除异常

W(W( 日期日期 , , 工号工号 , , 姓名姓名 , , 工种工种 , , 定额定额 ,,超额超额 , , 车间车间 , , 车车间主任间主任 ))

第三节关系规范化第三节关系规范化

原因：原因： ww 关系不够规范，即对关系不够规范，即对 ww 的限制太少，造的限制太少，造成其中存放的信息太杂乱。成其中存放的信息太杂乱。 WW 关系中属性间存在关系中属性间存在着完全依赖、部分依赖、传递依赖三种不同的依着完全依赖、部分依赖、传递依赖三种不同的依赖情况。赖情况。

22 、、 2NF2NF

定义：如果关系定义：如果关系 R 1NF∈R 1NF∈ ，且它的每一非，且它的每一非主属性都完全依赖于主键，则称主属性都完全依赖于主键，则称 RR 属于第属于第二范式，记为：二范式，记为： R 2NF∈R 2NF∈ 。。


W(W( 日期日期 , , 工号工号 , , 姓名姓名 , , 工种工种 , , 定额定额 ,,超额超额 , , 车间车间 , , 车车间主任间主任 ))

W1+W2W 分解

其中： w1（日期 , 工号 , 超额） w2（工号 , 姓名 , 工种 , 定额 , 车间 , 车间主任）


对应对应 ww 关系的关系的 w1w1 和和 w2w2 关系样值关系样值日期日期工号工号超额超额 9090 ．．55

101101 22%22%

9090 ．．55

102102 17%17%

9090 ．．55

103103 14%14%

9090 ．．55

104104 20%20%

9090 ．．66

101101 19%19%

9090 ．．66

102102 25%25%

9090 ．．66

103103 16%16%

9090 ．．66

104104 26%26%

工号工号姓名姓名工种工种定额定额车间车间车间主任车间主任

101101 李一李一车工车工 8080 金工金工李明李明

102102 张二张二车工车工 8080 金工金工李明李明

103103 王三王三钳工钳工 7575 工具工具赵杰赵杰

104104 李四李四铣工铣工 7070 金工金工李明李明

表 2. w1表 3. w2

W2(W2( 工号工号 , , 姓名姓名 , , 工种工种 , , 定额定额 , , 车间车间 , , 车间车间

主任主任 ) ) 从表从表 33 中，不难发现其中存在以下毛病：中，不难发现其中存在以下毛病： ①①数据冗余大数据冗余大 ②②修改麻烦修改麻烦 ③③插入异常插入异常 ④④删除异常删除异常原因：原因： w2w2 关系仍然不够规范，即对关系仍然不够规范，即对 w2w2 的限制少，的限制少，造成其中存放的信息太杂乱。造成其中存放的信息太杂乱。 W2W2 关系中属性间存关系中属性间存在着完全依赖、传递依赖等不同的依赖情况。在着完全依赖、传递依赖等不同的依赖情况。

33 、、 3NF3NF

定义：如果关系定义：如果关系 R 2NF∈R 2NF∈ ，且它的每一非，且它的每一非主属性都不传递依赖于关键字，则称主属性都不传递依赖于关键字，则称 RR 属属于第三范式，记为：于第三范式，记为： R 3NF∈R 3NF∈ 。。


W2(W2( 工号工号 , , 姓名姓名 , , 工种工种 , , 定额定额 , , 车间车间 , , 车间主车间主任任 ))

W21+W22+W23W2 分解

其中： w21（工号 ,姓名 , 工种 , 车间） w22（工种 , 定额） w23 （车间 , 车间主任）


第三节关系规范化第三节关系规范化日期日期工号工号超额超额 9090 ．．55

101101 22%22%

9090 ．．55

102102 17%17%

9090 ．．55

103103 14%14%

9090 ．．55

104104 20%20%

9090 ．．66

101101 19%19%

9090 ．．66

102102 25%25%

9090 ．．66

103103 16%16%

9090 ．．66

104104 26%26%

工号工号姓名姓名工种工种车间车间 101101 李一李一车工车工金工金工 102102 张二张二车工车工金工金工 103103 王三王三钳工钳工工具工具 104104 李四李四铣工铣工金工金工

工种工种定额定额车工车工 8080

钳工钳工 7575

铣工铣工 7070

表 2. w1 表 4. w21

车间车间车间主车间主任任

金工金工李明李明工具工具赵杰赵杰

表 5. w22 表 5. w23

注意： 1. 分解必须是无损的（分解后不丢失信息） ;

2. 分解后的关系要相互独立。

（工号，工种，定额） a: （工号，工种） + （工种，定额）（工号，工种，定额） b: （工号，工种） + （工号，定额）

上例中某工人改变工种， a 方案中只修改子关系 1 即可；　　　　　　　　　　　 b 方案中则要同时修改两个子关系。


jiangyuguo

关系(Relation)：一个关系对应通常说的一张二维表．属性：表中的一列即为一个属性，每个属性起一个名称即为属性名．元组：表中的一行为一个元组．主键：表中的某个属性组，它可以唯一确定一个元组．关系模式：对关系的描述．表示为：关系名（属性1，属性2，．．．）

什么是数据处理？它们的基本内容是什么？何谓批处理方式？有何特征？何谓实时处理方式？有何特征？简述数据库结构的主要形式和特点是怎样的？简述文件的组织形式及其特点是什么？举例说明两个实体集联系的三种关系？什么是数据库？它具有哪些特征？什么是 DBMS？它的组成如何？简述数据库的数据模型及其各自的特点。什么叫数据的逻辑独立性，数据的物理独立性？数据库系统由哪几部分构成？数据库管理系统有哪些功能。试述关系数据库的主要特点。

复习思考题四

第四章 数据处理的技术

Documents

第四章数据处理的技术