the foundation for intelligent information management
TRANSCRIPT
� ����������� ��������������������������������������������
Data Classification
The Foundation for Intelligent Information Management
David Hill Wayne Kernochan
Principal President
Infostructure AssociatesLeveraging Information for Organizational Success
� ����������� �������������������������������������������� �
SWC Legal Notice
� ���� ��� ����� ����������� ��� ���������������!����� ��������������������"���#���� ���������� ������� ����$������������%� � �������������� &������ ���������� �����'�������� ����������������������� ������ ������ ��(�������)��!����������*��� ��'������������������+ ���������� ����� ����!�� ����� ���������'�� ����,������������������������� � ������
� ����������� �������������������������������������������� -
Agenda
� ���!������������ ��������!����������� !������� �� ��� ������ ������������ .����� ��������! ��������� ��� ������ ���� /���� �������� ��������������������� ������� � ������������������������������������� ��� ������ ������������ 0�'���� ���� ��� ������ ������� �������������������� ����� �����
� ����������� �������������������������������������������� 1
Definition of Data Classification
Data classification is the process of separating data into
separate piles (i.e., categories) to which different policies apply.
� ����������� �������������������������������������������� 2
What Good is Data Classification (The Storage-Centric View)
� 3 ��� ������ ������� ��4���� ���� �&��� ��� � �����!���+.��������������� ���"'����� ���������� �����#
+5���� �������,��������� ���!��!����� !��������������� ������� ����
� 3 ��� ������ ������������� ��������� �������� ����� ���� ���� �� ��!��� � ��������������
� ����������� �������������������������������������������� �
Data Classification – Above the Storage Tier
� &����� ������ ������ ������ ���� ���6�!�� ���6����������� ��7 ������� ���������8�� �9�������������:
Hardware Level
Database Level}
Business-Process software
Global metadata repository
Business Level}Cross-database, data-copy, business-process metadata
Enterprise Applications Business Intelligence
Data-level metadata sub-repository
Structured, semi-structured, unstructured metadata
Databases Content Management
Storage Area Networks Systems Management
Hardware-level metadata sub-repository
Servers
}Disk, Tape
File, block metadata (age, striping)
� ����������� �������������������������������������������� ;
Why data classification — the ILM ViewWhy data classification Why data classification —— the ILM Viewthe ILM View
Bus
ines
s Fr
amew
ork
Bus
ines
s Fr
amew
ork
Business Business ProcessProcess
Def
ine
Def
ine
Data Management ServicesData Management Services
Network Network InfrastructureInfrastructure
Compute Compute InfrastructureInfrastructure
Storage Storage InfrastructureInfrastructure
IT InfrastructureIT Infrastructure
Info
rmat
ion
Policies, Instrumentation, FiltersPolicies, Instrumentation, Filters
Goals ManagementGoals Management
RequirementsRequirements
Business RequirementsBusiness Requirements
Information Management ServicesInformation Management Services
ApplicationsApplications
ILM
Fra
mew
ork
ILM
Fra
mew
ork
Req
uire
men
tsR
equi
rem
ents
SNIA’s Data Management Forum has a powerful vision
for ILM.
Although infrastructure and services can exist without ILM, the
starting step for ILM is data classification.
� ����������� �������������������������������������������� <
Why Data Classification – the business view
� 3���� ��� ������������� �� ����� �� ����! �=��������' ��� �������� �! ���9>,������� �����������?
� ����������� �������������������������������������������� @
Problems Right Here in Data Classification City
� 5 �������� � ��������������������������� ���������� ��� ������ ���+ 5����&������������� �������� ������ �������6�! ��������� ���������������
+ ������ ����� ��!�� ���������6�! �������� � ������A��� ������ ��A ����� �������� ��� ������ ���
� 3 ��� ������ ���� ��������������! ������� ���� ��6���������'������6������������ ��!�� ��+ 3��������! �������� ���6������� ����'���������� �� ��� ������ ������� �� �����������6� ������! ���������� ���� ��!�������� �
+ (�� ���! �������� ���� � ��� ��� ���!������������ ������� ����� ������ ��!������������ ������ ���������������� ����� �� ������
� 3 ��� ������ �������8!���'���! ������������:
� ����������� �������������������������������������������� B�
Data and Metadata Before Data Classification
• &���������� ������� ���• C��&()
• C�� � �� !��� �������������
• C���� ��������!����� ��� ���
• C��9�,����
�������
• 0��� ���������• 5 �����������• C�����������
• .�������� ��• (�'�7 ����"��� =��#• (�'�������� ���
�
• �%>������D�=��'��'�����������������
• %����������� ������'��• C���������� ���� ��
• C�����! ��4��• &� ������!���"�����D��,��#
• &�����������!��
�� ����
���������������
This is a start for building a compelling case for data classification.
� ����������� �������������������������������������������� BB
Some Benefits from Extending Data Classification
� 3������������� ���=��'��������������� ������ !����7 ������� ������!�� ������������
� &������� ���������'���� ��������!�'����� �� ��!�� ��� ���������������� �� � ��
� % ���������� ������ � ������"! ��������� � ������#
� %� ������ �7 ����"������$ ������'��%�(�E%,� �6��� ������6�(� �F�����#
� ����������� �������������������������������������������� B�
Two Problems to Solve
� 0�'������ !� ��������������� ��� ������ ���
� 0�'� � ����� ��������������� =���� ��������������� �������� ��� ������ ���� ������ �� ������������������������ ����� � �����
� ����������� �������������������������������������������� B-
Data Classification Playbook Definitions
� ���� A ��������"����6����9� ����#�!��� � ���� �= ���������������4 !����� � ���6�� �� �������� ���� ! ����������
� ������� A � �= �������� � ���� ��� ��� �������� ���
� �������� ��A � ��������� ���������� !���� � ���� � !���!��! ������� ����
� �������� A � � !� ��
� ������ ������������� ������������� A���������9'���� ������� ���� ����� � �! ������������� ������ ����������� ���� ������
� ����������� �������������������������������������������� B1
What is data classification?� ��� ��6�� ��� ������ ����������������������� � ����� �������� � ��������"������ �������#���'��������������������� �����+ G�������� ������������� �������! �������� ���+ ���! ������������������!���������������! �������� ���
� 3��������� �������� ����� �������������+ 3�����������������������A � �� ��� ���������6�� ���� ���6� ��������� ���
+ ) ��!������������������������� ��+ ) ��!������ ���'���� ��� ������ ����� ��� ����
� ����������� �������������������������������������������� B2
A Few More Basics About Data Classification
� ��� ����� �� ��������������������������� �����! ���� ����������(�����>!$�������"�(>�#
+ &�����������������,����!�'����'����� ������� 6����� ��!������ ���������������� �
� 3 ��� ������ ������� ����9��������������
+ 3 ��������������� ������ �������� ���� �������)����������������� �������� ��������! ���� ����� �������� �6�� �������������6������6���������
� ����������� �������������������������������������������� B�
More Thoughts on Data Classification
� 3 ��� ������ ������� ��� ����� ������ ������ ��������� �����������
� 3 ��� ������ �������!�� �� � �� ��� �� �� ����������+ ������A ���� �������������! �������� ����'��� ����������� ��� ����������� �� ��!���,�� ���!�����' ��
+ ���������A � �� ��!��������������� ����� ��!������������������� �����! ���������������
+ ������ �������������������A �� ��������=����������A ��������������! �������� ����� ��������� ����=��'����' �� ���� � �� !��� ��� �� ������������ ������ ����������� ���� ��� ���� � !������
� ����������� �������������������������������������������� B;
General Tool Strategies for Helping to Classify Data
� 5�������� ���
� 5��)� �
+H����)� �
+%,������)� �
+�������� �����
� ����������� �������������������������������������������� B<
Application Classification
� ������ ��������� �������� ���������9����� �6�! ������9����� �6� �=9����� �6����+ �(>�� ������������ ����� ���
+ ����� ������� ����� ��������� ������������ ��������'�� ����������������!$������"�G>#�!�������������� ���' !���� ������������ ����� ���
� ��������� ���������
� ����������� ������ ���� �+ ������� ����� ������ ������ ���6����� ��� ������ ���
+ 5 �������� ��!����������� ����� ������ ������ ���6�! ������������� ��� ������ ���
� ����������� �������������������������������������������� B@
Why not just application classification?
� 3 ���������!������������������������������ ����� ���+ �� ���������� ���������� ���!�� ��� �����������'��� ����� ������ ��� ���������
+ C���� ���������� �'� ��������� �� �������� ������ � ���� �� ����������������� ���� ������ ����� ��������� ������ ��
� �'������������ ������� �������,��������� ��� ����� ��������+ 3 �'������������������������� ���� ����������� ����� ������ ���!������� ������� � ������� ���������
+ (���� ����� � ������������� ������������ ������,��������'���� �� ����� ����'� �������! ������� ����� ���
� ����������� �������������������������������������������� ��
Data Classification Through Metadata
� � ����������� A �� ������� �!������� ����,������6�� � ��6���4�6��'���6���� ����� �6����+ ����������� �� �� ���� � �� !���'�� ��,� ������
+ � �����������(������� � !������
� � ��������������� A ������ ���� � �A� �� ����� ���6��� ������'�������"�������� ����#6� ���'��=���'��� ���+ ����������&���������� � � ��������� ��� ������ ���
+ � �����������(���������� �������������������� ������������� � �����
� ����������� �������������������������������������������� �B
Adding in Content Analysis
� ���� �� A ��� ��4���������"� �� ��!��=��'���#���� ����� ��!�� ����!��� ��9�,�5���� ���� ����������+ ������������������� ������ � � ��������� ����������! ���� � ����������
+ � ������������������������ � �����6�! �����,������������� ����������,� � �����I����=��������'��������
� �����������������!� �A�����7 ������, ���������������������� �� �=���� ����� ����'����� ������� ���������� + ����������3������ ��������� � �����
+ � ���������������9���� ����� �������� � !��
� ����������� �������������������������������������������� ��
The Management Lens
� �������������� A ���������6��������6� ���������������� ����� ��� ������
� ����������� A �����9� 9� �������� ��� ��������� ��������������� �������������6�� �� ������ ���6������� ���6� ���! �= �J������������������
� � ������������� A � � ������������ �����������9� =������� ����������������� ���� ������������ ����������������� �! ��������������6�� �� ����������� � ������ ���������� � �������
� ����������� �������������������������������������������� �-
Data Classification and the Management Lens
� ���� � ������������� �������������!������� �� ��!���������������� ��� ������ ��������&()
� ������������������+ � ��������� �������������� ��+ ����������� ����� �����
� ���������������+ � ��������� � ����� ���6�� ���������6� ��������� ���+ ������������ 0�������������������6�&��� � �� !����
� �������� �������������+ � ��������� !���� ������������ ���� ����6��3��������+ ����������� &���� ����� � ��"������� ����6������ ��6����� �����#��������������
� 3���������'��� ��� ��� ������ ������ ����'���� ������ ���������������� � ������
� ����������� �������������������������������������������� �1
The Data Lens
•%��� �����6�� �� �������� ��� ���•&� ����6�� �� ������ ������� ��� ���!�� ���������� �����
•G����� ������ �����6�� �� ���9� ��� ���'��������������•��!������ �����0��G
•>(�G�������6�� �� ����)� ���%�G•3 �' ��� ����
� ��"���
��������� �����#�!�� ������� ����
C ������!�� ������ 6�� �� �������6� ���6���� ���6� ���)�&��� ��
8��,: ��� ������ �� ���9� ��6�'��������������6������� ����6����� �����
3 ! ��������������
$�����%�������� &����%�����
����%�����!"�
� ����������� �������������������������������������������� �2
Distinguishing Between Unstructured and Semi-Structured Data
� .��� � ����� � ������� ����5(>5��"5�� ���( ����>!$���#+ C ����"�����'�� ��� ������� � #� ��� � ����� �� ����!�� ����!�������9 ' ��� ����� ����
+ ) � ������ ��������� �
+ �������� ���� ����� ������ ����������������������� �����
� C��� �! ���������� �����"'��������������6������� ����6����� �����#� ��������������������� �������� �� ��� � ����� + 5 ���������� ����� �������9�� � �����
+ ��������� ���������� � ��!��������� �� ���������������� 6�! � ������������ ������������������ ������
� ����������� �������������������������������������������� ��
Don’t reinvent the wheel - 1� )� � � ������������ ��
Hardware Level
Database Level}
Business-Process software
Global metadata repository
Business Level}Cross-database, data-copy, business-process metadata
Enterprise Applications Business Intelligence
Data-level metadata sub-repository
Structured, semi-structured, unstructured metadata
Databases Content Management
Storage Area Networks Systems Management
Hardware-level metadata sub-repository
Servers
}Disk, Tape
File, block metadata (age, striping)
� ����������� �������������������������������������������� �;
Don’t reinvent the wheel - 2� ������������� �6��,� �6� ������!������ �
+ %, ����K��%���������&����� ����&���� ����"%&&#
BI Reporting Tools & Applications
Oracle Database
Program
Program
End User
Files, Content
Relational Data
Applications
Oracle, IBM DB2
Excel,Web
graphics
SAP, SiebelSQL,
XQuery
APIs, Web
serviceprovider
code
EII Front End EII Back EndEII Engine/Server
Adapter
ETL Tool
Local EII ServerMetadata Repository
(contains cross-data-source views, virtual tables)
Query Optimizer
Transaction Engine
(combine sub-query, sub-read, sub-update)
Cache Database
� ����������� �������������������������������������������� �<
How Accurate Will The Classification Be?� 8����'������������������� 6�����'����<-6����� �������������6�216����� ��������������6� ��� �����B��6�������� ������ ��� ��������������������������=����� ������' �� ���'�����������'���������� ���!����������������������� ������ �6���������������������� ��� �����6� ������������������� ��� �������:
� 8) ���� ��������L � ��������������6� �� �� �������� �!��� ��� �� �������� ��L� �!�� ��� �����������C������� �� ��������,�����:
� 8����D������ ��� ������� =��� ��� ��� ����������������������������� ������������������������6�����6��� � ��������,��� ��� ����� ����� �����������������!���= ��������������� ����������� ��! �������� �����6�! ������ �' ������� ������������������������L �������������������������� ��� �������� ���6��D������� ��������������������!���:
� 8B26������������ ���� ��4����� ������� �������L ������ ���� ��4����������� ��� ����� �������:+ ��� ��� ��6���� �H����6����26��������) ����3 �) � �����������
� ����������� �������������������������������������������� �@
Steps to Take
� 3���������������������� ��� ������ ���������+ ���������A ���� ��� ���� ������ ��� ��� ����� ����+ �������� A ����������� ����� ���������� ���'� ����� ����+ � ���������� ������ ��A � ����� ����� �� ����,�� �������� �����6�! 6���� ������ �����������9������ �6�� ��!��!���������=� ����� �� ����� �� ������
� ) �� ��' ���������� ��������!���� ��������'��' ���� ��� ������ �������� ��� �����������+ ���� ����� A � ! ���+ ��������� ����� A �9� ��� ���������� ����+ ������ ����� A 5(>5�
� ) ����� ��� ������ ������������'����� � ������"��� ��6�� 6� ��������� ���#�!������� �� ��!����������
� .������9�,����������� ����� � ������ � ������ �������9� �����������'���������!��
� ����������� �������������������������������������������� -�
Separating Data into Pools
� �%� ����'�������� A ��������� �������������� 6�'���������� ������!��� ��� !���"������� �J'���#+ �� ���6�� � ���� ���=������� ����"� �� ���������� �� ��������������9� ���#� ��������������'��� ��� !����
� �%� �����%' �� A ��,���������� � ������������� �� �����"�����������#�! �����������
� ���"���%' �� A ����������,���������� � ������� ������������������ ������ �� ����
� �����������%� ��A ����������������������� ����������������������
� ����������� �������������������������������������������� -B
Where Should Your Data Be Today?
Active Changeable
Pool
Active Archive
Pool
Deep Archive
PoolProduction Data
Ad hoc recall, e.g. regulatory requirements
•Business intelligence•Reference•Compliance
•OLTP•Collaboration
Purpose
Fixed dataFixed dataChangeable dataType of Data
OfflineOnlineOnlineAvailability
Data DestructionEndpoint Analysis: What characteristics
should data have to be in each pool?
� ����������� �������������������������������������������� -�
Applying Data Classification for Intelligent Information Management
� 3 ��� ������ ���� ����������������������� 6��� ����� �������������9�������� ���� � !����6� ����� ������������� ��������������� ���������������� �������������� ������
� C�'��� ����� ���"�#� ��������� ���� ������� �� ����������� ����������'���� ��' ���������+ .������� �����������! ���� � ����������+ 3 ��� ������ ���� ����� ������� �� ������������������������ ����� � ������
Hardware Level
Database Level}
Business-Process software
Global metadata repository
Business Level}Cross-database, data-copy, business-process metadata
Enterprise Applications Business Intelligence
Data-level metadata sub-repository
Structured, semi-structured, unstructured metadata
Databases Content Management
Storage Area Networks Systems Management
Hardware-level metadata sub-repository
Servers
}Disk, Tape
File, block metadata (age, striping)
Classified Data
� ����������� �������������������������������������������� --
Conclusions
� 3 ��� ������ �������!�� �� � �� ��� �� �� ��� �=�+ ��������� �����6����������������������� ��!�� ���6�����6��������� � ������ ������� ������ ���������������������'������� ��� ���
+ ������ � ����� � � ��������� � ������� �� �� ���� ��������������! �������� ���� ��������������������������
� �������������� �������� ��� ������ ����� ��!��� ��+ %����� ����'������ ����������,�����!��������� �������!� ���&�� �����! ������� �� �'���
+ %����� ����'����� ��������� �������� �� ������� ����! ���� � ����������� 5 ��� D��� ��� ��� �=���������6����������� �����D�=��'��M�") ����3 �) � �����#
� ����������� �������������������������������������������� -1
Thank You! – Questions please.
Wayne Kernochan
David Hill(781) 326-0038
www.mesabigroup.com
(781) 862-5236
www.valleyviewventures.com
Infostructure AssociatesLeveraging Information for Organizational Success