數位典藏國家型科技計畫 技術發展簡介

46
數數數數數數數數數數數 數數數數數數 數數數 數數數數數數數數數數數數 數數數數數數數數數數 http://dats.ndap.org.tw/

Upload: garima

Post on 25-Jan-2016

100 views

Category:

Documents


4 download

DESCRIPTION

數位典藏國家型科技計畫 技術發展簡介. 簡立峰 中央研究院資訊科學研究所 台灣大學資訊管理學系. http://dats.ndap.org.tw/. 計畫目標. 國家重要的文物典藏數位化 促進我國人文與社會、產業與經濟的發展 人文與社會方面 生活品質的提昇 人力素質的提昇 新文化的肇造,承先啟後、繼往開來 國家信心與形象的再造 產業與經濟方面 建立公共資訊制度的雛型 促進有價資訊市場的健全發展 利用各項數位典藏、促進各項相關生產與管理技術 推動在商業、產業、教育、學術研究,以及民生、育樂方面的利用. 計 畫 辦公室. 內容發展分項計 畫. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 數位典藏國家型科技計畫 技術發展簡介

數位典藏國家型科技計畫技術發展簡介

簡立峰

中央研究院資訊科學研究所台灣大學資訊管理學系

http://dats.ndap.org.tw/

Page 2: 數位典藏國家型科技計畫 技術發展簡介

• 國家重要的文物典藏數位化• 促進我國人文與社會、產業與經濟的發展

人文與社會方面 生活品質的提昇 人力素質的提昇 新文化的肇造,承先啟後、繼往開來 國家信心與形象的再造

產業與經濟方面 建立公共資訊制度的雛型 促進有價資訊市場的健全發展 利用各項數位典藏、促進各項相關生產與管理技術 推動在商業、產業、教育、學術研究,以及民生、育樂方面的利用

計畫目標

Page 3: 數位典藏國家型科技計畫 技術發展簡介

內容發展技術研發應用加值訓練推廣

組織架構計畫辦公室

內容發展分項計畫

技術研發分項計畫

應用服務分項計畫

訓練推廣分項計畫

辦公室維運分項計畫

中央研究院文化建設委員會 2002

國立台灣大學國立故宮博物院

國立自然科學博物館國立歷史博物館國家圖書館國史館

國史館台灣文獻館

協調、支援與訓練機制

※內容發展: 12 個主題小組

※技術規範: 6 個工作群

※4 個服務小組

※人員培訓

Page 4: 數位典藏國家型科技計畫 技術發展簡介

組織架構指導小組

計畫總主持人 / 共同主持人

諮議小組

計畫辦公室

內容發展分項計畫

工作小組

審查小組

辦公室維運分項計

訓練推廣分項計畫

應用服務分項計畫

技術研發分項計畫

機構計畫主持人會議

各機構計畫

Page 5: 數位典藏國家型科技計畫 技術發展簡介

經費投入

年 度 經費需求 ( 單位:仟元 )

91年度 325,188

92年度 415,162

93年度 *483,055

94年度 *563,788

95年度 *652,181

Page 6: 數位典藏國家型科技計畫 技術發展簡介

計畫網站

Page 7: 數位典藏國家型科技計畫 技術發展簡介

成果展

Page 8: 數位典藏國家型科技計畫 技術發展簡介

聯合目錄

Page 9: 數位典藏國家型科技計畫 技術發展簡介
Page 10: 數位典藏國家型科技計畫 技術發展簡介

技術研發分項計畫目標

• 本計畫負責執行本國家型計畫核心技術研發及支援各所屬計畫之技術服務需求

• 發展典藏核心技術、建立標準化資訊規範與程序、提供各數位化內涵製作單位共通與特殊的資訊技術工具與應用需求、建置典藏與公共資訊系統、進行國際交流,以及協助各參與計畫的資訊人力技術養成等。

Page 11: 數位典藏國家型科技計畫 技術發展簡介

System Development & Technical Support

• Supports more than 50 DL systems (IIS and ASCC)• Content domains: paintings, rubbing, rare book, animals, antiquary,

archaeology, … etc.• Metadata analysis: workflow analysis, system analysis and

development, system integration http://daal.iis.sinica.edu.tw/Chinese/System/Project.htm

Page 12: 數位典藏國家型科技計畫 技術發展簡介

DL Research Initiatives

Page 13: 數位典藏國家型科技計畫 技術發展簡介

Components of DL System

Page 14: 數位典藏國家型科技計畫 技術發展簡介

Technologies in NDAP

• 1. Digitization & Acquisition – OCR 技術 – 張復 , 中文缺字處理 – 莊德明

• 2. Information Organization– Metadata (MAAT), cataloging ( 聯合目錄 – 黃銘崇 )

• 3. Preservation • 4. Information Retrieval

– Retrieving text ( 全文檢索 – 林晰 , 林宣華 , 中文斷詞 – 陳克健 )– Retrieving images ( 圖像標記 –鄭卜任 , 多媒體檔案管理系統 -- D

AAL), – Retrieving audio ( 廣播語音檢索 – 王新民 )– Retrieving music (MP3 搜尋 – 蔡偉和 ), – Retrieving video ( 電子影音管理檢索 -- DAAL)– Cross-language search ( 簡立峰 ), 時空座標檢索

Page 15: 數位典藏國家型科技計畫 技術發展簡介

Technologies in NDAP

• 5. Presentation & Delivery – Visualization (虛擬實境 – 陳祝嵩 ), interface ( 缺字顯示 )

• 6. Right Management & Security– 浮水印 (呂俊賢 ), PKI, 密碼化 ( 黃世昆 )

• 7. Portal Service– NDAP Portal, 公共資訊系統

• 8. Evaluation • 9. General Tool

– Greenstone

Page 16: 數位典藏國家型科技計畫 技術發展簡介

1. Digitization

• Text input – OCR processing

– Proof reading

– Missing characters

• Multimedia data input – Image scanning

– 3D images

• High-quality printing

Page 17: 數位典藏國家型科技計畫 技術發展簡介

1.1 Document Analysis and Recognition

5. Document Analysis and Recognition: Completion of a LINUX-based document image retrieval system that incorporates our recent breakthrough in document image binarization, layout analysis and template construction learning mechanism, with the layout analysis achieving above 98% accuracy rate and character recognition achieving above 99% accuracy rate. ( 引用自張復教授 )

DigitizationDigitization

Page 18: 數位典藏國家型科技計畫 技術發展簡介

1.2 Missing Character Server

• Provide a interface to query Hanzi glyph database

• Accept a glyph expression encode in metadata server

• The web server automatically transforms the glyph expression to glyph image

Page 19: 數位典藏國家型科技計畫 技術發展簡介

• 《漢語大字典》及 Big5共 54,711個字形。• 《漢語大字典》的異體字表,共 12,208組,包含 36,309個字

形。• 《說文解字詁林》的小篆及重文字形共 11,100 個字形。• 中研院史語所金文工作室缺字共 54,711個字形。• 提供 4766個部件以檢索字形,其中包含 1,324個字根。• 整理異體字根 296組,共包含 716個字根。• 支援 True type缺字及小篆字型。• 擴充 Microsoft Office 的功能,可在 Office 下至少使用 54,711個漢字。

• 開發漢字構形資料庫使用界面,讓使用者可以利用部件檢字及查詢異體字、字形結構及字形演變。

• 提供處理網頁缺字的 Java Applet。•

漢字構形資料庫光碟 2.1b

Page 20: 數位典藏國家型科技計畫 技術發展簡介

2. Information Organization

• Metadata analysis

• Markup language – XML

• Metadata extraction

• Cataloging & indexing

• Thesaurus & authority control

• Harvesting (or crawling) & caching (like spider)

Page 21: 數位典藏國家型科技計畫 技術發展簡介

2.1 Metadata Analysis

• Technical Supports

• System Development

• Technical Research

• Consulting

• Technical Standardization

Page 22: 數位典藏國家型科技計畫 技術發展簡介

Development Process

Content User

Planning

Metadata arrangementDigitization

Metadata Design

Metadata analysisMetadata specification

MAAT

System Develop

Requirements analysisTechnical integrationDocumentation

DAAL

Page 23: 數位典藏國家型科技計畫 技術發展簡介

2.2 OAI-based Union Catalog Services

Page 24: 數位典藏國家型科技計畫 技術發展簡介

3. Preservation

• Digitization might not be a good way – Data formats

– Software preservation

– Hardware preservation

Page 25: 數位典藏國家型科技計畫 技術發展簡介

4. Information Retrieval

• Text presentation – Text segmentation

– Document clustering

– Document summarization

• Multimedia presentation – Video summarization

– Virtual reality

– Image rendering

• Delivery – Cache

Page 26: 數位典藏國家型科技計畫 技術發展簡介

中文斷詞暨未知詞偵測系

連結

4.1 Chinese Word Segmentation

Page 27: 數位典藏國家型科技計畫 技術發展簡介

• 蔣宋美齡 (Nb)  紐約 (Nc)  去世 (VH)  享年 (VJ)  106歲 (DM)  • 王良芬 (Nb)   /(FW)  紐約 (Nc)  廿四日 (DM)  電 (Na)  • 跨越 (VCL)  三個 (DM)  世紀 (Na)  的 (DE)  傳奇 (Na)  人物 (Na)  、 (PAUSECATEGORY)  「 (PARENTHESISCATEGORY)  永遠 (V

H)  的 (DE)  第一 (DM)  夫人 (Na)  」 (PARENTHESISCATEGORY)  蔣宋美齡 (Nb)  女士 (Na)  , (COMMACATEGORY) 於 (P)  紐約(Nc)  時間 (Na)  十月廿三日 (DM)  晚間 (Nd)  十一點十七分 (DM)  ( (PARENTHESISCATEGORY)  台北 (Nc)  時間 (Na)  二十四日(DM)  上午 (Nd)  十一點十七分 (DM)  ) (PARENTHESISCATEGORY)  , (COMMACATEGORY)  在 (P)  曼哈頓 (Nc)  上 (Ncd)  東(Ncd)  城 (Na)  的 (DE)  寓所 (Na)  與世長辭 (VH)  , (COMMACATEGORY)  享年 (VJ)  一百零六歲 (DM)  。 (PERIODCATEGORY) 外甥女 (Na)  孔 (Na) 令 (VL) 儀 (b)  與 (Caa)  夫婿 (Na)  黃雄盛 (Nb)  , (COMMACATEGORY) 以及 (Caa)  曾孫 (Na)  蔣友 (Nb) 常 (D)  都 (D)  隨侍在側 (VA)  。 (PERIODCATEGORY) 臨終 (VH)  前後 (Ng)  家人 (Na)  一直 (D)  為 (P)  她 (Nh)  讀 (VC)  聖經 (Nb)  , (COMMACATEGORY) 以及 (Caa)  不斷 (VH)  禱告 (VA) , (COMMACATEGORY)  祈願 (VK)  她 (Nh)  歸主 (Na)  天國 (Nc)  。 (PERIODCATEGORY) 蔣 (Nb)  夫人 (Na)  生前 (Nd)  在 (P)  意識 (Na)  清醒 (VH)  的 (DE)  時候 (Na)  , (COMMACATEGORY  曾 (D)  對 (P)  身旁 (Nc)  的 (DE)  親人 (Na)  說 (VE)  過 (Di)  , (COMMACATEGORY)  她 (Nh)  能 (D)  活到 (VH)  一百多歲 (DM)  是 (SHI)  上帝 (Na)  的 (DE)  賜福 (VB)  , (COMMACATEGORY)  心 (Na)  中 (Ng)  充滿 (VJ)  喜樂 (Na)  , (COMMACATEGORY)  她 (Nh)  把 (P)  一切 (Neqa)  都 (D)  交給 (VD)  上帝 (Na)  , (COMMACATEGORY) 沒有 (VJ)  任何 (Neqa)  憂愁 (VK) 和 (Caa)  懼怕 (VJ)  。 (PERIODCATEGORY)  蔣 (Nb)  夫人 (Na)  辭世 (VH)  之後 (Ng)  , (COMMACATEGORY)  遺體 (Na)  已(D)  從 (P)  寓所 (Na)  移到 (VC)  一家 (DM)  位於 (VCL)  麥迪遜 (Nb)  大道 (Na)  和 (Caa)  第八十一街 (DM)  交口 (Nc)  的 (DE) 殯儀館 (Nc)  , (COMMACATEGORY)  這 (Nep)  是 (SHI)  紐約 (Nc)  最 (Dfa)  高級 (VH)  的 (DE)  殯儀館 (Nc)  之一 (Nc)  ,(COMMACATEGORY)  曾 (D)  辦過 (VC)  許多 (Neqa)  名流 (Na)  的 (DE)  後事 (Na)  。 (PERIODCATEGORY)  家屬 (Na)  並 (D) 將 (D)  遵照 (VC)  其 (Nep)  生前 (Nd)  交代 (VE)  , (COMMACATEGORY)  將 (P)  她 (Nh)  安葬 (VC)  在 (P)  紐約 (Nc)  上州(DM)  威徹斯特郡 (Nc)  的 (DE)  芬克里夫 (Nb)  墓園 (Nc)  ( (PARENTHESISCATEGORY)   Ferncliff(FW)   Cemetery(FW)  ) (PARENTHESISCATEGORY)  , (COMMACATEGORY)  而 (Cbb)  不會 (D)  移靈 (VCL)  回 (VCL)  台灣 (Nc)  和 (Caa)  在 (P)  大溪 (Nc) 慈湖 (Nc)  的 (DE)  蔣公 (Nb)  合葬 (VC)  , (COMMACATEGORY)  同時 (Nd)  也 (D)  完全 (D)  排除 (VC)  了 (Di)  安葬 (VC) 在 (P)  大陸 (Nc)  故土 (Nc)  的 (DE)  可能性 (Na)  。 (PERIODCATEGORY)

Segmentation Result

未知詞列表 : 王良芬 Nb 1 黃雄盛 Nb 1 蔣友 Nb 1 歸主 Na 1 麥迪遜 Nb 1 交口 Nc 1 威徹斯特郡 Nc 1 芬克里夫 Nb 1

Page 28: 數位典藏國家型科技計畫 技術發展簡介

4.3 Multimedia Databases

• A repository of archive multimedia objects

• Batch processing to upload multimedia file

• Media Processing– Rotation, Creating Thumbnails

• Online cataloging and searching

• Describing metadata for multimedia objects

• Multimedia Presentation– Thumbnails listing

– High quality Image browsing

– Video broadcasting

Page 29: 數位典藏國家型科技計畫 技術發展簡介

EX:

線上檢視超高解析度影像檔,以提供合作典藏單位有效率的檔案管理機制及多樣化的處理功能

(Back)

(Back)

Page 30: 數位典藏國家型科技計畫 技術發展簡介

聲音 & 影片影像 & Metadata 數位出版品

Web 伺服器

多媒體伺服器Metadata 伺服器

內容伺服器

檢索伺服器

語言辨識伺服器無線傳輸

Information Retrieval

*國立歷史博物館提供

Page 31: 數位典藏國家型科技計畫 技術發展簡介

CMU: Informedia

Howard Wactlar

(and many others)

CNN, Discovery

Captioning,

Speech rec’gn,

OCR in image,

Etc.

RetrievalRetrieval

Page 32: 數位典藏國家型科技計畫 技術發展簡介

4.4 Image Retrieval

X XV V V V

*國立歷史博物館 / 師大 /新視提供

Page 33: 數位典藏國家型科技計畫 技術發展簡介

Cross-Language Web Search

LiveTrans

Page 34: 數位典藏國家型科技計畫 技術發展簡介

5. Presentation & Delivery

• Text presentation – Document clustering

– Document summarization

• Multimedia presentation – Video summarization

– Virtual reality

– Image rendering

• Delivery – Cache

Page 35: 數位典藏國家型科技計畫 技術發展簡介

5.1 Search Result Clustering

Page 36: 數位典藏國家型科技計畫 技術發展簡介

Arizona: classification systems

H. S. Chen

Searchers look through clusters of documents to pick the areas they are interested in. Seems to work a bit better.

Presentation

Page 37: 數位典藏國家型科技計畫 技術發展簡介

5.2 Image-based 3D VR

• http://smart.iis.sinica.edu.tw/projects/digitarchive/

增添式環場環物影像

環物影片

環場環物即時互動系統系統

Presentation

Page 38: 數位典藏國家型科技計畫 技術發展簡介

6. Right Management & Security

• Digital right management– A conditional-access system is a simple form of rights-

management system in which subscribers are given access to objects based (typically) on a service contract.

– Digital rights management systems often perform the same function, but typically impose restrictions on the use of objects after unlocking.

• Digital watermarking? – Watermarking embeds an “indelible” invisible mark in

content. A plethora of schemes exist for audio/video and still image content and computer programs.

Page 39: 數位典藏國家型科技計畫 技術發展簡介

Visible Watermarks

(From http://www.dlib.org/dlib/december97/ibm/rev-vis.gif)

Page 40: 數位典藏國家型科技計畫 技術發展簡介

Invisible Watermarks

(From http://www.npm.gov.tw/dl/plan06/img/pic-1.gif)

Page 41: 數位典藏國家型科技計畫 技術發展簡介

7. Portal Service

• Online catalog service– OAI architecture

• Pros & cons

• Federated search – Meta search, ranking, distributed search

• E-commerce – Billing, accounting

• Promotion – Web portal’s experience

• Maintenance – Backup service

Page 42: 數位典藏國家型科技計畫 技術發展簡介

7.1 Portal Service

Page 43: 數位典藏國家型科技計畫 技術發展簡介

8. Evaluation

• System reliability

• Usability evaluation

• Logging – Information updating

– Users’ requests

– Transactions

– EX: 檔案局

Page 44: 數位典藏國家型科技計畫 技術發展簡介

9. General Tool Development

Rights Management and Transaction Log

Query SystemMissing Character Server

Metadata Server Media Center

Page 45: 數位典藏國家型科技計畫 技術發展簡介

Other Achievements

• 技術支援服務 (technical support and services)

• 論文發表 (publications)

• 技術移轉 (technical transfers)

• 學術交流 (conferences organizing)

Page 46: 數位典藏國家型科技計畫 技術發展簡介

Q&A

Thanks !