數位典藏國家型科技計畫 技術發展簡介
DESCRIPTION
數位典藏國家型科技計畫 技術發展簡介. 簡立峰 中央研究院資訊科學研究所 台灣大學資訊管理學系. http://dats.ndap.org.tw/. 計畫目標. 國家重要的文物典藏數位化 促進我國人文與社會、產業與經濟的發展 人文與社會方面 生活品質的提昇 人力素質的提昇 新文化的肇造,承先啟後、繼往開來 國家信心與形象的再造 產業與經濟方面 建立公共資訊制度的雛型 促進有價資訊市場的健全發展 利用各項數位典藏、促進各項相關生產與管理技術 推動在商業、產業、教育、學術研究,以及民生、育樂方面的利用. 計 畫 辦公室. 內容發展分項計 畫. - PowerPoint PPT PresentationTRANSCRIPT
數位典藏國家型科技計畫技術發展簡介
簡立峰
中央研究院資訊科學研究所台灣大學資訊管理學系
http://dats.ndap.org.tw/
• 國家重要的文物典藏數位化• 促進我國人文與社會、產業與經濟的發展
人文與社會方面 生活品質的提昇 人力素質的提昇 新文化的肇造,承先啟後、繼往開來 國家信心與形象的再造
產業與經濟方面 建立公共資訊制度的雛型 促進有價資訊市場的健全發展 利用各項數位典藏、促進各項相關生產與管理技術 推動在商業、產業、教育、學術研究,以及民生、育樂方面的利用
計畫目標
公
開
徵
選
計
劃
內容發展技術研發應用加值訓練推廣
組織架構計畫辦公室
內容發展分項計畫
技術研發分項計畫
應用服務分項計畫
訓練推廣分項計畫
辦公室維運分項計畫
機
構
計
劃
中央研究院文化建設委員會 2002
國立台灣大學國立故宮博物院
國立自然科學博物館國立歷史博物館國家圖書館國史館
國史館台灣文獻館
協調、支援與訓練機制
※內容發展: 12 個主題小組
※技術規範: 6 個工作群
※4 個服務小組
※人員培訓
組織架構指導小組
計畫總主持人 / 共同主持人
諮議小組
計畫辦公室
內容發展分項計畫
工作小組
審查小組
辦公室維運分項計
畫
訓練推廣分項計畫
應用服務分項計畫
技術研發分項計畫
機構計畫主持人會議
各機構計畫
經費投入
年 度 經費需求 ( 單位:仟元 )
91年度 325,188
92年度 415,162
93年度 *483,055
94年度 *563,788
95年度 *652,181
計畫網站
成果展
聯合目錄
技術研發分項計畫目標
• 本計畫負責執行本國家型計畫核心技術研發及支援各所屬計畫之技術服務需求
• 發展典藏核心技術、建立標準化資訊規範與程序、提供各數位化內涵製作單位共通與特殊的資訊技術工具與應用需求、建置典藏與公共資訊系統、進行國際交流,以及協助各參與計畫的資訊人力技術養成等。
System Development & Technical Support
• Supports more than 50 DL systems (IIS and ASCC)• Content domains: paintings, rubbing, rare book, animals, antiquary,
archaeology, … etc.• Metadata analysis: workflow analysis, system analysis and
development, system integration http://daal.iis.sinica.edu.tw/Chinese/System/Project.htm
DL Research Initiatives
Components of DL System
Technologies in NDAP
• 1. Digitization & Acquisition – OCR 技術 – 張復 , 中文缺字處理 – 莊德明
• 2. Information Organization– Metadata (MAAT), cataloging ( 聯合目錄 – 黃銘崇 )
• 3. Preservation • 4. Information Retrieval
– Retrieving text ( 全文檢索 – 林晰 , 林宣華 , 中文斷詞 – 陳克健 )– Retrieving images ( 圖像標記 –鄭卜任 , 多媒體檔案管理系統 -- D
AAL), – Retrieving audio ( 廣播語音檢索 – 王新民 )– Retrieving music (MP3 搜尋 – 蔡偉和 ), – Retrieving video ( 電子影音管理檢索 -- DAAL)– Cross-language search ( 簡立峰 ), 時空座標檢索
Technologies in NDAP
• 5. Presentation & Delivery – Visualization (虛擬實境 – 陳祝嵩 ), interface ( 缺字顯示 )
• 6. Right Management & Security– 浮水印 (呂俊賢 ), PKI, 密碼化 ( 黃世昆 )
• 7. Portal Service– NDAP Portal, 公共資訊系統
• 8. Evaluation • 9. General Tool
– Greenstone
1. Digitization
• Text input – OCR processing
– Proof reading
– Missing characters
• Multimedia data input – Image scanning
– 3D images
• High-quality printing
1.1 Document Analysis and Recognition
5. Document Analysis and Recognition: Completion of a LINUX-based document image retrieval system that incorporates our recent breakthrough in document image binarization, layout analysis and template construction learning mechanism, with the layout analysis achieving above 98% accuracy rate and character recognition achieving above 99% accuracy rate. ( 引用自張復教授 )
DigitizationDigitization
1.2 Missing Character Server
• Provide a interface to query Hanzi glyph database
• Accept a glyph expression encode in metadata server
• The web server automatically transforms the glyph expression to glyph image
• 《漢語大字典》及 Big5共 54,711個字形。• 《漢語大字典》的異體字表,共 12,208組,包含 36,309個字
形。• 《說文解字詁林》的小篆及重文字形共 11,100 個字形。• 中研院史語所金文工作室缺字共 54,711個字形。• 提供 4766個部件以檢索字形,其中包含 1,324個字根。• 整理異體字根 296組,共包含 716個字根。• 支援 True type缺字及小篆字型。• 擴充 Microsoft Office 的功能,可在 Office 下至少使用 54,711個漢字。
• 開發漢字構形資料庫使用界面,讓使用者可以利用部件檢字及查詢異體字、字形結構及字形演變。
• 提供處理網頁缺字的 Java Applet。•
漢字構形資料庫光碟 2.1b
2. Information Organization
• Metadata analysis
• Markup language – XML
• Metadata extraction
• Cataloging & indexing
• Thesaurus & authority control
• Harvesting (or crawling) & caching (like spider)
2.1 Metadata Analysis
• Technical Supports
• System Development
• Technical Research
• Consulting
• Technical Standardization
Development Process
Content User
Planning
Metadata arrangementDigitization
Metadata Design
Metadata analysisMetadata specification
MAAT
System Develop
Requirements analysisTechnical integrationDocumentation
DAAL
2.2 OAI-based Union Catalog Services
3. Preservation
• Digitization might not be a good way – Data formats
– Software preservation
– Hardware preservation
4. Information Retrieval
• Text presentation – Text segmentation
– Document clustering
– Document summarization
• Multimedia presentation – Video summarization
– Virtual reality
– Image rendering
• Delivery – Cache
• 蔣宋美齡 (Nb) 紐約 (Nc) 去世 (VH) 享年 (VJ) 106歲 (DM) • 王良芬 (Nb) /(FW) 紐約 (Nc) 廿四日 (DM) 電 (Na) • 跨越 (VCL) 三個 (DM) 世紀 (Na) 的 (DE) 傳奇 (Na) 人物 (Na) 、 (PAUSECATEGORY) 「 (PARENTHESISCATEGORY) 永遠 (V
H) 的 (DE) 第一 (DM) 夫人 (Na) 」 (PARENTHESISCATEGORY) 蔣宋美齡 (Nb) 女士 (Na) , (COMMACATEGORY) 於 (P) 紐約(Nc) 時間 (Na) 十月廿三日 (DM) 晚間 (Nd) 十一點十七分 (DM) ( (PARENTHESISCATEGORY) 台北 (Nc) 時間 (Na) 二十四日(DM) 上午 (Nd) 十一點十七分 (DM) ) (PARENTHESISCATEGORY) , (COMMACATEGORY) 在 (P) 曼哈頓 (Nc) 上 (Ncd) 東(Ncd) 城 (Na) 的 (DE) 寓所 (Na) 與世長辭 (VH) , (COMMACATEGORY) 享年 (VJ) 一百零六歲 (DM) 。 (PERIODCATEGORY) 外甥女 (Na) 孔 (Na) 令 (VL) 儀 (b) 與 (Caa) 夫婿 (Na) 黃雄盛 (Nb) , (COMMACATEGORY) 以及 (Caa) 曾孫 (Na) 蔣友 (Nb) 常 (D) 都 (D) 隨侍在側 (VA) 。 (PERIODCATEGORY) 臨終 (VH) 前後 (Ng) 家人 (Na) 一直 (D) 為 (P) 她 (Nh) 讀 (VC) 聖經 (Nb) , (COMMACATEGORY) 以及 (Caa) 不斷 (VH) 禱告 (VA) , (COMMACATEGORY) 祈願 (VK) 她 (Nh) 歸主 (Na) 天國 (Nc) 。 (PERIODCATEGORY) 蔣 (Nb) 夫人 (Na) 生前 (Nd) 在 (P) 意識 (Na) 清醒 (VH) 的 (DE) 時候 (Na) , (COMMACATEGORY 曾 (D) 對 (P) 身旁 (Nc) 的 (DE) 親人 (Na) 說 (VE) 過 (Di) , (COMMACATEGORY) 她 (Nh) 能 (D) 活到 (VH) 一百多歲 (DM) 是 (SHI) 上帝 (Na) 的 (DE) 賜福 (VB) , (COMMACATEGORY) 心 (Na) 中 (Ng) 充滿 (VJ) 喜樂 (Na) , (COMMACATEGORY) 她 (Nh) 把 (P) 一切 (Neqa) 都 (D) 交給 (VD) 上帝 (Na) , (COMMACATEGORY) 沒有 (VJ) 任何 (Neqa) 憂愁 (VK) 和 (Caa) 懼怕 (VJ) 。 (PERIODCATEGORY) 蔣 (Nb) 夫人 (Na) 辭世 (VH) 之後 (Ng) , (COMMACATEGORY) 遺體 (Na) 已(D) 從 (P) 寓所 (Na) 移到 (VC) 一家 (DM) 位於 (VCL) 麥迪遜 (Nb) 大道 (Na) 和 (Caa) 第八十一街 (DM) 交口 (Nc) 的 (DE) 殯儀館 (Nc) , (COMMACATEGORY) 這 (Nep) 是 (SHI) 紐約 (Nc) 最 (Dfa) 高級 (VH) 的 (DE) 殯儀館 (Nc) 之一 (Nc) ,(COMMACATEGORY) 曾 (D) 辦過 (VC) 許多 (Neqa) 名流 (Na) 的 (DE) 後事 (Na) 。 (PERIODCATEGORY) 家屬 (Na) 並 (D) 將 (D) 遵照 (VC) 其 (Nep) 生前 (Nd) 交代 (VE) , (COMMACATEGORY) 將 (P) 她 (Nh) 安葬 (VC) 在 (P) 紐約 (Nc) 上州(DM) 威徹斯特郡 (Nc) 的 (DE) 芬克里夫 (Nb) 墓園 (Nc) ( (PARENTHESISCATEGORY) Ferncliff(FW) Cemetery(FW) ) (PARENTHESISCATEGORY) , (COMMACATEGORY) 而 (Cbb) 不會 (D) 移靈 (VCL) 回 (VCL) 台灣 (Nc) 和 (Caa) 在 (P) 大溪 (Nc) 慈湖 (Nc) 的 (DE) 蔣公 (Nb) 合葬 (VC) , (COMMACATEGORY) 同時 (Nd) 也 (D) 完全 (D) 排除 (VC) 了 (Di) 安葬 (VC) 在 (P) 大陸 (Nc) 故土 (Nc) 的 (DE) 可能性 (Na) 。 (PERIODCATEGORY)
Segmentation Result
未知詞列表 : 王良芬 Nb 1 黃雄盛 Nb 1 蔣友 Nb 1 歸主 Na 1 麥迪遜 Nb 1 交口 Nc 1 威徹斯特郡 Nc 1 芬克里夫 Nb 1
4.3 Multimedia Databases
• A repository of archive multimedia objects
• Batch processing to upload multimedia file
• Media Processing– Rotation, Creating Thumbnails
• Online cataloging and searching
• Describing metadata for multimedia objects
• Multimedia Presentation– Thumbnails listing
– High quality Image browsing
– Video broadcasting
EX:
線上檢視超高解析度影像檔,以提供合作典藏單位有效率的檔案管理機制及多樣化的處理功能
(Back)
(Back)
聲音 & 影片影像 & Metadata 數位出版品
Web 伺服器
多媒體伺服器Metadata 伺服器
內容伺服器
檢索伺服器
語言辨識伺服器無線傳輸
Information Retrieval
*國立歷史博物館提供
CMU: Informedia
Howard Wactlar
(and many others)
CNN, Discovery
Captioning,
Speech rec’gn,
OCR in image,
Etc.
RetrievalRetrieval
4.4 Image Retrieval
X XV V V V
*國立歷史博物館 / 師大 /新視提供
Cross-Language Web Search
LiveTrans
5. Presentation & Delivery
• Text presentation – Document clustering
– Document summarization
• Multimedia presentation – Video summarization
– Virtual reality
– Image rendering
• Delivery – Cache
5.1 Search Result Clustering
Arizona: classification systems
H. S. Chen
Searchers look through clusters of documents to pick the areas they are interested in. Seems to work a bit better.
Presentation
5.2 Image-based 3D VR
• http://smart.iis.sinica.edu.tw/projects/digitarchive/
增添式環場環物影像
環物影片
環場環物即時互動系統系統
Presentation
6. Right Management & Security
• Digital right management– A conditional-access system is a simple form of rights-
management system in which subscribers are given access to objects based (typically) on a service contract.
– Digital rights management systems often perform the same function, but typically impose restrictions on the use of objects after unlocking.
• Digital watermarking? – Watermarking embeds an “indelible” invisible mark in
content. A plethora of schemes exist for audio/video and still image content and computer programs.
Visible Watermarks
(From http://www.dlib.org/dlib/december97/ibm/rev-vis.gif)
Invisible Watermarks
(From http://www.npm.gov.tw/dl/plan06/img/pic-1.gif)
7. Portal Service
• Online catalog service– OAI architecture
• Pros & cons
• Federated search – Meta search, ranking, distributed search
• E-commerce – Billing, accounting
• Promotion – Web portal’s experience
• Maintenance – Backup service
7.1 Portal Service
8. Evaluation
• System reliability
• Usability evaluation
• Logging – Information updating
– Users’ requests
– Transactions
– EX: 檔案局
9. General Tool Development
Rights Management and Transaction Log
Query SystemMissing Character Server
Metadata Server Media Center
Other Achievements
• 技術支援服務 (technical support and services)
• 論文發表 (publications)
• 技術移轉 (technical transfers)
• 學術交流 (conferences organizing)
Q&A
Thanks !