人工智能与图书馆特色资源建设 -...

22
人工智能与图书馆特色资源建设 同方知网(北京)技术有限公司 师庆辉

Upload: others

Post on 05-Oct-2019

37 views

Category:

Documents


0 download

TRANSCRIPT

人工智能与图书馆特色资源建设同方知网(北京)技术有限公司

师庆辉

人工智能(Deep Learning)

围棋 艺术 恶性肿瘤检出率 驾驶

60连胜 复活大师的精髓 50%向上 自动转向与泊车

人工神经网络

神经元 脑功能图谱

人脑中的神经元数量约1011个,每个神经元与其

他1000多个神经元相连接。请输入文字内容,请输入文字;

分层处理的脑

请输入文字内容,请输入文字; 请输入文字内容,请输入文字;

人工神经网络

• 大规模的标注数据(新的石油)

• 高性能的计算能力(GPU、TPU、类脑计算机...)• 模型的构建与训练(模仿人脑)

• 7月8日国务院发布关于印发新一代人工智能发展规划的通知

图书馆与人工智能• “再议图书馆发展的十个热门话题” 吴建中《中国图书馆学报》,2017,43(4)

• 图书馆与社会发展

• 识字与素养

• 空间再造

• 人工智能

• 数字人文

• 开放运动、

• 公共数字文化与精准扶贫

• 图书馆改革

• 第三代图书馆

• “一带一路”与图书馆国际化

《新一代人工智能发展规划》的第三条”重点任务“中专栏二“建立新一代人工智能关键共性技术体系”提出:

知识计算引擎与知识服务技术。重点突破 知识加工、深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱。

图书馆与人工智能(一体两面)

• 图书馆需要人工智能技术实现服务升级

• 我国人工智能规划在一些行业的落地应用也需要图书馆的数据做为支撑

• 图书馆特色资源建设是上述两者的基础

人工智能与图书馆特色资源建设

•数字化是基础• 版面理解、多语种超大规模字符集识别、图表、公式识别,多媒体内容识别

•知识化是关键• 语义分析、知识标引、领域知识图谱构建

•服务落地是目的• 借阅书籍-->提供公共的知识服务系统

知网的实践(数字化)

知网的实践(数字化)

• 基于深度学习的版面理解与文字识别技术,大大降低加工成本• 常见中文字符OCR识别:96%提高到99.5%• 超大规模GBK字符(繁简混合)识别:80%提高到98%• 公式图表的自动化识别:90%提高到97%。

知网的实践(数字化)

• 文献碎片化的敏捷加工模式是指高度自动化的快捷可迭代加工方法。用户根据自身特点决定产品的碎片化粒度,可以先期进行粗粒度加工快速发行产品,培育市场;然后不断在已有基础上进行细粒度迭代加工,每一次迭代形成新的产品形态。

知网实践(知识化)• 基于形式的碎片化加工是指将传统的图书等出版物按版式结构或显式内容主题进行标注,建立相关的

知识素材库。基本特点为:

• 可见即可得,不需要复杂的内容分析。

按主题的粒度大小(碎片化粒度)可分为:

基本元数据碎片化(书目信息或者文章信息标注)

正文碎片化(章、节、段落、小标题、图片\图题\图说、表格\注释、公式等)

知网实践(知识化)

时间

事件

人物

时间

人物

事件

图说

作者

作者

人物

时间

时间

知识数据库

知网实践(知识化)• 语义分析标引与领域知识图谱构建

• 实体抽取、实体链接、关系挖掘与抽取

• 文本到知识图谱、分类到知识地图、文献库到知识库

通用数字化加工管理系统

技术创新的集中体现

专利名称 申请号文字识别、编改的方法 201010253563.3文字识别、编改的系统 201010253559.7

一种快速排版系统及方法 201210338736.0

一种表格分析编改加工方法 201210338748.3

一种文字编改系统及编改的方法 201210338739.4

知网实践(服务落地)--重庆市图书馆民国报纸项目

知网实践(服务落地)---民国期刊《东方杂志》项目

知网实践(服务落地)---日文竖版图书

知网实践(服务落地)• 智能问答系统接受自然语言方式的提问,直接给出简洁、准确的答案。

• 基于一本书的问答/基于用户网站服务的问答/基于用户产品服务的问答

知网的实践(服务落地)

• 个性化推荐系统(用户画像)• 根据内容推荐• 根据用户推荐• 根据行为推荐• 根据社交关系推荐• 根据定制或关注推荐

知网的实践(服务落地)

• CNKI研学平台(CRSP)是以全新的文献学习和利用方式,在XML碎片化和增强出版的基础上将文献服务、知识服务深入到读者个人的研究和学习业务中,改变传统静态的版式化阅读方式,提供动态、交互、图谱化的增强阅读模式,服务个人探究式移动学习,构建新一代研学型数字图书馆。

研学型数字图书馆

传统资源型数字图书馆 终极目标是发现知识,为用户提供被动的文献信息服务

深入到用户的学习和研究业务中去以问题为导向为用户提供个性化主动的知识服务,培养创新能力