Upload
florence-malone
View
115
Download
0
Embed Size (px)
DESCRIPTION
面向 21 世纪课程教材 数字图书馆原理及应用. 技术篇 ( 二 ). 赵亮 上海图书馆系统网络中心 [email protected]. 内容. 第六章:数字图书馆信息存储与检索技术( p153-188 ) 第七章:数字图书馆的互操作( p188-226 ). 重点. 掌握: 数据压缩技术原理、方法,文本压缩、多媒体压缩; p162-167 跨语言检索的实现方法; p179-185 数字图书馆异构对象数据库互操作技术; p195-197 Z39.50 协议及 Z39.83 协议其原理、模式、应用; p210 熟悉: 多媒体信息检索; p170-178 - PowerPoint PPT Presentation
Citation preview
内容 第六章:数字图书馆信息存储与检索技术( p
153-188 ) 第七章:数字图书馆的互操作( p188-226 )
重点 掌握:
数据压缩技术原理、方法,文本压缩、多媒体压缩; p162-167
跨语言检索的实现方法; p179-185数字图书馆异构对象数据库互操作技术; p195-1
97Z39.50 协议及 Z39.83 协议其原理、模式、应用;
p210 熟悉:
多媒体信息检索; p170-178互操作产生的原因; p190-191
重点 了解:
存储设备、存储技术和架构、数据备份技术、数据压缩; p153,p162
基于内容的信息检索技术;跨语言检索; p170, p178
数字图书馆的互操作及其协议和标准; p189
第六章第六章
数字图书馆信息存储数字图书馆信息存储与检索技术与检索技术
数字图书馆的存储设备 (p.153-155) 磁盘阵列 ( RAID ) 磁带库 光盘塔 光盘库 光盘网络镜像服务器
存储技术和架构 (p.155-158)
直接连接存储 ( DAS ) 网络连接存储 ( NAS ) 存储区域网 ( SAN )
三种存储架构的比较分析类型
项目DAS NAS SAN
1. 软件安装 一般 简单 复杂
2. 文件共享 差 好 很好
3. 存储操作系统 非独立 独立
4. 存储数据方式 分散 集中
5. 系统管理 复杂 简单,不易扩展 简单,更易扩展
6. 扩充性 差 好 很好
7. 传输效率,占用带宽
多 多 少
8. 备份与数据恢复 备份恢复麻烦 备份恢复方便 备份恢复集中管理,好
9. 总拥有成本 高 较低 低
10. 应用环境 适应地理上分布的环境
适 应 分 布式 异构环境
适应海量存储
数据备份技术 本地备份
DAS 网络备份
NAS 基于 SAN 的 LAN-FREE 的备份
SAN
物理空间──降低存储费用
时间空间──迅速传输媒体信源
频率空间──并行开通更多业务
数据压缩的定义与内容 p.162
数据压缩技术实现的衡量标准p.163
压缩比要大恢复后的失真小速度要快,压缩算法简单硬件开销小
数据压缩技术原理、方法 p.163-164 无损压缩是指使用压缩后的数据进行重构 (或者叫做还原,解压缩 ),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。 混合压缩是指接近于无损压缩效果的有损压缩。
文本压缩技术 p.164-167 霍夫曼( Huffman )编码 算术编码 字典压缩模型
LZW 编码游程编码
霍夫曼编码实例 , step I Assume that relative frequencies are:
A: 40 B: 20 C: 10 D: 10 R: 20
(I chose simpler numbers than the real frequencies) Smallest number are 10 and 10 (C and D), so connect
those
霍夫曼编码实例 , step II C and D have already been used, and
the new node above them (call it C+D) has value 20
The smallest values are B, C+D, and R, all of which have value 20Connect any two of these
霍夫曼编码实例 , step III
The smallest values is R, while A and B+C+D all have value 40
Connect R to either of the others
霍夫曼编码实例 , step IV
Connect the final two nodes
霍夫曼编码实例 , step V Assign 0 to left branches, 1 to right branches Each encoding is a path from the root
A = 0B = 100C = 1010D = 1011R = 11
Each path terminates at a leaf
Do you see why encoded strings are decodable?
霍夫曼编码, Unique prefix property A = 0
B = 100C = 1010D = 1011R = 11
No bit string is a prefix of any other bit string For example, if we added E=01, then A (0)
would be a prefix of E Similarly, if we added F=10, then it would be
a prefix of three other encodings (B=100, C=1010, and D=1011)
The unique prefix property holds because, in a binary tree, a leaf is not on a path to any other node
算术编码 p.165 基本思想:算术编码不是将单个信源符号映射
成一个码字,而是把真个信源表示为实数线上的 0 到 1 之间的一个区间,其长度等于该序列的概率,再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间。
采用算术编码每个符号的平均编码长度可以为小数。
算术编码举例(一)符号 00 01 10 11
概率 0.1 0.4 0.2 0.3
初始区间 [0, 0.1) [0.1, 0.5) [0.5, 0.7) [0.7, 1)
词典编码 词典编码主要利用数据本身包含许多重复的字
符串的特性。例如:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。 我们如果用一些简单的代号代替这些字符串,就可以实现压缩,实际上就是利用了信源符号之间的相关性。字符串与代号的对应表就是词典。
实用的词典编码算法的核心就是如何动态地形成词典,以及如何选择输出格式以减小冗余。
词典编码举例 词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。
LZW编码 得名于 Lempel – Ziv - Welch 。 是一种动态生成字典并编码的字典压缩
模型。具有压缩效率高、实现简单的优点,是目前最常用的无损压缩方法之一。
LZW编码算法流程初始化字典
前缀 S = 空串
C = 从输入流中读一个字符
把新串 S+C加到字典中
S = C
输出 输出 S S 的编码的编码
输出结束标记
是结尾标志吗?是
S = S+CS+C 在字典中吗?是
输出 输出 S S 的编码的编码
LZW编码实例要编码字串 : abcdabababcd
前缀 S 下一字符C
输出码 S+C新词典条目NEW CODE
a b a ab 256
b c b bc 257
c d c cd 258
d a d da 259
ab a 256 aba 260
aba b 260 abab 261
bc d 257 bcd 262
d EOF d --- ---
游程编码( RLE) 游程编码( Run-Length Encoding ):它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。
例如: RTTTTTTTTABBCDG被转换为: R#8TABBCDG ,其中“#”作为转义字符,表明其后所跟的字符表示长度。
行程编码多用于黑白二值图像的压缩中。例如00000000111111111111000001111111被转化为一系列黑串和白串长度的编码: 81257 。因为串长度并非等概率分布,所以一般要配合以统计编码( Huffman 编码)。
多媒体压缩技术 p.167-170静止图像压缩标准 JPEG
无损及有损在 20-40倍压缩比时,人眼看不出区别
活动图像压缩标准 MPEGMPEG-1
352X240 , VCD
MPEG-2 720X480 , DVD
MPEG-4
基于内容的信息检索技术 p.170-178 图像信息检索
颜色形状纹理
形状
平均颜色色彩组合
纹理
图像检索
基于内容的信息检索技术 p.170-178 动态视频信息检索
视频分割视频聚类关键帧抽取运动特性抽取视频检索
基于内容的信息检索技术 p.170-178音频信息检索
音频的类型波形声音 语音音乐
语音检索音乐检索
结构化音乐的检索 基于样本的音乐检索
跨语言信息检索技术 p.178-188 跨语言信息检索的定义
跨语言信息检索是指用户以一种语言提问,检索出另一种语言或多种语言描述的相关信息。
计算机信息检索技术机器翻译技术
跨语言信息检索技术 p.178-188 跨语言信息检索的实现方法
提问式翻译法 基于词典的方法 基于语料库的方法混合方法
文献翻译法提问式 - 文献翻译法中间翻译法不翻译法提问词构造法专有名词音译法
跨语言信息检索的技术重点翻译所需语言资源的研究翻译歧义性的消解
词典方法语料库方法
交互性系统
第七章第七章
数字图书馆的互操作数字图书馆的互操作
数字图书馆中数字资源的互操作 US IEEE 的定义
互操作性是指两个或多个系统相互使用已被交换的信息的能力 .
互操作还包括信息资源的存储、组织、检索、表示、系统间的通信、系统管理、用户管理及知识产权等问题
P.189-190
数字图书馆互操作问题产生的原因 数字信息资源的组织和结构问题 信息资源数字化中文件的命名问题 元数据问题 信息资源数字加工格式问题 体系结构方面的问题系统构架问题
p.190-191
实现互操作的协议和标准 Z39.50 OAI 基于 XML 的元数据互操作 Dienst 协议 Emerge 协议
P.191-195
数字图书馆异构对象数据库互操作的几种技术
CORBA-公共对象请求代理体系结构 中间件技术 DOM/DCOM
p.195-197
Data Provider
Data Provider
Data Provider
Data Provider数据提供者数据提供者 Data
ProviderData
Provider
Data Provider
Data Provider服务提供者服务提供者
资源仓库
资源仓库
资源仓库
OAI命令
请求
记录
回复
用户
OAIOAI 示意圖示意圖OAIOAI 示意圖示意圖
Z39.50 信息检索协议信息检索协议
ANSI/NISO Z39.50ISO 23950
客户机 / 服务器架构 , 基于连接进程的( Z 连接)Z39.50 维护管理机构 – 美国国会图书馆
http://lcweb.loc.gov/z3950/agency/Z39.50 的服务和机制
11 种机制与相应服务、服务类型、启动方
Z39.50 是客户机、服务器模式但称之为源端( Origin )与目的端
(Target)
Client/origin
Server/target
客户机 / 服务器架构
客户机 / 服务器架构
Z39.50 协议过程11 种机制 p.213-216
初始化机制搜索机制提取机制删除结果集机制浏览机制排序机制访问控制机制记帐 /资源控制机制解释机制扩展服务机制终止机制
基本 Z39.50 操作示例(最重要的三种服务)
Origin Target
Initialization OperationInit request
Init response
Search OperationSearch request
Search response
Present OperationPresent request
Present response
Z39.50 协议应用模式 p.220-223单层客户机服务器模式多层客户机服务器模式广播式查询模式
Z39.83 协议 p.223Z39.83 是由美国国家信息标准组织( NISO )制定的有关馆际互借的一种新协议,于2002年正式推出。简称 NCIP.(NISO Circulation Interchange Protocol)两个部分组成
第一部分定义了一系列的消息和相关的语法、句法规则第二部分详细第一部分的应用细则。用于支持
直接联机借阅、流通 / 馆际互借事务、自助服务流通这三大应用领域。其次也可以用于诸如电子文献资源管理等新出现的领域。
Z39.50 Item Order p.224
Z39.50 Item Order 是基于 Z39.50 扩展服务机制来进行文献借阅的一种扩展协议。
Z39.83 协议与 Z39.50 Item Order 的比较 p.225Z39.83 协议支持以下四种馆际互借模式
传统的馆际互借ISO-ILL 馆际互借NCIP Link直接运送
Z39.83 协议与 Z39.50 Item Order 相比有如下特点:
有着非常灵活的选项通过设置典型需求自助服务项目,提高了图书馆员工的工作效率,降低了运行费用
通过多个运送者,可以将用户所需要的书籍直接送到家中
查询界面可以向用户提供各种查询
Q&AQ&A
本演示文稿地址:http://www.libnet.sh.cn/sztsg/temp/index.htmhttp://www.libnet.sh.cn/sztsg/temp/index.htm