59
与与与与与与与与与与 与与 2008 与 8 与

What we are now and what we will be

Embed Size (px)

DESCRIPTION

我们所处的环境和我们可能的未来

Citation preview

Page 1: What we are now and what we will be

与《全国报刊索引》同仁座谈

刘炜2008年 8 月

Page 2: What we are now and what we will be

引言大背景技术环境

整合搜索Web2.0

2.0时代的元数据服务策略建议:开放、免费、互动、混搭

Page 3: What we are now and what we will be
Page 4: What we are now and what we will be
Page 5: What we are now and what we will be
Page 6: What we are now and what we will be

1955 书本式索引1995 索引数据库

光盘版2003 网络版

Page 7: What we are now and what we will be

网站平台的建立资源覆盖率的不断提高

服务的拓展,推出各类增值服务……

下一步?

Page 8: What we are now and what we will be

用户是谁?定位在哪?

核心竞争力是什么?与图书馆业务和书目数据什么关系?

如何可持续?

Page 9: What we are now and what we will be

User1: 我们订了《索引》订的还很全,是你们《索引》的忠实用户 me: 能说说你们为什么要订吗?有用户吗?用户用得多吗? User1: 用的不是太多,主要是想查的全,尤其是解放前 对一些社会科学与报纸很有用 me: 哦,明白了 User1: 然后通过上图进行文献传递,当然上图的价格有些贵 me: 主要是解放前的资料 ? User1: 你们的系统多少年才改进检索平台,象社会主义的态

度 me: 对于解放前的资料,其他有没有检索途径? User1: 我以前去上图开过你们的会,我还是讨论组的发言人呢。哈

哈,那时很年轻,什么都敢说 现在也许是国家图书馆?但我相信《索引》还是最全的

Page 10: What we are now and what we will be
Page 11: What we are now and what we will be

无处不在的信息:信息超载,眼球贫困无处不在的计算:手持设备 ipod/iphone/kindle

无处不在的自助服务: ATM, Webstores, eGov, eBanking

微内容的分散与聚合 Ringtones, e-News, RSS readers, My Yahoo/MSN/etc…

开放运动:开放资源、开放内容与开放存取

Page 12: What we are now and what we will be

2006年全球每年制造、复制出的数字信息量共计1610 亿 GB,中国数字信息量为 127.1 亿 GB ,占全球信息量的 7.9%;

受“富媒体”、用户创建内容和 16亿网民三大因素推动,到 2010年,全球数字信息量预计为 9880 亿GB,而中国的数字信息 量预计为 900.5亿多 GB,占全球信息量的 9.1%。

印度的数字信息量预计为 172 亿 GB,韩国的数字信息量预计为 157 亿 GB,日本的数字信息量预计为520 亿 GB。

Page 13: What we are now and what we will be

音乐作品 ( 莫扎特 ) :约 100MB 报纸 ( 华尔街杂志 ) : 100MB/ 年 ( 文本 ) 卡片目录 ( 美国国会图书馆 ) : 17GB 广播 (WABC) : 270GB/ 年 ( 未经压缩 ) 网络论坛 (Netnews) : 300GB/年 地区图书馆 ( 加州大学图书馆 ) : 1.4TB(图书扫描版 ) Internet出版 (WWW) : 1997年约 4TB 电视 (CNN新闻 ) : 1GB/1小时 , 6TB/ 年 ( 经压缩 ) 录像带出租 (Blockbuster Video) : 9TB 科研图书馆 ( 美国会图书馆 ) :全部图书馆数字化 20TB

来源:美国伯克利加州大学教授 Peter Lyman 和 Alex Internet公司总裁 Brewster Kahle所著《文化制品数字化存档行动纲要》。

Page 14: What we are now and what we will be

图书、报纸、期刊等三大传统出版业持续发展,品种增长很快。 2005年,中国共有图书出版社573家 ( 包括副牌 34家 ) ,出版图书 222473种 ( 其中新 版图书 128578种 ) ,图书总印数64.02亿册 ( 张 ) ;出版报纸 1931种,报纸总印数 412.6亿份;出版期刊 9468种,期刊总印数 27.59亿 册。

人均购书量一直徘徊在五册左右,报纸每千人天份数不到 100份,期刊人均每年只有两本多,光盘人均只有半张。

2006北京国际出版论坛

Page 15: What we are now and what we will be

中国的日报出版总量规模连续第五年居世界第一。

  根据《报告》统计,二 00四年,中国出版的日报种类已经占全球日报总量的百分之十四点五,世界每七种日报中,就有一种出自中国;而日报平均期印量逼近一亿大关,居世界第一位,中国千人日报拥用率达到七十五点八份。

  与此同时,中国报纸经济实力大幅上升,全年报纸总定价达二百五十三亿元人民币,报纸广告经营额达二百三十亿元,报纸印刷总量达到了一千五百二十六亿对开张,比上年增长近四分之一。

Page 16: What we are now and what we will be

中国期刊总数达 9468 种 1970年中国有 21种期刊,而截至今年4月底,中国期刊总数已达到 9468种。去年,中国期刊年总印数 28.5亿册,总印张134.7亿印张,定价总金额达 140亿元人民币 , 期刊业年产值达 170多亿元 。 ( 人民日报海外版 )

我国人均拥有藏书仅 0.39 册 据悉,去年,我国人均拥有藏书量为 0.39册,上海的人均拥有藏书量最多,为4.48册,安徽省最少,人均为0.15册。(新华网)

Page 17: What we are now and what we will be

多任务上网 上网任务明确 ( 如搜索信息等 )

参与性强 原则性强无意识 目的明确

获取图像 / 声音 / 视频 主要获取文本信息随机 / 发散浏览 直线地、逻辑地、顺序地浏览交互式 / 网状联系 独立地 / 个性化的联系

新生代 一般读者

Page 18: What we are now and what we will be

全球信息存在形式

纸胶片录象带

CDs数字影像磁带

硬盘文件系统

300 Exabytes

20 Exabytes

1000 Petabytes

100 Terabytes

模拟数据

离线

在线

Internet

.

10HTML

Source: Information TYO (June 1999)by Ashok Chandra, IBM Research - Almaden

Page 19: What we are now and what we will be

参照美国肯特州立大学的曾蕾教授摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004”改编。原文 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt

Page 20: What we are now and what we will be

用户

网站建设

人员培训

参考咨询

读者管理

纸质资源

ILS

用户

社区

用户

Page 21: What we are now and what we will be

社区

用户

知识组织

资源整合

门户建设

Web服务

Page 22: What we are now and what we will be

《索引》所处的技术环境:资源整合搜索技术《索引》面临的技术趋势: Web2.0用户交互技术

Page 23: What we are now and what we will be

三种方式:联邦搜索( Federation)

Z39.50/ZING非标准 ( 页面分析 )

元数据收割( Harvesting)OAI/ORE

本地获取( Gathering)Google等搜索引擎其它方式:聚合 (RSS)、登记注册

一种特例 ( 并非整合,只是链接 )OpenURL

Page 24: What we are now and what we will be

基于协议标准Z39.50/ZINGOAI-PMH/OREOpenURLWeb Services

非标准的整合页面分析“前”标准: Web2.0方法

Page 25: What we are now and what we will be

在 Web间传递信息的机制 定义

应用于 Web超链接的一种语法标准。通过预先定义的标签( Tag),增进 Web超链接能力。

规范 定义一个标准的因特网数据链接语法。让标靶( Target)可以轻易解析数据源( Source)所传送的请求。

而数据源( Source)能够很容易地对服务提供者( Target)送出深度链接服务要求。

Page 26: What we are now and what we will be
Page 27: What we are now and what we will be

来自:潘晓玲 2007硕士毕业论文《数字图书馆非标准数据资源整合检索系统的研究与实现》

Page 28: What we are now and what we will be

Web 作为平台 获得集体智慧 Collective Intelligence以数据为核心 Data is the next “Intel Inside”

永远的测试版(由于定位于服务而非软件)轻型商务模式 Lightweight business models

软件独立于设备 Software above the level of a single device

丰富的用户体验 RUE

Page 29: What we are now and what we will be

Microformat Tag/Folksonomy Mashup Greasemonkey CoINS unAPI Wedget/gadget OpenID REST

Page 30: What we are now and what we will be
Page 31: What we are now and what we will be

为特殊应用而制定的特殊格式;为特殊应用而制定的特殊格式; 可以插入网页或可以插入网页或 XMLXML 元数据中,被收割和索引;元数据中,被收割和索引; 数据可被重用、与具体应用无关;也可自定义,完全取决于应用;数据可被重用、与具体应用无关;也可自定义,完全取决于应用;

例如:例如: XFN, hcalendar, hcard, rel tags, rel license, lists and XFN, hcalendar, hcard, rel tags, rel license, lists and outlines, outlines, 等等等等…… http://microformats.org/

Page 32: What we are now and what we will be

People and Organizations hCard

Calendars and Events hCalendar

Opinions, Ratings and Reviews VoteLinks, hReview

Social Networks XFN

Licenses: rel-license

Tags, Keywords, Categories rel-tag

Lists and Outlines XOXO

http://microformats.org/about/http://microformats.org/wiki/Main_Page

Page 33: What we are now and what we will be

<div class="vcard"> <img style="float:left; margin-right:4px" src="http://www.flickr.com/photos/kevenlw/" alt="photo" class="photo"/> <a class="url fn" href="http://my.donews.com/keven/">Keven Liu</a> <div class="org">Shanghai Library</div> <a class="email" href="mailto:[email protected]">[email protected]</a> <div class="adr"> <div class="street-address">Huai Hai Zhong Road</div> <span class="locality">Shanghai</span>, <span class="region">Shanghai</span>, <span class="postal-code">200031</span> <span class="country-name">China</span> </div> <div class="tel">64455555-8311</div> <a class="url" href="aim:goim?screenname=kevenlw">AIM</a> <a class="url" href="ymsgr:sendIM?kevenlw">YIM</a><p style="font-size:smaller;">This <a href="http://microformats.org/wiki/hcard">hCard</a> created with the <a href="http://microformats.org/code/hcard/creator">hCard creator</a>.</p></div>

显示形式:Keven Liu

Shanghai [email protected] Huai Hai Zhong RoadShanghai , Shanghai ,

200031 China 64455555-8311

AIM YIM

Page 34: What we are now and what we will be

‘Microcontent’ 由 Jakob Nielsen提出,指一小段包含元数据的文本,有特定的内容,与微格式的区别是不一定有特定的编码。

microcontent is a finite collection of metadata and data that has at least one unique identity and at least one unique address on the network, and that encapsulates no more than a small number of central ideas, where the number of central ideas encapsulated is usually 1. http://novaspivack.typepad.com/nova_spivacks_weblog/2003/12/defining_microc.html

Page 35: What we are now and what we will be

微资源的产生(例如:做网络书签?); 微资源需要标识( permanent id?); 微资源需要描述( metadata); 微资源需要重组(聚合); 微资源的重用; 微资源的呈现( tag cloud?); 微资源的管理和利用需要工具( flickr/del.icio.us/blinklist/365key…)。

Page 36: What we are now and what we will be

标示,为了查找。专指度高好还是低好?每个人都回折中。

指代,索引中指代原件聚类,为了关联。分面标引集体智慧。

Page 37: What we are now and what we will be

Folksonomy 由 tag组成。 Tag 在 folksonomy中是微资源的指代物。 通过检出 tag而检出微资源。 Tag是平面的。 Tag是随意的。 Tag云图反映了 tag的权重。

Page 38: What we are now and what we will be

Tag可以排序(除了目前的字顺和权重,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数、甚至类 pagerank等);

Tag可以层级化(层次关系,例如del.icio.us目前支持的 tag类目);

Tag可以聚类(反映了资源之间的关系;经常在一起的 tag具有较为密切的关系,等等);

Tag可以规范化(同义词、反义词归并指代;用代属分参关系标注等)。

Page 39: What we are now and what we will be

什么是 MashupMashup举例

Page 40: What we are now and what we will be

一项网络应用其数据内容来自多个不同的站点通过第三方提供的公共应用程序接口 API动态组合提供服务

一般采用轻型的 Web服务 ( 基于 REST 或 SOAP)

Page 41: What we are now and what we will be

基于 XML的多种内容格式和基于这些格式的互操作 /通信协议。包括 RSS, RDF (RSS 1.1), Atom以及大量的微格式;

FOAF XFN等特别设计的格式和协议 ( 主要是基于社会型网络 social networking) 扩展了 2.0网站的功能,允许用户分布式地交互。

Page 42: What we are now and what we will be

GPS 接收十分普遍且费用低廉直观、新颖、实用成熟技术,低技术门槛数据免费 (google maps) 应用扩展性好动态性好直接用于手持设备具有社会性应用前景……

Page 43: What we are now and what we will be

一致性问题潜在的法律问题盈利模式竞争可性度问题

Page 44: What we are now and what we will be

统一的 Mashup应用程序接口注册服务(便于服务发现);

Mashup 工具的开发桌面门户的出现消灭门户:在你的客户端Mashup

杀手级应用的出现使得应用迅速普及RSS成为数据 mashup 的标准格式知识产权问题的合理妥善解决

Page 45: What we are now and what we will be

寻找现成应用的 API ( 到 2006 年 8 月 13 日 23:30共有 251 个 ) http://www.programmableweb.com/apis http://www.mashupfeed.com

获得应用 ID (API key) 有时并不需要 通常都有免费许可,免费服务通常有一定约束

仔细阅读文档 服务限制 ( 次数 / 地点 / 使用等方面 ) 关于提问式的特殊规定

编写简单代码(甚至不需要),开始 Mashup!

Page 46: What we are now and what we will be

在不同的 Web应用之间拷贝 / 粘贴数据标准方式;实现一种简便的、普适的微格式应用的传输机制

Page 47: What we are now and what we will be

任何东西都有地址 Everything URL(URI) addressable

走向社会化 Go Social随处无线接入 Wifi everywhere普遍计算 Ubiquitous computing集成、专指、移动 (synthesise, specialise, mobilise)

服务于长尾语义描述是数字图书馆服务的基础

Page 48: What we are now and what we will be

1. 更多的用户:去用户所在的地方!2. 开放元数据仓储,支持元数据交换、重用与互操作3. 开发以用户为中心的元数据

Page 49: What we are now and what we will be
Page 50: What we are now and what we will be

B.W. (前万维网时代 ) 用于印本馆藏管理规范的馆藏记录区域性合作编目系统 手工生产元数据

A.W. (后万维网时代 ) 用户社区不同,媒体类型多样记录类型繁多,来源广泛 多库存储,松散耦合,协议交

换信息 元数据记录手工创建与自动半

自动结合,包括自动抽取、转换、映射等方式

翻译自 Karen Calhoun OUR Space: the new world of metadata slide 13

Page 51: What we are now and what we will be

1. 加入本地馆藏2. 提供本地仓储3. 补充、修订元数据记录4. 提供本地服务

Page 52: What we are now and what we will be
Page 53: What we are now and what we will be

专题服务(已有)原文提供(已有)资源整合 / 全文链接文献计量、学科评价、引文分析、趋势预测平台化工具化(个人知识组织工具)

目标:占据科研的桌面,报刊索引的服务无所不在

Page 54: What we are now and what we will be

检索功能导引(文献控制)功能(利用现有的规范词表和分类体系,以及用户标注或自动生成的标签、本体)

计量功能并提供工具:个人知识管理统计分析趋势分析工具 google trends

Page 55: What we are now and what we will be

开放数据,提供工具,让用户自己进行文献计量分析主题词检索命中结果年份统计列表命中结果学科专业分布命中结果作者分布命中结果研究单位分布命中结果刊物分布(以上均可调整参数,例如“前 **位作者)

Page 56: What we are now and what we will be

会议管理(征文、信息发布、注册、日程管理、广告招商)

会议录参会信息(事件)人员信息学术信息

Page 57: What we are now and what we will be

更强大的技术:数据加工流程的改进

富语义的提取微格式的建立全文链接的实现机制

用户交互平台( 2.0)用户提供数据平台的建立(推荐刊、标签、添加目次、纠错)用户使用信息的收集反馈

管理平台实时更新发布纠错机制

更丰富的数据更高质量的服务

Page 58: What we are now and what we will be

开放数据开放,接口开放,过程开放,工具开放

免费探寻新的商务模式:以读者为伙伴最大限度地拓展用户市场,占据一席之地

互动社会化(社会性网络), 2.0化

混搭采用新的技术,发挥综合优势

Page 59: What we are now and what we will be