Upload
others
View
17
Download
0
Embed Size (px)
Citation preview
IMICAMSIMICAMS“医学信息服务发展十年回顾与展望”信息技术研讨会
加强知识组织建设加强知识组织建设
提升医学知识服务能力提升医学知识服务能力
钱 庆
中国医学科学院医学信息研究所/图书馆
钱 庆
中国医学科学院医学信息研究所/图书馆
2010年9月17日 郑州
因特网已经“成年”
因特网不再是一门新技术 已成为绝大多技术,已成为绝大多数公众的“标准配置””
The Department of Defense’s ARPANET project, launched in 1966 to explore methods p j pfor “resource sharing among computers”, initially connected 4 nodes. Today’s Internet links more than 1.4 billion users over morelinks more than 1.4 billion users over more than 200,000 networks worldwide; with 14 new users added every second.
专家认为,临床医生平均每天必须阅读19篇专业文献,才可能跟上现代专家认为,临床医生平均每天必须阅读 篇专业文献,才可能跟上现代医学发展的速度
PUBMed数据库中2006年产生的六十多万篇文献中只有5%的文献方法PUBMed数据库中2006年产生的六十多万篇文献中只有5%的文献方法学设计完善;其中又仅只有5%的文献具有临床意义
“首先必需认识到,科研工作者都十分宝贵自己的时间,除极少数和自己工作关系十分首先必需认识到,科研工作者都十分宝贵自己的时间,除极少数和自己工作关系十分密切的论文以外,绝大多数读者都不会阅读全文。”
- 邹承鲁 “我的科学之路”,2003年10月
为什么我们需要知识组织系统?为什么我们需要知识组织系统?
谁能读这么多谁能读这么多?
谁需要读这么多?发现与创新是不是一个数字的游戏?个数
面对着“信息泛滥,知识匮乏”的现实,迫切需要从海量信息中揭示和发现隐藏于这些信息背后的知识,实现知识内容的揭示和服务
背景
— 科技信息服务模式正在转变
What I don’t know I don’t knowknowledge
What I know I don’t knowInformation
What I know I need to knowData ( document)Data ( document)
科技文献信息资源开发利用层次:随着用户信息需求日益个性化、专业化,传统的信息服务已经无法满足用户对信息的需求
What I don’t know I don’t knowknowledge知识发现(关联发现、科技监测、趋势分析)趋势分析
概念 语义RDF FRBR
RDALinked dataOntology
Semantic WebUMLSNeOnFOS
What I know I don’t knowInformation知识检索(知识导航、内容相关揭示、自然语言检索)
What I know I need to knowData ( document)Data ( document)
2010年9月25日星期六
知识服务与知识组织系统知识服务与知识组织系统
知识服务
基础
促进与
共同础
与支撑
与推动
同发展
知识组织系统(工具)
撑
知识组织系统(工具)
知识组织系统发展趋势知识组织系统 (KOS)
tructu
red 关联组织
Relationship Groups
Ontologies 本体Semantic networks 语义网络
Concept maps 概念地图
Stro
ngly
- st
强结构
分类与大致归类 Classification schemes (图书 )分类法
Relationship Groups Thesauri 叙词表 ( 主题词表 )
分类与大致归类
Classification &
Categorization: Subject Headings 标题表
Classification schemes (图书 )分类法Taxonomies 知识分类表
Categorization schemes 大致归类类表
词单Synonym Rings 同义词环Authority Files 权威文档ur
ed
Categorization: j g 标题表
词单
term lists
Authority Files 权威文档Glossaries/Dictionaries 词汇 /字典Gazetteers 地名表
Wea
kly- s
tructu
弱结构
Pick lists 可选词单
Natural language 自然语言 Controlled language 受控语言
Pick lists 可选词单
知识组织系统构建方式发展趋势
WEB网
计算机自动构建
WEB网、集中-分布混合协同
计算机辅助构建
周期短、人员少、费用低、易更新维护,但质量得不到有效保障。
局域网、分布式协同高协同、维护,但质量得不到有效保障。
单机模式
、高自动化
质量高,但周期长、人员多、费用高
单机模式化
高、更新维护难度大。
中国医学科学院医学信息研究所/图书馆
国家医学科技创新体系
国家医疗卫生事业发展 技创新体系
医学信息研究中心
生事业发展决策咨询中
心
国家医学信息资源保障与服务中
心
为我国医学科技创新提供文献保障和信息支撑服务;为医改方案制定以及国家医药卫生发展战略提供决策咨询服务
研制《卫生政策与管理知识组织工具》
2008
出版机读版《中文医学主 词词
开始研制“中文一体化医学语言系统”
1993
1994
编制出版《中国图书馆分类法(R类)与医学主题词表(M SH)对应表》
出版机读版《中文医学主题词词表》
1992
1993
持续翻译、出版《医学主题词表》
)与医学主题词表(MeSH)对应表》
1979
编委会委员,参编《中国图书馆分类法》
70年代
应
用资源组织 资源检索 分析评价、决策
用
层数据组织、信息组织、知识组织
信息检索、智能检索、知识检索、多语检索……
热点监测、聚类分析、数据关联……
知
平台、构建工具 平台 发布服务系统
识
组、工具层
构建工具、平台 发布服务系统织
系层
内概念规范 多词表映射、融合 语料库 ……统
容
层词形规范、词义规范、语义规范……
机制、规则、实现…… 术语收集、发现、规范……
中文一体化医学语言系统(CUMLS)中文 体化医学语言系统
旨在提高中文生物医学文献的计算机规范化处理能旨在提高中文生物医学文献的计算机规范化处理能
力,力求解决医学信息检索系统语言表达差异性和
相关信息分散性给检索系统使用带来的障碍
目前已初具规模 形成统 系统框架目前已初具规模,形成统一系统框架
CUMLS系统架构
词 表 发 布 服 务 系 统
CUMLS系统架构
语义
语义类型等级关系:isa 相关关系:物理 概念 功能 时间 语义关系义
网 语义类型相关关系:物理、概念、功能、时间、
空间相关……语义关系
词概念名称文档 CUI
概念
语义类型
分类
……
表系统
名称 分类
。。。。。。主题词表 分类表 医学语料库统
禁用词表
医学词表系统医学词表系统
概念名称文档、 词表类文档、任务类文档
涵盖了10余种生物医学领域的主题词表 分类表涵盖了10余种生物医学领域的主题词表、分类表、
术语表及医学语料库,收录医学核心主题概念3万余表及 学 库 收录 学核 概 余
条、医学术语10余万条、医学词汇素材30余万条
语义网语义网
思路:基于UMLS语义网架构搭建CUMLS语义网
完成完成:
在UMLS语义类型基础上对语义类型进行丰富完善,加入中国
传统医学元素
在UMLS语义关系的基础上充分考虑中文表达特点
将语义类型标识到概念名称文档的每个主题概念中,实现语
义网和词表系统两个结构的连接,建立概念间的语义关联义网 词表系统两个结构的连接 建 概念间的语义关联
应用CUMLS应用---医学文献资源组织
基于CUMLS的医学文献计算机辅助标引系统基于CUMLS的医学文献计算机辅助标引系统
是我国第 个进入实用阶段的应用系统是我国第一个进入实用阶段的应用系统
大大提高了医学文献主题标引和分类标引的自动
化处理能力
标引深度:3个主题词增至8-10个/篇 分类号由1个增至3-5个/篇标引深度:3个主题词增至8 10个/篇,分类号由1个增至3 5个/篇
处理速度:处理4万篇文献增至30万篇文献左右/年
中文文献资源及NSTL西文文献数据的处理中文文献资源及NSTL西文文献数据的处理
医学文献计算机辅助标引流程
抽取篇名、文摘、关键词
文献库 完成标引、入库
…….
副主题词映射加
分 词 特征词映射
主题词映射
加
权主题-分类映射
主题-分类映射表医学语料库自然语言 规范语言映射表然
中 文 一 体 化 医 学 语 言 系 统
自然语言-规范语言映射表然
应用CUMLS应用---医学文献资源检索主题导航检索、分类导航检索主题导航检索、分类导航检索
主题概念的扩展检索、限定检索、主题词/副主题
词的组配检索,有助于获得高质量的检索结果词的组配检索,有助于获得高质量的检索结果
提供基于自然语言的主题概念检索—智能检索,跨
语言检索语言检索
文献相关性检索
对检出结果从主题概念角度进行统计排序,显示柱对检出结果从主题概念角度进行统计排序,显示柱
状图
在热点监测、趋势预测、评价研究等方面也发挥着在热点监测、趋势预测、评价研究等方面也发挥着
积极的作用
SinoMedSinoMedSinoMedSinoMed
主题导航检索
智能检索 系统自动将用户输 的检索 转换成表达智能检索:系统自动将用户输入的检索词转换成表达同一
概念的一组词进行查询。
示例:输入“艾滋病”进行“智能检索”,系统检出含“艾滋病”、“AIDS”
“获得性免疫缺陷综合征” “获得性免疫缺陷综合症”等词的文献、“获得性免疫缺陷综合征”、“获得性免疫缺陷综合症”等词的文献。
跨语言检索跨语言检索
卫生政策知识服务平台
ArticlesArticlesReportsReports
JournalsJournals
ReportsReports
News News
DocumentsDocumentsDocumentsDocuments
InstitutionsInstitutionsPeoplePeople
ThesesThesesInstitute
PeoplePeople
Colleges
Researchers
Colleges
government
Consultants Authors
Librariesgovernment
舆情热点发现、主题聚焦
公众健康知识服务平台
公众健康知识服务平台公众健康知识服务平台
化验正常值
药物
医院
症状
正常值
疾病医生
功能需求功能需求疾病 功能需求功能需求
医疗器械
健康与环境专题
医疗器械医疗法规
总 结总 结
医学知识组织系统建设与应用是提升面向创新的医学知
识服务能力的基础,在实现医学信息资源及时动态的自
动组织、语义检索、信息分析和知识自动挖掘中发挥着动组织、语义检索、信息分析和知识自动挖掘中发挥着
越来越重要的作用
知识组织系统建设是一项长期性工作,需要持续的投入
和积累和积累
网络环境下,知识组织系统在构建维护、结构表示及应
用等方面要应对多元化、网络化、集成化、互操作化、
标准化 自动化的挑战标准化、自动化的挑战
医科院信息所-万方产学研合作模式医科院信息所 万方产学研合作模式
由浅入深、稳步推进的合作历程
医学知识组织与信息分析评价创新联合实验室
医学知识支持医科院信息所科研发展 进 步提高其在国内
各参建单位前期基础
医学知识组织
产学研产学研
展,进一步提高其在国内外相关学术领域的地位,同时为社会输送更多人才
合作领域
医学信息分析评价
合作目标
NSTL管理体制与机制
技术路线可靠性产学研合作
产学研合作
支持万方数据股份有限公 析评价支持 方数据股份有司的产品战略,增强其在国内外市场的竞争力
•万方数据:用户需求、资源合作、知识组织与关联、产品开发和市场运营方面的理论和实践经验营方面的理论和实践经验
•医科院信息所:医学知识组织、医学领域科学评价、医药卫生科技前沿热点分析、医药专利分析等方面的雄厚基础
医科院信息所-万方产学研合作内容医科院信息所 万方产学研合作内容
知识组织与信息分析评价理论方法研究1
人才培养2
合作内容
人才培养2
内
基于合作内容的资源整合及平台开发3
基于合作内容的产品研发4
开放联合 共创未来开放联合 共创未来
谢 谢!
http://www.imicams.ac.cn