Upload
alexandra-morton
View
51
Download
2
Embed Size (px)
DESCRIPTION
自然语言理解与全信息理论 方法论的探讨及应用. 钟义信 北京邮电大学智能研究中心 [email protected]. NLP - NLU. NLP : 对自然语言所进行的 任何有意义的 操作。 NLU : 为了理解自然语言 而进行的各种操作。. NLP 是实现 NLU 的手段, NLU 是进行 NLP 的目的 。. 为何要特别关注 NL U 问题 ?. 社会全球化:人 - 人多语言沟通. 先进生产力:人 - 机自然语言沟通. NLP/NLU :方法论的困惑( 1 ). 理性主义(规则方法) 基本信念:“ 有限语言规则覆盖无限语言现象 ”。 - PowerPoint PPT Presentation
Citation preview
NLP - NLUNLP - NLU
NLP :对自然语言所进行的任何有意义的操作。NLU :为了理解自然语言而进行的各种操作。
NLP 是实现 NLU 的手段, NLU 是进行 NLP 的目的。
为何要特别关注为何要特别关注 NLNLUU 问题问题??
社会全球化:人 - 人多语言沟通
先进生产力:人 - 机自然语言沟通
NLP/NLUNLP/NLU :方法论的困惑(:方法论的困惑( 11 ))
理性主义(规则方法)
基本信念:“有限语言规则覆盖无限语言现象”。
然而, ( 1 ) 语言现象无限丰富和动态开放,“规则有限性和 封闭性”受到质疑;有限性与可实现性 ( 2 ) 随着规则数量增多,可能经常产生规则之间的 矛盾冲突 ( 3 ) 人工提取规则费时费事,机器提取规则的质量 还难以保证
NLP-NLU :方法论的困惑( 2 )
经验主义(统计方法):
基本信念:“多者为真”
然而, ( 1 ) 统计特性的假设(符号独立或 Markov 阶数固定) 在实际语言现象中难以成立,先天不足 ( 2 ) 何谓“足够大”?即使语料库的规模很大,往往也 难以保证语料统计结构的遍历性(数据稀疏) ( 3 ) 统计方法本身的“统计平均性质”,不保证实际结 果的正确性;“多者为真”信念受到挑战
出路:优势互补出路:优势互补
理想的东西都不现实;现实的东西都不理想。
理性主义和经验主义虽然在理想条件下都有无穷的威力,但都受到实际条件的限制,不可能包打天下
理性主义和经验主义恰具互补特性,于是出路只有互相结合,实现优势互补。
问题:怎样互补? 语言学规则框架,统计学处理手段; 底层统计,高层理解;多层嵌套,互动互补。
科学方法论的变迁
全信息:主体关于“事物运动状态及其变化方式”的表述, 包括“状态 - 方式”的形式、内容和价值的表述。
现代科学:信息科学、系统科学、认知科学、智能科学 , …
现代科学方法论特点:( 1)信号与信息,( 2 )形式与内容 ( 3 )客观与主观,( 4 )确定与不定 ( 4 )分解与综合,( 6 )局部与整体现代科学方法论意义:二元科学 三元科学; 物质结构能量转换 信息机制 分解分析方法 分合互动方法
系统:相互作用的要素的有机整体;整体大于部分和
自然语言是认识论信息(而不是本体论信息)的载体。因此,对自然语言的理解应是对它所载荷的认识论信息的理解。
认识论信息是形式 - 内容 - 价值三位一体。因此,理解信息需要利用全信息理论。( Comprehensive Information Theory )
Shannon 信息论是全信息理论的特例,它主要适用于通信等场合。
自然语言理解与全信息自然语言理解与全信息
Shannon 信息的概念Shannon 信息论 ( Mathematical Theory of Communication )
( ; ) ( ) ( | )I X Y H X H X Y Y XD
( ) logn nn
H X p p
信息论的信息概念:消除随机波形不定型的东西。 是随机型的语法信息
信息论在解决通信问题方面是完美的( Perfect )理论 ;但在解决智能问题方面却无能为力( Problematic )。
语法信息、语义信息、语用信息的语法信息、语义信息、语用信息的三位一体三位一体。。
符号 主体客体含义 效用
语义信息语法信息
语用信息
形式
详见《信息科学原理》,第三版, 2002 年 .
全信息的基本概念全信息的基本概念
语义信息与语用信息语义信息与语用信息
语义信息涉及事物和公共主体
语用信息才关注效用主体
语义信息不能代替语用信息
语法信息只涉及事物本身
语法信息参量 : Certainty (C)
语义信息参量 : Logic Truth (T)
语用信息参量 : Utility (U)
全信息的表示全信息的表示
X x1 x2 xn xN
C c1 c2 cn cN
T t1 t2 tn tN
U u1 u2 un uN
状态矢量肯定度真实度效用度
……
…………
……
全信息的度量全信息的度量
I(T; X) = log 2 + {t log t + (1-t ) log (1-t )} 1/N
n=1
N
n
n n n
I(U; X) = log 2 + {u log u + (1-u ) log (1-u )}1/Nn=1
N
n n
n
n
I(C; X) = log N + c log c n nn=1
N
= log 2 + (1/N)
N
n=1
[c log c + (1-c ) log (1-c )]
n
n n n
if X is random/ Incidental;
If X is fuzzy in nature.
自然语言理解的层次自然语言理解的层次
理解语法信息(理解结构) : 浅层次
理解语法 - 语义信息(理解结构 - 内容):中层次
理解语法 - 语义 - 语用信息(理解结构 - 内容 - 价值):深层次
理解全信息的最小单位是语句;准确的理解往往要涉及更大的范围:语段,语篇。
全信息自然语言理解方法论模型全信息自然语言理解方法论模型
预处理 语用分析
语义分析
语法分析
全信息库
合法 ? 有用 ?真实 ?
++ +
Y Y YNNN
人工建构
机器学习
后处理
模型说明模型说明
宏观框架的完备性 : 理性主义 -- 语法信息分析 -- 语义信息分析 -- 语用信息分析
微观实现的灵活性:经验主义 / 理性主义 -- 可用统计学方法(如 VSM ) -- 可用规则推理方法 -- 可用混合方法
理性主义与经验主义:优势互补
}
三位一体
需要注意的问题需要注意的问题
根据问题确定理解深度
全信息与特征矢量
全信息辞典与 Ontology
应用举例:信息内容安全监控应用举例:信息内容安全监控(( CICCICSS ))
预处理 后处理语用分析
语义分析
语法分析
全信息库
合法句 ? 要过滤 ?相关类 ?
++ +
Y Y YNNN
人工创建
机器学习
应用举例应用举例Internet
搜索引擎
摘要
分类 安全分析
对话
翻译检索
全信息自然语言理解方法论
信息 -知识 -智能转换理论
知识管理
谢 谢 谢 谢 !!