20
自自自自自自自自自自自自 自自自自自自自自自自自自 自自自自自自自自自 自自自自自自自自自 自自自 自自自自自自自自自自自自 [email protected]

自然语言理解与全信息理论 方法论的探讨及应用

Embed Size (px)

DESCRIPTION

自然语言理解与全信息理论 方法论的探讨及应用. 钟义信 北京邮电大学智能研究中心 [email protected]. NLP - NLU. NLP : 对自然语言所进行的 任何有意义的 操作。 NLU : 为了理解自然语言 而进行的各种操作。. NLP 是实现 NLU 的手段, NLU 是进行 NLP 的目的 。. 为何要特别关注 NL U 问题 ?. 社会全球化:人 - 人多语言沟通. 先进生产力:人 - 机自然语言沟通. NLP/NLU :方法论的困惑( 1 ). 理性主义(规则方法) 基本信念:“ 有限语言规则覆盖无限语言现象 ”。 - PowerPoint PPT Presentation

Citation preview

Page 1: 自然语言理解与全信息理论 方法论的探讨及应用

自然语言理解与全信息理论自然语言理解与全信息理论方法论的探讨及应用方法论的探讨及应用

钟义信北京邮电大学智能研究中心

[email protected]

Page 2: 自然语言理解与全信息理论 方法论的探讨及应用

NLP - NLUNLP - NLU

NLP :对自然语言所进行的任何有意义的操作。NLU :为了理解自然语言而进行的各种操作。

NLP 是实现 NLU 的手段, NLU 是进行 NLP 的目的。

Page 3: 自然语言理解与全信息理论 方法论的探讨及应用

为何要特别关注为何要特别关注 NLNLUU 问题问题??

社会全球化:人 - 人多语言沟通

先进生产力:人 - 机自然语言沟通

Page 4: 自然语言理解与全信息理论 方法论的探讨及应用

NLP/NLUNLP/NLU :方法论的困惑(:方法论的困惑( 11 ))

理性主义(规则方法)

基本信念:“有限语言规则覆盖无限语言现象”。

然而, ( 1 ) 语言现象无限丰富和动态开放,“规则有限性和 封闭性”受到质疑;有限性与可实现性 ( 2 ) 随着规则数量增多,可能经常产生规则之间的 矛盾冲突 ( 3 ) 人工提取规则费时费事,机器提取规则的质量 还难以保证

Page 5: 自然语言理解与全信息理论 方法论的探讨及应用

NLP-NLU :方法论的困惑( 2 )

经验主义(统计方法):

基本信念:“多者为真”

然而, ( 1 ) 统计特性的假设(符号独立或 Markov 阶数固定) 在实际语言现象中难以成立,先天不足 ( 2 ) 何谓“足够大”?即使语料库的规模很大,往往也 难以保证语料统计结构的遍历性(数据稀疏) ( 3 ) 统计方法本身的“统计平均性质”,不保证实际结 果的正确性;“多者为真”信念受到挑战

Page 6: 自然语言理解与全信息理论 方法论的探讨及应用

出路:优势互补出路:优势互补

理想的东西都不现实;现实的东西都不理想。

理性主义和经验主义虽然在理想条件下都有无穷的威力,但都受到实际条件的限制,不可能包打天下

理性主义和经验主义恰具互补特性,于是出路只有互相结合,实现优势互补。

问题:怎样互补? 语言学规则框架,统计学处理手段; 底层统计,高层理解;多层嵌套,互动互补。

Page 7: 自然语言理解与全信息理论 方法论的探讨及应用

科学方法论的变迁

全信息:主体关于“事物运动状态及其变化方式”的表述, 包括“状态 - 方式”的形式、内容和价值的表述。

现代科学:信息科学、系统科学、认知科学、智能科学 , …

现代科学方法论特点:( 1)信号与信息,( 2 )形式与内容 ( 3 )客观与主观,( 4 )确定与不定 ( 4 )分解与综合,( 6 )局部与整体现代科学方法论意义:二元科学 三元科学; 物质结构能量转换 信息机制 分解分析方法 分合互动方法

系统:相互作用的要素的有机整体;整体大于部分和

Page 8: 自然语言理解与全信息理论 方法论的探讨及应用

自然语言是认识论信息(而不是本体论信息)的载体。因此,对自然语言的理解应是对它所载荷的认识论信息的理解。

认识论信息是形式 - 内容 - 价值三位一体。因此,理解信息需要利用全信息理论。( Comprehensive Information Theory )

Shannon 信息论是全信息理论的特例,它主要适用于通信等场合。

自然语言理解与全信息自然语言理解与全信息

Page 9: 自然语言理解与全信息理论 方法论的探讨及应用

Shannon 信息的概念Shannon 信息论 ( Mathematical Theory of Communication )

( ; ) ( ) ( | )I X Y H X H X Y Y XD

( ) logn nn

H X p p

信息论的信息概念:消除随机波形不定型的东西。 是随机型的语法信息

信息论在解决通信问题方面是完美的( Perfect )理论 ;但在解决智能问题方面却无能为力( Problematic )。

Page 10: 自然语言理解与全信息理论 方法论的探讨及应用

语法信息、语义信息、语用信息的语法信息、语义信息、语用信息的三位一体三位一体。。

符号 主体客体含义 效用

语义信息语法信息

语用信息

形式

详见《信息科学原理》,第三版, 2002 年 .

全信息的基本概念全信息的基本概念

Page 11: 自然语言理解与全信息理论 方法论的探讨及应用

语义信息与语用信息语义信息与语用信息

语义信息涉及事物和公共主体

语用信息才关注效用主体

语义信息不能代替语用信息

语法信息只涉及事物本身

Page 12: 自然语言理解与全信息理论 方法论的探讨及应用

语法信息参量 : Certainty (C)

语义信息参量 : Logic Truth (T)

语用信息参量 : Utility (U)

全信息的表示全信息的表示

X x1 x2 xn xN

C c1 c2 cn cN

T t1 t2 tn tN

U u1 u2 un uN

状态矢量肯定度真实度效用度

……

…………

……

Page 13: 自然语言理解与全信息理论 方法论的探讨及应用

全信息的度量全信息的度量

I(T; X) = log 2 + {t log t + (1-t ) log (1-t )} 1/N

n=1

N

n

n n n

I(U; X) = log 2 + {u log u + (1-u ) log (1-u )}1/Nn=1

N

n n

n

n

I(C; X) = log N + c log c n nn=1

N

= log 2 + (1/N)

N

n=1

[c log c + (1-c ) log (1-c )]

n

n n n

if X is random/ Incidental;

If X is fuzzy in nature.

Page 14: 自然语言理解与全信息理论 方法论的探讨及应用

自然语言理解的层次自然语言理解的层次

理解语法信息(理解结构) : 浅层次

理解语法 - 语义信息(理解结构 - 内容):中层次

理解语法 - 语义 - 语用信息(理解结构 - 内容 - 价值):深层次

理解全信息的最小单位是语句;准确的理解往往要涉及更大的范围:语段,语篇。

Page 15: 自然语言理解与全信息理论 方法论的探讨及应用

全信息自然语言理解方法论模型全信息自然语言理解方法论模型

预处理 语用分析

语义分析

语法分析

全信息库

合法 ? 有用 ?真实 ?

++ +

Y Y YNNN

人工建构

机器学习

后处理

Page 16: 自然语言理解与全信息理论 方法论的探讨及应用

模型说明模型说明

宏观框架的完备性 : 理性主义 -- 语法信息分析 -- 语义信息分析 -- 语用信息分析

微观实现的灵活性:经验主义 / 理性主义 -- 可用统计学方法(如 VSM ) -- 可用规则推理方法 -- 可用混合方法

理性主义与经验主义:优势互补

}

三位一体

Page 17: 自然语言理解与全信息理论 方法论的探讨及应用

需要注意的问题需要注意的问题

根据问题确定理解深度

全信息与特征矢量

全信息辞典与 Ontology

Page 18: 自然语言理解与全信息理论 方法论的探讨及应用

应用举例:信息内容安全监控应用举例:信息内容安全监控(( CICCICSS ))

预处理 后处理语用分析

语义分析

语法分析

全信息库

合法句 ? 要过滤 ?相关类 ?

++ +

Y Y YNNN

人工创建

机器学习

Page 19: 自然语言理解与全信息理论 方法论的探讨及应用

应用举例应用举例Internet

搜索引擎

摘要

分类 安全分析

对话

翻译检索

全信息自然语言理解方法论

信息 -知识 -智能转换理论

知识管理

Page 20: 自然语言理解与全信息理论 方法论的探讨及应用

谢 谢 谢 谢 !!