Upload
others
View
45
Download
0
Embed Size (px)
Citation preview
我研究中心的五个研究方向
LTP语言技术平台(句子级句法语义分析)
Language
Grounding
(命令执行) 阅读理解
(篇章级语义理解及推理)
知识图谱
(大词林)
作文评阅与
辅助写作 人机对话
(深度问答)
人机对话
(聊天机器人)
社会媒体
观测
社会媒体
预测
通过理解语言,实现认知社会
• 语言是思维的窗口,是人类特有的交流工具,透
过语言可以了解人的思想、情感和需求,可以认
识社会的现状,预测社会的发展趋势
自然语言处理
社会媒体处理
社会媒体
社会计算
大数据
刘挺教授
博士生导师
研究中心主任
秦兵教授 博士生导师
研究中心副主任
张宇教授 车万翔副教授 博士生导师
陈毅恒 博士/讲师
赵妍妍
博士/讲师
张伟男 博士/讲师
刘挺教授
博士生导师
研究中心主任
文本挖掘 情感分析
问答 社会计算
语言分析
丁效 博士
李生教授
重点实验室主任
深度学习(Deep Learning)简介
微软语音识别
• 1.神经网络,2.多个隐层,3.自动学习特征,4.需要大数据,5.端到端
• 在语音识别和图像识别中取得突破,在自然语言处理领域被高度重视,广泛应用,取得了一定的进展
谷歌虚拟大脑(Google Brain)
错误率减少30%以上
16000多个处理器、10亿个内部连接组
成的“虚拟大脑”,从1000万帧YouTube
的无标签图片中自主“学会”了猫的概念。
5
社会媒体(Social Media)
• 社会媒体(Social Media)
– 以社会网络(Social Network)为基
础,以互联网用户创造和传播信息
为主要形式的在线交互媒体
• 与传统媒体的显著不同点
– 大众参与发布和传播消息
• 社会媒体的类型
– 微博、微信、论坛、豆瓣、大众点
评、百科、知道、爱奇艺、淘宝问
答等等
透过社会媒体观察社会
• 虚拟社会(社会媒体)
– 是现实社会的反映(折射)
• “今天雾霾呛死人啊”
• 可能夸大
– 与现实社会相互作用
• “八达岭高速完全堵死了”
• 看到此微博的人可能会绕行
– 是现实社会的一部分
• 马伊琍:“且行且珍惜”
• 暗示原谅文章,言论也是行为
社会媒体中的客观信息
• 文本描述
– 人物节点的自我介绍
– 刻画事物
– 叙述行为、事件
• 网络结构
– 人物之间的社会网络关系;传播过程中的结构
• 时空信息
– 已标记的时空信息,需要从内容中识别的时空信息
• 操作行为
– 转发、评论、收藏、赞、签到
社会媒体中主观信息
• 观点(Opinion)
– 支持、中立、反对,“我支持异地高考”
• 情感(Sentiment)
– 喜、怒、悲、恐、惊,“太开心了”
• 意图(Intention)
– 自己想做,“我想买个土豪金”
• 建议(Suggestion)
– 希望别人做,“要是能重拍《红楼梦》就好了”
• 预测(Prediction)
– “我猜皇马能赢”
什么是基于社会媒体的预测
• 基于社会媒体的预测
– 通过对社会媒体数据的挖掘,看清事实真相,聚集群体智
慧,对事物未来的状态和发展趋势做出科学的估计
• 社会媒体对预测的作用
– 行为、事件:“我感冒了”“我家里的灯在晃”
– 观点、情感:“我支持奥巴马”
– 意图:“我想去看《致青春》”
– 预测:“我认为奥巴马能赢得大选”
各种基于社会媒体的预测
• 选举结果预测
• 电影票房预测
• 流行病预测
• 奥斯卡获奖预测
• 足球比赛冠军预测
• 股票涨跌预测
• 地震传播预测
• 信息传播预测
2012年11月4日
Twitter情绪指数
“基于社会媒体的预测”研究框架
相关关系 因果关系
基于社会媒体的预测技术 (社会媒体+人工智能的典型代表)
微博声量 统计
情感倾向性 分析
话题抽取
事件抽取 消费意图 挖掘
由因导果
执果溯因
社会媒体
研究问题 消费意图
挖掘
显式消费意图挖掘
隐式消费意图挖掘
消费意图识别
消费对象抽取
消费意图识别
消费对象推荐
好想买一部手机,求推荐 显式消费意图
孩子缺钙怎么办? 隐式消费意图
触发词抽取 需求词抽取
显式消费意图识别
• 传统方法
– 模式匹配(<触发词+NP>)
– 有指导的分类方法
• 我们的方法
– 找到弱标注数据
– 利用消费意图表达的相似性
#求推荐#我想给儿子买个玩具。
我想给老妈买营养品。
<[我[SBV],买<VOB>,给[POB]>
<[我[SBV],买<VOB>,给[POB]>
消费对象抽取
• 例子:“我想买一台空气净化机,求推荐。”
给定触发词“想买”
根据依存句法VOB关系,找到“想买”的宾语“净化机”作为消费对象核心词
根据单语词对齐模型,对消费对象核心词“净化机”补全成“空气净化机”
空气 净化机
空气 净化机
隐式消费意图与事理图谱
• 从社会媒体中发现事理关系(因果、顺承)
– 问:“我儿子三岁,医生说有些缺钙怎么办?”(来
自淘宝)
– 答:“可以给孩子补充一些贝类食品”
我老婆怀孕了
妇产
喂养
早教
…
妇产医院
戒奶
补钙
妇产医院
基于领域自适应的卷积神经网络
• 基于卷积神经网络的隐性消费意图识别方法
– 通过CNN学习文本语义特征
– 不需要人工设计特征
我老婆怀孕了
Word Representation
Convolution
Pooling
Sentence level feature
通过Word Embeddings挖掘词汇的语义表示
通过卷积将局部词汇级语义表示合成为全局的句子级语义表示
领域迁移及自适应
基于淘宝问答的消费对象推荐
• 问:“我儿子三岁,医生说有些缺钙怎么办?”(来自淘宝问答)
• 答:“可以给孩子补充一些贝类食品”
获取候选产品名
根据词搭配计算消费对象概率
根据概率进行消费对象排序
隐性消费意图识别实验
• 实验数据
– 2000万条微博文本,7600万个句子,13亿个词训练Word Embedding
– 源领域:母婴领域,5000句正例,5000句负例
– 目标领域:电影领域,500句正例,500句负例
• 实验结果
– 消费意图识别结果
消费对象推荐结果
消费意图转化行为的众包式调研
• 问题:如何知道用户的意图是否转化为行为了?
• 方法:
– 1.自动找到含有特定意图的微博
– 2.以评论的形式自动发出调查问卷
• 结果:一天之内收回4000多份问卷
问卷数 42814
用户回复数 4154
回复比例 10%
消费意图转化行为的众包式调研
• 除了“是否”回答外,我们还可以得到一些热心
用户更加详尽的回复
反馈结果
当时准备中考所以没有去
在家看碟
一般我去电影院看文章、白百合的电影美国动作、枪战片3D动画
排片太少了没有合适的场次
因为大部分人说不好看所以我就没去电影院看
当然有啦郑秀文主演的必须去影院支持的!
在电影院看了七八遍
消费意图观测方面的论文支持
• Xiao Ding, Ting Liu, Junwen Duan, Jianyun Nie. Mining User Consumption
Intention from Social Media via Domain Adaptive Convolutional Neural Network.
In Proc. of AAAI 2015
• Junwen Duan, Yiheng Chen, Ting Liu, Xiao Ding. Mining Intention-Related
Products on Online Q&A Community. Journal of Computer Science and
Technology. 2015
• 付博, 刘挺. 社交媒体用户的隐式消费意图识别. 软件学报录用. 2015
基于社会媒体用户意图的预测
突发事件1
(来自社会媒体)
网民 情绪/意愿
时间
突发事件2
网民 情绪/意愿
预测曲线
实际曲线
(如票房)
如何发现网民的情绪、意愿与事物发展趋势的相关关系 如何发现突发事件与事物发展趋势的相关关系及因果关系
基于消费意图的预测系统架构
结构化信息处理
倾向性分析
查询分析
预测模型打分
评论
讨论
预测结果
社会媒体信息获取 社会媒体信息处理 基于社会媒体的预测模型
……
消费意图挖掘
输入 输出
查询
转发
基于消费意图的电影票房预测
• 消费意图相对于情感分析更能直接揭示用户内心的真实想
法,以此为依据的预测也会更加准确
– 用户表示喜欢某部电影不代表他会去看某部电影
• 《一九四二》,叫好不叫座
– 不喜欢,不意味着不去看
• 《三抢拍案惊奇》,恶评如潮,票房很高
• 消费意图是在电影上映前可以获得的,而情感倾向性只能
在电影上映后才会发生
• 实验数据集2:在美国上映的电影
– 1718部
– 时间跨度:2005年-2009年
– 元数据特征:排片数,电影预算,演员,导演等
– 文本特征:词袋,词性,依存关系
基于高斯连接函数的票房预测结果
基于消费意图的预测方面的论文支持
• Ting Liu, Xiao Ding, Yiheng Chen, Hanchen Chen, Maosheng Guo.
Predicting Movie Box-Office Revenues by Exploiting Large-Scale. Journal
of Social Media Content. Multimedia Tools and Application. 2014.
• Junwen Duan, Xiao Ding, Ting Liu. Gaussian Copula Regression for
Movie Revenue Prediction from Social Media. In Proc. of SMP 2015.
开放域事件抽取
• 优势
– 不受事件类型数量限制
– 不受领域限制
• 三元组事件表示
– (施事,事件词,受事)
– 例子(小明,吃,馒头)
• 抽取工具
– ReVerb,华盛顿大学Anthony Fader等人开发
基于人工语义词典的解决方案
• 基于WordNet,VerbNet的事件泛化
• 缺点
– WordNet,VerbNet词覆盖有限
– 泛化到哪一级不明确,对于不同应用有不同要求
VerbNet:吃 WordNet:人
WordNet:食物
(小明,吃,馒头) (小明,啃,馒头) (小红,吃,馒头) (小明,吃,面条)
基于事件向量化的解决方案
• 事件向量化表示
– 低维度,稠密,实数值向量表示
(施事 = “微软”, 事件词 = “诉讼”, 受事 = “三星”) =
0.2860.792−0.177−0.2350.348−0.7840.9630.128−0.289
⋮
1 2 3 4 5 6 7 8 9 10
1
2
3
4
5
6
x2
x1
(施事 = “小明”, 事件词 = “吃”, 受事 = “馒头”)
(施事 = “小明”, 事件词= “啃”, 受事= “馒头”)
23
32.5
(施事 = “小红”, 事件词= “吃”, 受事= “馒头”) 2.52
基于张量神经网络的事件表示学习
• 输入:Word Embeddings
• 输出:Event Embedding
施事 受事 事件词
学习施事词与事件词之间的语义关系
学习受事词与事件词之间的语义关系
中间向量 中间向量
将中间向量进行语义合成
事件表示
事件观测方面的论文支持
• Xiao Ding, Yue Zhang, Ting Liu, Junwen Duan. Using Structured Events to
Predict Stock Price Movement: An Empirical Investigation. In Proc. of
EMNLP 2014
• Xiao Ding, Bing Qin, Ting Liu. Building Chinese Event Type Paradigm
Based on Trigger Clustering. In Proc. of IJCNLP 2013
• Xiao Ding, Bing Qin, Ting Liu. BUEES: a Bottom-Up Event Extraction
System. Journal of Frontiers of Information Technology & Electronic
Engineering. 2015
基于事件的股票涨跌预测
• 动机
– 事件可以影响人们的决策,而人们的决策行为又会影响到对
股票的买卖,这种买卖行为会导致股价的涨跌
– 传统股市预测方法更多依赖于浅层特征,例如词袋,名词短
语和命名实体
• 例子
• 需要以事件抽取为基础的预测技术
微软起诉三星侵权 → {“微软”, “起诉”, “三星”, “侵权”}
原告 被告
实验数据
• 英国路透社以及美国彭博社 2006年10月到2013年
11月的全部新闻
• 美国标普500股指数据
Download URL: http://ir.hit.edu.cn/~xding/index_english.htm/
实验结果
• 评价指标:准确率
• 评价对象:美国标普500股指涨跌情况(当日收盘价相对
于开盘价的涨跌情况)
准确率
Luss and d’Aspremont [2012] 56.42%
Ding et al. [2014] (E-NN) 58.94%
WB-NN 60.25%
WB-CNN 61.73%
E-CNN 61.45%
EB-NN 62.84%
Ding et al. [2015] (EB-CNN) 65.08%
基于事件的预测技术论文支持
• Xiao Ding, Yue Zhang, Ting Liu, Junwen Duan. Deep Learning for Event-
Driven Stock Prediction. In Proc. of IJCAI 2015
• 刘挺, 丁效, 赵森栋, 段俊文. 基于社会媒体的预测技术[J]. 中国计算机
学会通讯,2015年第3期
• 赵森栋, 刘挺. 因果关系及其在社会媒体上的应用研究综述[J]. 软件学
报, 25(12). 2015
总结
• 重视社会媒体上的意图、建议、预测等主观信息的挖
掘
• 消费意图的自动发现在商业上有重大价值
• 重视“事理图谱”的研究
• 事件(三元组)的分布式表示能够有效地进行同类事
件归并
• 深度神经网络中各隐层中的中间层能够概括不同领域
的共性,有利于领域移植
• 基于社会媒体的观测与预测,意义重大,难度也很大,
需要坚持不懈的努力