26
2019/10/24 1 主讲于俊清 http://media.hust.edu.cn 基于内容的 多媒体信息搜索 http://media.hust.edu.cn 多媒体搜索现状 MPEG-7 MPEG-21 基于内容的视频检索 搜球网简介 2 图像搜索-基于文本 Use text associated with images for search Search web for images Use surrounding text Text in URL for image filename Text in HTML on page Same as text search Example: Google Image Search for “Sunset” gives Sunset at Rocky Point in Australia Sunset Beach, Oahu Frank Smiles at Sunset Because the keyword “Sunset” was in the title of all these images Sunset at Rocky Point Sunset Beach Frank Smiles at Sunset http://media.hust.edu.cn Slide 3 图像搜索 - 基于文本 http://media.hust.edu.cn 4 图像搜索 - 基于文本 http://media.hust.edu.cn 5 http://media.hust.edu.cn 6

视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

1

主讲:于俊清

http://media.hust.edu.cn

基于内容的

多媒体信息搜索

提 纲http://media.hust.edu.cn

多媒体搜索现状

MPEG-7

MPEG-21

基于内容的视频检索

搜球网简介

2

图像搜索-基于文本

❖ Use text associated with images for search▪ Search web for images

▪ Use surrounding text• Text in URL for image filename

• Text in HTML on page

▪ Same as text search

❖ Example: Google Image Search for “Sunset” gives▪ Sunset at Rocky Point in Australia

▪ Sunset Beach, Oahu

▪ Frank Smiles at Sunset

❖ Because the keyword “Sunset” was in the title of all these images

Sunset at Rocky Point

Sunset Beach

Frank Smiles

at Sunset

http://media.hust.edu.cn

Slide 3

图像搜索-基于文本http://media.hust.edu.cn

4

图像搜索-基于文本http://media.hust.edu.cn

5

http://media.hust.edu.cn

6

Page 2: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

2

图像搜索-基于标签

❖Search over tags associated with images

▪ Users manually add

Tags to images

▪ Find images with tags

that match the query key

❖Limitations

▪ Tags require human effort to create

▪ Tags may be wrong

Alia

http://media.hust.edu.cn

Slide 7

图像的相似性搜索-以图找图

❖Query is an image❖Search finds similar images❖Similarity is defined by

features of the image▪ Color Content

• Color Histogram• Color Corellogram

▪ Image descriptors• Gradients at image keypoints• Quantize for “Visual words”

▪ Faces• Detection• Recognition

Query Image

Search Results

http://media.hust.edu.cnhttp://media.hust.edu.cn

8

图像的相似性搜索-以图找图http://media.hust.edu.cn

9

图像的相似性搜索-以图找图http://media.hust.edu.cn

10

图像的相似性搜索-以图找图http://media.hust.edu.cn

11

图像的相似性搜索-以图找图http://media.hust.edu.cn

12

Page 3: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

3

图像的相似性搜索–Faces

❖ Face Detection▪ Find faces in images▪ Search for all images with faces

▪ Ex: Google advance search for images with faces

▪ Good results!

❖ Example: ▪ FXPAL Photo Application (2004:

Girgensohn et al.)

Photo Collection

Face DetectionFaces in Photo Collection

http://media.hust.edu.cnhttp://media.hust.edu.cn

13

图像的相似性搜索–Faces

❖ Face Recognition▪ Search for all images of

a particular person ▪ Bad results!

❖ Face Similarity▪ Similarity search based

on face features▪ Use face similarity to

help manually label faces

▪ Good results!

❖User Interface for Labeling Faces▪ Drag face to label

http://media.hust.edu.cnhttp://media.hust.edu.cn

14

音频(音乐)搜索-基于文本

❖Search text fields

▪ Title

▪ Artist

▪ Album

▪ Genre

❖Example

▪ iTunes

http://media.hust.edu.cnhttp://media.hust.edu.cn

15

音频(音乐)搜索-基于文本http://media.hust.edu.cn

16

音频(音乐)搜索-基于文本http://media.hust.edu.cn

17

音频(音乐)搜索-基于哼唱

❖ Find similar sounding music ▪ Compute spectral feature vectors

(MFCC)▪ Quantize features to create audio

histogram• Audio histogram describes sounds • Order of sounds is lost

❖ Example▪ 1997: Jon Foote, FXPAL▪ Similarity of Nat King Cole and

Gregorian ChantMusic Retrieval Demo

http://www.rotorbrain.com/foote/musicr/

http://media.hust.edu.cnhttp://media.hust.edu.cn

18

Page 4: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

4

视频搜索-整段视频

❖Search for an entire video

▪ Search using surrounding text

❖Example: Google/YouTube

▪ Search for sunset

http://media.hust.edu.cnhttp://media.hust.edu.cn

19

视频搜索-整段视频http://media.hust.edu.cn

20

视频搜索-整段视频http://media.hust.edu.cn

21

视频搜索-视频片段http://media.hust.edu.cn

Video

Shots

Keyframes

Text

Transcript

Nomadic radio is characterized by it’s scalable audio and is more effective than other types of

22

Video Search – News Programs

❖ Find segments of news on a topic of interest▪ Find news story▪ Find shots within story

❖ TRECVID▪ Sponsored by NIST (National Institute of

Standards)▪ Data base of 60 hours of news video (ABC,

NBC) in 2004 – similar content other years▪ Task – user has 15 minutes to find shots

relevant to a topic

❖ Example Topics▪ “Find shots of a hockey rink with at least

one of the nets fully visible from some point of view”

▪ “Find shots zooming in on the US Capitol dome“

▪ “Find shots of Saddam Hussein”

http://media.hust.edu.cnhttp://media.hust.edu.cn

23

Video Search – News Retrieval

❖ TRECVID task is to find shots relevant to the query▪ Use keyword search and image search

❖ Keyword Search▪ Retrieve stories relevant to keyword

❖ Image Search▪ Retrieve stories with shots relevant to keyword

❖ Merge results of image and keyword search▪ Examine shots within the retrieved stories

❖ TRECVID Search▪ User enters keywords and/or images for query▪ System returns relevant stories▪ User explores stories for relevant shots

http://media.hust.edu.cnhttp://media.hust.edu.cn

24

Page 5: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

5

Story Summary Quads

❖ Query-dependent story summary▪ Use 4 highest scoring shots

▪ Allocate space proportional to score

Story thumbnailShot thumbnails

http://media.hust.edu.cnhttp://media.hust.edu.cn

25

Text query boxImage query box

Trecvid topic

text

Text search type

Trecvid topic images

Query results area

Gray visited

overlay

Relevant shots areaMedia player

and zoom area

Video timeline

Expanded shots

area

Excluded overlay

Included overlay

Selected story

http://media.hust.edu.cn

26

基于内容的多媒体检索http://media.hust.edu.cn

需求• 内容管理

• 快速准确的访问

• 个性化的内容创作与消费

• 基于内容的检索

+

查询方式

• 文本• 视觉• 听觉• 手绘图

27

基于内容的视频检索http://media.hust.edu.cn

28

语义鸿沟( Semantic Gap)http://media.hust.edu.cn

Dissimilar Percepts / Similar Concepts

John’s Car Mike’s Car

29

语义鸿沟(Semantic Gap)http://media.hust.edu.cn

Clown Nose Red Sun

Similar Percepts / Dissimilar Concepts

30

Page 6: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

6

用户鸿沟(User Gap)http://media.hust.edu.cn

31

提 纲

多媒体搜索现状

MPEG-7

MPEG-21

基于内容的视频检索

搜球网简介

http://media.hust.edu.cn

32

术 语

❖MPEG-7

▪ Multimedia Content Description Interface

❖MPEG-7 Standard

▪ No. ISO/IEC 15938

http://media.hust.edu.cn

33

From MPEG-1 to MPEG-7http://media.hust.edu.cn

90 92 94 98 99 01 07

v1 v2MPEG-1 MPEG-2 MPEG-4 MPEG-7 MPEG-21

❖MPEG-3, ever defined, but abandoned

❖MPEG-5 and -6, not defined

34

MPEG Family

❖MPEG-1 ▪ Coding of moving pictures and audio for digital

storage media (CD-ROM, MP3) 11/92❖MPEG-2

▪ Generic Coding of moving pictures and audio information (DVD, Digital TV) 11/94

❖MPEG-4 ▪ Coding of Audiovisual Objects for MM appls V1

09/98, V2 11/99❖MPEG-7

▪ Multimedia content description for AV material 08/01❖MPEG-21

▪ Digital AV framework: Integration of multimedia technologies 2/07

http://media.hust.edu.cn

35

Objective of MPEG-7

❖Standardize content-based description for various types of audiovisual information ▪ Enable fast and efficient content searching, filtering

and identification

▪ Describe several aspects of the content (low-level features, structure, semantic, models, collections, creation, etc.)

▪ Address a large range of applications

❖Types of audiovisual information ▪ Audio, speech

▪ Moving video, still pictures, graphics, 3D models

▪ Information on how objects are combined in scenes

http://media.hust.edu.cn

36

Page 7: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

7

Scope of MPEG-7http://media.hust.edu.cn

Feature Search

Extraction Engine

MPEG-7

Description

standardization

Search Engine:

Searching & filtering

Classification

Manipulation

Summarization

Indexing

MPEG-7 Scope:

Description Schemes

(DSs)

Descriptors (Ds)

Language (DDL)

Ref: MPEG-7 Concepts

Feature Extraction:

Content analysis (D, DS)

Feature extraction (D, DS)

Annotation tools (DS)

Authoring (DS)

37

Applications using MPEG-7http://media.hust.edu.cn

38

Example: Content descriptionhttp://media.hust.edu.cn

MPEG-7Database

Indexing

Fea extrac

Search

retrieval

39

Parts of the MPEG-7 Standard

❖ ISO / IEC 15938 - 1: Systems

❖ ISO / IEC 15938 - 2: Description Definition Language

❖ ISO / IEC 15938 - 3: Visual

❖ ISO / IEC 15938 - 4: Audio

❖ ISO / IEC 15938 - 5: Multimedia Description Schemes

❖ ISO / IEC 15938 - 6: Reference Software

❖ ISO / IEC 15938 - 7: Conformance Testing

❖ ISO / IEC 15938 - 8: Extraction and use of descriptions

❖ ISO / IEC 15938 - 9: Profiles and levels

❖ ISO / IEC 15938 - 10: Schema Definition

http://media.hust.edu.cn

40

Low level AV descriptorshttp://media.hust.edu.cn

Video segments

•Color

•Camera motion

•Motion activity

•Mosaic

Moving regions

•Color

•Motion trajectory

•Parametric motion

•Spatio-temporal shape

Still regions

•Color

•Shape

•Position

•Texture

Audio segments

•Spoken content

•Spectral feature

•Timbre

41

Descriptor Examplehttp://media.hust.edu.cn

<VisualDescriptor xsi:type="DominantColorType">

<SpatialCoherency>31</SpatialCoherency>

<Value>

<Percentage>31</Percentage>

<Index>255 0 0</Index>

<ColorVariance>0 0 0</ColorVariance>

</Value>

</VisualDescriptor>

42

Page 8: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

8

Dominant Color Descriptorhttp://media.hust.edu.cn

43

Motion Descriptorhttp://media.hust.edu.cn

Track left

Track right

Boom up

Boom down

Dolly

backward

Dolly

forward

Pan right

Pan left

Tilt up

Tilt downRoll

44

提 纲

多媒体搜索现状

MPEG-7

MPEG-21

基于内容的视频检索

搜球网简介

http://media.hust.edu.cn

45

术语

❖MPEG-21

▪ Multimedia Framework

❖MPEG-21 Standard

▪ No. ISO/IEC 21000

http://media.hust.edu.cn

46

MPEG-21

❖What?▪ Multimedia Framework for multimedia delivery and

consumption▪ Content creator and content consumer as focal points

❖Why?▪ Many elements (standards) exist for delivery and

consumption of multimedia contents▪ Absence of 'big picture” to describe how elements relate

to each other▪ Increase interoperability to allow existing components to

be used together by filling gaps

❖Why now?▪ HW building blocks and infrastructure in place▪ Compression, transmission, description standards are

ready

http://media.hust.edu.cn

47

MPEG-21

❖MPEG-21

▪ An open standards-based framework for

multimedia delivery and consumption

❖It aims

▪ Enable the use of multimedia resources

across a wide range of networks and devices

http://media.hust.edu.cn

48

Page 9: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

9

Parts of the MPEG-21 Standard

❖ ISO / IEC 21000 - 1: Vision, technologies, and strategy

❖ ISO / IEC 21000 - 2: Digital Item Declaration (DID)

❖ ISO / IEC 21000 - 3: Digital Item Identification (DII)

❖ ISO / IEC 21000 - 4: Intellectual property management and

protection (IPMP)

❖ ISO / IEC 21000 - 5: Rights Expression

❖ ISO / IEC 21000 - 6: Rights Data Dictionary (RDD)

❖ ISO / IEC 21000 - 7: Digital Item Adaptation (DIA)

❖ ISO / IEC 21000 - 8: Reference software

❖ ISO / IEC 21000 - 9: File format

❖ ISO / IEC 21000 - 10: Digital Item Processing (DIP)

❖ ISO / IEC 21000 - 11: Evaluation methods for persistent

association technologies

❖ ISO / IEC 21000 - 12: Test bed for MPEG-21 resource delivery

http://media.hust.edu.cn

49

MPEG-21 Objectives

❖Vision▪ To define a multimedia framework to enable transparent

use of multimedia resources across a wide range of networks and devices used by different communities

❖Purpose▪ Enable electronic creation, delivery, trade of digital

multimedia content

❖Goals ▪ Provide access to information and services from almost

anywhere at anytime with ubiquitous terminals and networks

▪ Identify, describe, manage, and protect multimedia content to support delivery chain of content creation, production, delivery, and consumption

http://media.hust.edu.cn

50

Digital Item

❖Digital Item

▪ A structured digital object with a standard representation, identification and meta-data

▪ The fundamental unit of distribution and transaction in the MPEG-21 framework

❖Digital Item = resource + metadata + structure

▪ Resource: individual asset, e.g., MPEG-2 video

▪ Metadata: descriptive information, e.g., MPEG-7

▪ Structure: relationships among parts of the item

http://media.hust.edu.cn

51

Digital Itemhttp://media.hust.edu.cn

Resources

MPEG-1

MPEG-2

MPEG-4

MPEG-7

Metadata

New Metadata

& Resource

Forms

Structure

MPEG-21

Digital Item

52

Digital Item Declaration-DID

❖Purpose & Conceptual Model ▪ Declare a Digital Item’s makeup and structure▪ Composite whole composed of various parts

❖Syntactic Representation ▪ XML-based Digital Item Declaration Language (DIDL)

❖Features▪ Hierarchical, generic structure▪ Flexible meta-data expression▪ Reusable and configurable elements

http://media.hust.edu.cn

53

DID Features

❖Domain-neutral▪ Flexible abstract structural model provides wide

applicability

❖Metadata untangled from content▪ Metadata left more accessible

❖Diverse media and metadata types supported▪ Integrates existing standards▪ Permits mixing multiple standards and proprietary formats

❖Configurable▪ Allows generation of multiple DIs from single source DI

❖After-Market markup▪ Where user may not be authorized to modify the original,

comments and highlights on DI is supported

http://media.hust.edu.cn

54

Page 10: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

10

DID Provides

❖Abstract Digital Item model▪ Structural elements

▪ Configuration elements

▪ Referential elements

▪ Special purpose elements

❖Schema for concrete DID representation▪ XML-based Digital Item Declaration Language

(DIDL)

http://media.hust.edu.cn

55

Basic Structural Elements

❖Resource

▪ Identifies or encapsulates a single media resource

▪ Places no restrictions on media types or formats

❖Statement

▪ Expresses structured set of specific metadata values

▪ MPEG-7 or other XML-based metadata

❖Component

▪ Resource combined with relevant Descriptors

http://media.hust.edu.cn

56

Digital Item Declarationhttp://media.hust.edu.cn

57

Resourcehttp://media.hust.edu.cn

58

Statementhttp://media.hust.edu.cn

59

Componenthttp://media.hust.edu.cn

60

Page 11: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

11

Digital Item Declaration Languagehttp://media.hust.edu.cn

61

Digital Item Identification

❖Purpose▪ Uniquely identify Digital Items and related entities

❖Features▪ Globally unique, like a Universal Product Code (UPC)

▪ URN based Syntax

❖Standardizes▪ Syntactical mapping to commonly used

identification systems• cIDF,

• DOI

• ISBN

• etc

http://media.hust.edu.cn

62

IPMP-Intellectual Property Management and Protection

❖Multimedia Digital Rights Management (DRM)

▪ Enables users to express their rights, interest, and agreements related to Digital Items

▪ Enables users to derive appropriate levels of assurance that those rights, interests and agreements will be persistently and reliablymanaged and protected across a wide range of networks and devices

http://media.hust.edu.cn

63

Universal Multimedia Access(UMA)http://media.hust.edu.cn

videovideo

imagesimages

audioaudio

Rich Multimedia Content

Content Adaptationfor Universal Access

Diverse Set ofTerminal Devices, User Preferences

Dynamic Network Conditions

Growing Mismatch:

Need among various devices

content adaptation,

description, and negotiation

64

Digital Item Adaptation (DIA)

❖Usage environment description tools▪ Terminal capabilities▪ Network characteristics▪ User characteristics▪ Natural environment characteristics

❖Resource adaptability tools▪ Binary media resource adaptability▪ Metadata adaptation▪ QoS management tools

❖Multimedia content format and description links❖Wide range of application domains❖ Semantically compatible with existing standards

http://media.hust.edu.cn

65

Concept of DIAhttp://media.hust.edu.cn

66

Page 12: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

12

提 纲

多媒体搜索现状

MPEG-7

MPEG-21

基于内容的视频检索

搜球网简介

http://media.hust.edu.cn

67

视频分析处理-内容提要

❖视频的组织与管理

❖特征提取

❖镜头变换检测和表达

❖关键帧提取

❖镜头聚类和镜头集合描述

❖视频索引与检索

http://media.hust.edu.cn

68

视频数据的特点

❖Data-rich & computing-intensive

▪ 25*352*240*3=6.34 MB/s (uncompressed)

▪ Terabyte video data processing (about 46hs)

❖Complex algorithms

▪ Non-structured data

▪ inter-discipline knowledge

❖Challenges for programming

▪ Real-time processing

▪ Parallelization

http://media.hust.edu.cn

69

视频的层次化组织http://media.hust.edu.cn

帧(frame):视频中的一幅图像。

镜头(Shot):摄像机一次操作所摄制的视频图像,是视频的基本单元。

场景(Scene):由一系列语义上相关、时间上相邻的镜头组成,表达一个高层抽象的概念和含义。

情节(Episode):视频中的一种语义单元,它一般描述一段故事或行动。

70

视频的层次组织-新闻视频http://media.hust.edu.cn

71

视频的层次组织-足球视频http://media.hust.edu.cn

first half break section

...

attack1... ...

attack n attack n+1...

MShot2 CShot3... ...

FieldSeg1 FieldSeg2 FieldSeg i FieldSeg i+1... ...

...

second half......

CShot t

attack2

Video sequence

LShot1

Time line

72

Page 13: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

13

视频的层次组织-体育视频http://media.hust.edu.cn

Sport Video

Section

Scene

Shot

... ... ... ... ... ... ... ... ... ... ... ... ... ...

FieldSeg

Frame

73

数字视频的结构分析http://media.hust.edu.cn

视频 Video

场景 Scene

镜头 Shot

关键帧 Key frame

镜头边界检测

关键帧提取

空域特征

(颜色、纹理、形状)

镜头聚类

时域特征

特征提取

74

MPEG-7与视频数据检索系统

❖MPEG-7标准是关于视频描述数据的标准,它为

视频描述提供了标准的模式

❖MPEG-7标准使得所有的描述数据可以与原始视

频数据分离,使得视频描述数据库的建立成为可

❖符合MPEG-7标准的视频数据描述文档主要以

XML文档的形式存在

http://media.hust.edu.cn

75

基于MPEG-7的视频数据的管理http://media.hust.edu.cn

Low-level feature

extraction

Mid-level feature

extraction

structural units

detection

semantic events

detection

Representation

video organizing

model

video description

schemes

Description

database Browsing and

retrieval

Specific-domain

knowledge

Raw video

data

Video

database

High-level feature

extraction

semantic objects

detection

visual features

extraction

audio features

extraction

Graphic User

Interface

summarization

retrieval

audio analysis

text detection

76

基于MPEG-7的视频数据管理http://media.hust.edu.cn

视频数据

视频数据

视频数据

...

视频描述数据库

视频处理模块

视频内容

提取模块

MPEG-7文

档处理模块

数据库

插入模块

网络

视频特征

提取模块手工标注模块

77

视频分析处理-内容提要

❖视频的组织与管理

❖特征提取

❖镜头变换检测和表达

❖关键帧提取

❖镜头聚类和镜头集合描述

❖视频索引与检索

http://media.hust.edu.cn

78

Page 14: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

14

特征提取

❖分析视频的需要

▪ 视频分段

▪ 镜头聚类

▪ 关键帧提取

❖检索视频的需要

▪ 视频索引

▪ 基于颜色、形状、纹理、运动、音频、关键帧的检索

http://media.hust.edu.cn

79

可以提取哪些特征?http://media.hust.edu.cn

特征

音频特征

视觉特征

时域

频域

颜色特征

纹理特征

形状特征

运动特征

文字特征

(响度、过零率、短时能量等)

(音调、频谱、和谐度等)

(直方图、主色、布局等)

(同质纹理、纹理浏览等)

(区域形状、轮廓等)

(摄象机运动、运动活力等)

(关键词、摘要等)

低级特征

80

如何提取特征?http://media.hust.edu.cn

Decoding

Image

Data

Audio

Data Feature

value

Feature

match

High-level

semantic

Color Feature

Shape Feature

Texture Feature

Motion Feature

Time Domain Feature

Frequency Domain Feature

81

视频分析处理-内容提要

❖视频的组织与管理

❖特征提取

❖镜头变换检测和表达

❖关键帧提取

❖镜头聚类和镜头集合描述

http://media.hust.edu.cn

82

镜头变换分类

❖镜头变换:指一段连续的视频图像序列变换到另

一段连续视频图像序列

❖镜头变换分类:

http://media.hust.edu.cn

突 变(Abrupt)

渐 变(Gradual)

切变(Cut)

淡入/淡出(Fade in/Fade out)

隐现(Dissolve)滑入(Wipe)……

83

镜 头 变 换 效 果 描 述切换(Cut) 前一镜头的尾帧被下一镜头的首帧快速代替

淡入/淡出(Fade in/Fade out)

某镜头的尾帧缓慢而均匀地变黑直至全部消失(淡出),或某镜头的首帧缓慢而均匀地从全黑屏幕中出现(淡入)

隐现(Dissolve) 前一镜头的尾帧缓慢而均匀地变成下一镜头的首帧

翻页(Page Translate)

前一镜头的尾帧从屏幕一边拉出,并逐渐显露出下一镜头的首帧

拉进(Slide)下一镜头的首帧从屏幕一边或一角平稳地拉进,同时前一镜

头的尾帧从另一边或一角拉出

滑入(Wipe) 下一镜头的首帧逐渐穿过并覆盖前一镜头的尾帧

弹进/弹出(Pop on/Pop off)

某镜头的首帧立即从屏幕中出现或某镜头的尾帧立即从屏幕中消失

上拉/下拉(Pull Up/Pull Down)

下一镜头的首帧如窗帘一样从屏幕顶部拉下,遮闭前一镜头的尾帧

翻转(Flip) 前一镜头的尾帧翻转,在另一面显示下一镜头的首帧

旋转(Spin) 下一镜头的首帧以旋转方式出现并覆盖前一镜头的尾帧

表1 常见的10种镜头变换http://media.hust.edu.cn

84

Page 15: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

15

例子http://media.hust.edu.cn

85

镜头变换检测方法分类

❖常用的镜头变换检测方法可以分为三大类:

▪ 基于解压的全图像序列的检测方法

▪ 直接基于压缩视频的检测方法

▪ 基于确定变换模型的检测方法

http://media.hust.edu.cn

86

(一)切变的检测

❖切变是指当前图像被下一幅图像快速代替,人的

视觉上可以感觉到一个突然的变化

❖同样在帧间差别比较上会出现一个尖峰(Peak)

❖基本原理:寻找较好的帧间差别比较方法来检出

尖峰,同时减少与其它镜头变换方式的误识别

http://media.hust.edu.cn

87

(1)模板匹配法

❖对两幅图像相同位置的像素灰度值或颜色值进行比

较,并计算各灰度差或颜色差的总和

❖计算公式:

http://media.hust.edu.cn

==

−=yx NyNx

yx

jiji yxIyxIIId

,

0,0

),(),(),(

88

模板匹配法检测结果

http://media.hust.edu.cn

89

模板匹配法的特点

❖计算方法与像素的位置密切相关

❖图像差别的计算对噪声和物体运动十分敏感

❖在镜头变换识别中,如果单纯采用模板匹配的方

法,容易造成误识别

http://media.hust.edu.cn

90

Page 16: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

16

(2)颜色直方图匹配

❖若两幅图像Ii和Ij的直方图为Hi和Hj,则颜色直方图匹配的计算公式如下:

❖对于RGB图像,颜色由不同亮度的R(红)、G(绿)、B(蓝)三基色组成,因此可以改写成:

http://media.hust.edu.cn

=

−=n

k

jiji kHkHIId1

)()(),(

( )=

−+−+−=n

k

b

j

b

i

g

j

g

i

r

j

r

ijiRGB kHkHkHkHkHkHIId1

)()()()()()(),(

91

颜色直方图匹配的特点

❖由于直方图丢失了颜色的位置信息,因此两幅图像

可能内容完全不同但直方图相似

❖仅用简单的颜色直方图匹配也容易造成误识别

❖改进方法

▪ 一种改进的方法是将图像划分成若干子块,分别

对各子块进行匹配

▪ 子块划分与匹配的方法可以对物体运动、摄像机

运动、镜头缩放等情况有更好的适应性

http://media.hust.edu.cn

92

(3)X2 直方图匹配

❖X2直方图匹配的计算公式:

❖对RGB图像,X2直方图匹配公式可以变为:

http://media.hust.edu.cn

=

−=

n

k j

ji

jikH

kHkHIId

1

2

)(

))()((),(

2 2 2

1

( ( ) ( )) ( ( ) ( )) ( ( ) ( ))( , )

( ) ( ) ( )

r r g g b bni j i j i j

i j r g bk j j j

H k H k H k H k H k H kd I I

H k H k H k=

− − −= + +

93

特点

❖若干研究表明,X2直方图匹配与其它方法如模板

匹配或颜色直方图匹配相比具有更好的识别率

❖在识别镜头切换上效果良好

❖需要注意

▪ 上述的帧间差别计算方法在镜头切换识别中往

往并不是单独采用,而是两种甚至多种方法混

合使用

http://media.hust.edu.cn

94

帧间差别

帧模板匹配

帧间差别

彩色直方图匹配

帧间差别

X2直方图匹配

http://media.hust.edu.cn

95

启发与挑战:

❖将直方图特征更换为其它特征,看效果如何?

❖阈值如何确定,能否自动设置阈值,阈值能否自

适应?

http://media.hust.edu.cn

96

Page 17: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

17

参考文献

❖JinHui Yuan, Huiyi Wang, Lan Xiao, etc. A Formal Study of Shot Boundary Detection, IEEE Transaction on Circuits and Systems for Video Technology, 2007, 17(2): 168-186

❖Alan F. Smeaton, Paul Over, Aiden R. Doherty. Video shot boundary: Seven years of TRECVID activity, Computer Vision and Image Understanding, 2010, 114:411-418

http://media.hust.edu.cn

97

(二)渐变的检测

❖渐变的检测比切变的检测要复杂得多

❖渐变在帧间差别上并没有一个可检测的尖峰存在,

而且特别容易与物体或摄像机运动相混淆

❖需要对多帧进行帧间差别计算并找到它们的变化

规律才能实现

http://media.hust.edu.cn

98

http://media.hust.edu.cn

99

(1)双重比较法-Twin Comparision

❖所谓双重比较法,简言之就是采用两个阈值来检

测镜头变换

❖设置两个阈值Tb和Ts (Ts<Tb),分别是镜头切换和

渐变的阈值

❖具体算法

▪ 首先用较低的阈值Ts来确定渐变过程的起始帧

http://media.hust.edu.cn

100

双重比较法

▪ 如果两连续帧的直方图差d(Hi,Hi+1)满足

Ts< d(Hi,Hi+1)<Tb,

则它们被认为很可能是渐变的开始

▪ 一旦检出这种帧,就开始进行帧间直方图差累计

Ac(i)

▪ 直至满足Ac(i)>Tb且d(Hi,Hi+1)<Ts,则认为是渐变

的结束

http://media.hust.edu.cn

101

(2)边缘变换识别方法http://media.hust.edu.cn

102

Page 18: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

18

(3)基于时空切片检测镜头变换http://media.hust.edu.cn

103

http://media.hust.edu.cn

104

视频分析处理-内容提要

❖视频的组织与管理

❖特征提取

❖镜头变换检测和表达

❖关键帧提取

❖镜头聚类和镜头集合描述

❖视频索引与检索

http://media.hust.edu.cn

105

关键帧(Keyframe)的定义

❖关键帧

▪ 有时也称代表帧,用于描述一个镜头的关键图

像帧,它通常会反映一个镜头的主要内容

❖依据镜头内容的复杂程度,可以从一个镜头中提取

一个或多个关键帧

http://media.hust.edu.cn

106

提取关键帧的目的

❖希望用它来静态表示视频节目的主题和部分内容,

而不是动态的细节

❖希望从关键帧中提取颜色、纹理和形状特征,以作

为视频数据库索引的数据源,而不需要对每个画面

都重复提取

❖由此可见,关键帧应具有代表性

http://media.hust.edu.cn

107

关键帧的选取原则

❖一般采用保守原则来提取关键帧,即关键帧的提

取“宁愿错,勿能少”

❖在代表特征不具体的情况下,一般以去掉重复

(或冗余)画面为原则

❖基于这一基本原则,不同的提取算法可以选取不

同的原则,建立适合自身情况的判定标准

http://media.hust.edu.cn

108

Page 19: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

19

关键帧提取的理论基础

❖原则上讲,关键帧应能提供一个镜头的全面概要,

或者说应能提供一个内容尽量丰富的概要

❖根据信息论的观点,不同(或相关性很小)的帧

图像比类似的帧图像携带更多的信息

▪ 当需要多幅关键帧时,用于关键帧提取的准则

主要是考虑它们之间的不相似性

http://media.hust.edu.cn

109

典型的关键帧提取算法

❖ 基于镜头边界提取关键帧

❖ 基于图像信息提取关键帧

❖ 基于运动分析提取关键帧

❖ 像素平均法和直方图平均法

❖ 宏块互异法

❖ 基于文字和图象信息的方法

http://media.hust.edu.cn

110

参考文献:http://media.hust.edu.cn

[1] H. Zhang, J. Wu, D. Zhong, and S. W. Smoliar, “An integrated system for

content-based video retrieval and browsing,” Pattern Recognition, vol. 30, no.

4, pp. 643-658, 1997.

[2] W. Wolf, Key frame Selection by motion analysis, in Proc. IEEE Int. Conf.

Acoust., Speech, and Signal Proc., 1996.c.

[3] Zhang Y J, Lu H B. 1999. Hierarchical video organization based on compact

representation of video units. Proc. Workshop on very Low Bitrate Video’ 99,

67-70

[4] Bilge Gunsel, Tekalp A. Murat. Content-based access to video object:

Temporal segmentation, visual summarization, and feature extraction. Signal

Processing, 66:261~280, 1998.

[5] 杨胜,钟玉琢。一种从MPEG压缩视频流中提取关键帧的方法,中国图形图象学报,2001, 3:254~258

111

(一)基于镜头边界提取关键帧

❖一段视频分割成镜头后,将每个镜头的首帧(或首帧

与末帧)作为镜头的关键帧

❖优点

▪ 实现起来较为简单,无论镜头的内容如何,关键

帧的数量都是一定的(1帧或2帧)

❖缺点:

▪ 效果不是很稳定,因为每个镜头的首帧或末帧不

一定总是能够反映镜头的主要内容

http://media.hust.edu.cn

112

(二)基于图像信息提取关键帧

❖原理:基于每一帧的颜色、纹理等视觉信息的改变

来提取关键帧,当这些信息有显著变化时,当前的

帧即可作为关键帧

▪ 把镜头的第一帧作为关键帧,并作为参考帧

▪ 计算前一个关键帧与剩余帧之差,如果差值大于

某一阈值,则再选取一个关键帧

▪ 把刚选出的帧作为参考帧,依次类推

http://media.hust.edu.cn

113

特点:

❖优点

▪ 可以根据镜头内容的变化程度选择相应数目的

关键帧

❖缺点

▪ 所选取的帧不一定具有代表意义,而且在有镜

头运动时,容易选取过多的关键帧

http://media.hust.edu.cn

114

Page 20: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

20

(三)基于运动分析提取关键帧

❖通过光流分析来计算镜头中的运动量,在运动量取

局部最小值处选取关键帧

▪ 它反映了视频数据中的静止

▪ 视频中通过摄像机在一个新的位置上停留或通过

人物的某一动作的短暂停留来强调其本身的重要

http://media.hust.edu.cn

115

特点:

❖优点

▪ 相对于前两种方法,该方法提取的关键帧代表性

较强

❖缺点

▪ 在分析运动时,需要的计算量较大,而且局部最

小值也不一定准确

http://media.hust.edu.cn

116

(四)基于文字和图象信息提取关键

❖在新闻视频中,有文字出现的帧往往是一条新闻、

一个新闻视频镜头的关键帧

❖这些视频帧最大限度地反映了新闻的主要内容,

具有极强的代表性

❖该方法首先要能够检测出有文字出现的帧,尤其

是在固定区域有文字出现的帧

http://media.hust.edu.cn

117

“局部”文字区域示意图

http://media.hust.edu.cn

118

(a) “局部”欧氏直方差

(b) 全帧欧氏直方差

http://media.hust.edu.cn

119

视频分析处理-内容提要

❖视频的组织与管理

❖特征提取

❖镜头变换检测和表达

❖关键帧提取

❖镜头聚类和镜头集合描述

❖视频索引与检索

http://media.hust.edu.cn

120

Page 21: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

21

何谓“视频聚类”?

❖视频聚类

▪ 把相似的原始视频数据按照确定的相似性测量

准则进行聚集

▪ 形成更高级的视频语义层次,以便于对视频数

据进行组织、浏览、建立索引、查询和摘要等

❖视频聚类是基于内容视频检索的基础,是迈向视

频理解的必经之路

http://media.hust.edu.cn

121

聚类的基本概念

❖聚类(Cluster)

▪ 就是将数据对象分成为多个类或簇,在同一个

簇中的对象具有较高的相似度,而不同簇中的

对象差别很大

❖聚类分析方法是一种无监督的学习方法,它是将

一些未知模式分成若干类

❖根据特征向量间的距离在一定的误差范围内相等,

则认为它们是同一类

http://media.hust.edu.cn

122

聚类方法分类

❖划分方法(Partitioning Method)

❖层次方法(Hierarchical Method)

❖基于密度的方法(Density-based Method)

❖基于网络的方法(Grid-based Method)

❖基于模型的方法( Model-based Method )

http://media.hust.edu.cn

123

常用的聚类方法

❖K-均值法

Telalp A M. 1995. Digital Video Processing.

Prentice-Hall.

❖ISODATA法

田村秀行(日)著, 赫荣威等编译. 1988. 计算机图

象处理技术.北京:北京师范大学出版社

http://media.hust.edu.cn

124

❖松弛迭代法

Kittler J, Illingworth J. Relaxation labeling

algorithms-a review. Image and vision Computing,

1985, 3(4): 206~216

❖基于关联规则的分类法

Liu B, Hsu W, Ma Y M. Integrating classification

and association rule mining. Pro, 4ICKDDM, 1998,

80~86

❖基于模糊图论聚类法

Jafrkhani H, Tarokh V. Image clustering using

fuzzy graph theory. SPIE, 2000, 3972: 245~252

http://media.hust.edu.cn

125

K-均值法

❖K-均值法是一种划分 方法

❖基本原理

▪ 给定一个n个对象的数据库,构建数据的k个划

分,每个划分表示一个聚簇,并且k≤n

▪ 也就是说,它将数据划分为k个组,同时满足如

下的要求: 每个组至少包含一个对象

▪ 每个对象必须属于且只属于一个组

http://media.hust.edu.cn

126

Page 22: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

22

❖K-均值算 法以k为参数,把n个对象分为k个簇,

以使簇内具有较高的相似度,而簇间的相似度较

▪ 随机地选择k个对象,每个对象初始地代表了

一个簇的平均值或中

▪ 对剩余的每个对象,根据其与各个簇中心的距

离,将它赋于最近的簇

▪ 重新计算每个簇的平均值 ,将每个对象重新赋

给最接近的簇

▪ 这个过程不断重复,直到平均值不再发生变化

http://media.hust.edu.cn

127

K-均值法的特点

❖K-均值算法要求用户必须事先给出k值(要求生成

的簇的数目),可能不适于某些应用

❖对于大多数视频数据的聚类,用户很难在聚类之

前给出生成的簇的数目

❖因此,视频聚类中很少采用k-平均算法,而大多

采用层次聚类算法

http://media.hust.edu.cn

128

层次聚类法

❖层次方法对给定数据对象集合进行层次的分解

❖根据层次的分解如何形成,分为凝聚的和分裂的

❖凝聚的层次聚类:自底向上

▪ 首先将每个对象作为一个簇

▪ 合并这些原子簇为越来越大的簇

▪ 直到所有的对象都在一个簇中,或者满足某个

终止条件

http://media.hust.edu.cn

129

层次聚类法http://media.hust.edu.cn

❖分裂的层次聚类:自顶向下,与凝聚的层次聚类

相反

▪ 将所有对象置于一个簇中,然后逐渐细分为越

来越小的簇,直到每个对象自成一簇,或者达

到某个终止条件

▪ 例如,达到了某个希望的数目,或者两个最近

的簇之间的距离超过了某个阈值

130

在数据对象集合上的凝聚和分裂层次聚类

http://media.hust.edu.cn

131

镜头聚类

❖场景中的镜头具有相同或相似的内容

▪ 如动作、场所和时间

❖如果镜头具有相同或相似的内容,就认为这两个镜

头是语义相关的

❖在镜头聚类为场景的过程中,主要的任务是使相同

或相似的镜头形成场景

❖关键的问题

▪ 如何确定相似的线索?如何度量镜头的相似度?

http://media.hust.edu.cn

132

Page 23: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

23

(一)镜头相似度的测量方法

❖镜头相似度测量技术主要可以分为以下两种:

▪ 基于视频帧序列的镜头相似度测量

▪ 基于镜头关键帧的镜头相似度测量

http://media.hust.edu.cn

133

(二)基于镜头相似度的镜头聚类算法

❖视频镜头的层次化聚类可以分为:

▪ 不考虑时间因素

▪ 考虑时间因素

http://media.hust.edu.cn

134

视频分析处理-内容提要

❖视频的组织与管理

❖特征提取

❖镜头变换检测和表达

❖关键帧提取

❖镜头聚类和镜头集合描述

❖视频索引与检索

http://media.hust.edu.cn

135

视频数据索引http://media.hust.edu.cn

视频数据

结构描述数据

语义描述数据

特征描述数据

结构索引

特征索引

语义索引

视频描述数据

检索条件 检索结果

视频结构相似

度距离计算

136

视频索引的分类

❖从检索方法上可以分为三种类型的索引:

▪ 目录索引(标题、类别等)

▪ 结构索引(镜头、场景等)

▪ 内容索引(场景中的角色、运动目标等)

http://media.hust.edu.cn

137

视频索引的分类

❖从索引的生成方式出发,可以将索引分为:

▪ 手工索引

▪ 半自动索引

▪ 自动索引

http://media.hust.edu.cn

138

Page 24: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

24

视频索引的分类

❖从选取的索引内容出发,还可以把视频索引分成三类:

▪ 基于注释的索引(Annotation-based Indexing)

▪ 基于特征的索引(Feature-based Indexing)

▪ 基于特定领域的索引(Domain-specific Indexing)

http://media.hust.edu.cn

139

高维数据索引结构基础

❖高维数据索引的目的

❖高维数据索引的方法

❖向量空间与度量空间

❖常见的高维索引结构

http://media.hust.edu.cn

140

高维数据索引的目的

❖降低磁盘的I/O操作次数

❖减少距离计算的次数,降低检索算法的复杂程度

http://media.hust.edu.cn

141

高维数据索引的方法

❖降维

▪ 即将高维数据索引的维度减少,用维度减少后

的数据进行相似度检索得到粗略的结果集

❖对结果集中数据按照原来的维度进行相似度计算,

最后得到精确的结果集

http://media.hust.edu.cn

142

高维数据索引的方法(续)

❖利用高维数据在空间的分布,将数据库中的数据

分散到若干个空间区域,建立高维索引结构

❖检索时通过检索数据与高维索引结构,对所有的

空间区域进行判断,删除不可能包含结果集数据

的空间区域

❖对剩下区域中的数据逐一计算相似度,得到最后

的结果集

http://media.hust.edu.cn

143

传统的索引方法

❖哈希表

▪ 数值的精确匹配

▪ 不能进行范围查询

❖B-Trees

▪ 键值的一维排序

▪ 不能搜索多维空间

http://media.hust.edu.cn

144

Page 25: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

25

常见的高维索引结构

❖ K-D-B Trees(J T Robinson SIGMOD’1981)❖ R-tree(A. Guttman SIGMOD’1984)❖ R+-tree (T. Sellis VLDB’1987)

❖ LSD-Tree (A. Henrich VLDB’1989)

❖ R*-Tree(N. Beckmann SIGMOD’1990)❖ TV-Tree (K. I. Lin VLDB’1994)❖ SS-Tree (D. A. White ICDE’1996 )

❖ VAMSplit R-Tree (D. A. White SPIE’1996)

❖ SR-Tree (N. Katayama SIGMOD’1997)

❖ M-Tree (P.Ciaccia VLDB’1997)

❖ VA-File (R. Weber VLDB’1998)

❖ Pyramid-Tree(S.Berchtold SIGMOD’1998)

❖ hybrid-Tree(K.Chakrabarti ICDE’1999)

❖ A-Tree (Y. Sakurai VLDB’2000)

❖ IQ-Tree (S. Berchtold ICDE’2000)

http://media.hust.edu.cn

145

基于内容的视频检索技术

❖基于语义的检索

❖基于样例的检索

▪ 视频特征的多样性

▪ 用户进行特征选择的多样性

http://media.hust.edu.cn

146

基于样例的视频检索

❖由用户提供检索的样例

▪ 图像、视频片段

❖由用户选择检索时进行匹配的特征集合

▪ 颜色、纹理、形状、运动、音频等

❖由用户选择特征集合中每个特征的权值

http://media.hust.edu.cn

147

参考文献

▪ Liefu Ai, Junqing Yu, Yunfeng He, Tao Guan. High-dimensional indexing for large scale content-based image retrieval: a review, Journal of Zhejiang University-SCIENCE C (Computers & Electronics), 2013, 14(7): 505-520

http://media.hust.edu.cn

148

提 纲

多媒体搜索现状

MPEG-7

MPEG-21

基于内容的视频检索

搜球网简介

http://media.hust.edu.cn

149

搜球网http://media.hust.edu.cn

150

Page 26: 视频情感计算研究小组 本学年研究工作汇报media.hust.edu.cn/download/3.2.pdfMPEG-21 What? Multimedia Framework for multimedia delivery and consumption Content creator

2019/10/24

26

搜球网http://media.hust.edu.cn

151

搜球网http://media.hust.edu.cn

152

搜球网http://media.hust.edu.cn

153

设计题

❖请查阅相关文献,撰写一篇有关某一种视频类型(如体育、新闻、电影等)的基于内容的视频搜索的综述报告

❖主要内容

▪ 国内外发展现状

▪ 存在的问题

▪ 关键技术

▪ 未来的发展方向

▪ 参考文献

http://media.hust.edu.cn

154

http://media.hust.edu.cn