Word Similarity: Distributional Similarity...

WordMeaningandSimilarity

WordSimilarity:DistributionalSimilarity(I)

Problemswiththesaurus-basedmeaning

• Wedon’thaveathesaurusforeverylanguage• Evenifwedo,theyhaveproblemswithrecall

• Manywordsaremissing• Most(ifnotall)phrasesaremissing• Someconnectionsbetweensensesaremissing• Thesauriworklesswellforverbs,adjectives• Adjectivesandverbshavelessstructuredhyponymyrelations

Distributionalmodelsofmeaning

• Alsocalledvector-spacemodelsofmeaning• Offermuchhigherrecallthanhand-builtthesauri

• Althoughtheytendtohavelowerprecision

• Zellig Harris(1954):“oculistandeye-doctor…occurinalmostthesameenvironments….IfAandBhavealmostidenticalenvironmentswesaythattheyaresynonyms.

• Firth(1957):“Youshallknowawordbythecompanyitkeeps!”3

• Alsocalledvector-spacemodelsofmeaning• Offermuchhigherrecallthanhand-builtthesauri

• Althoughtheytendtohavelowerprecision

Intuitionofdistributionalwordsimilarity

• Nida example:A bottle of tesgüino is on the tableEverybody likes tesgüinoTesgüino makes you drunkWe make tesgüino out of corn.

• Fromcontextwordshumanscanguesstesgüinomeans• analcoholicbeveragelikebeer

• Intuitionforalgorithm:• Twowordsaresimilariftheyhavesimilarwordcontexts.

As#You#Like#It Twelfth#Night Julius#Caesar Henry#Vbattle 1 1 8 15soldier 2 2 12 36fool 37 58 1 5clown 6 117 0 0

Reminder:Term-documentmatrix

• Eachcell:countoftermt inadocumentd:tft,d:• Eachdocumentisacountvectorinℕv:acolumnbelow

Reminder:Term-documentmatrix

• Twodocumentsaresimilariftheirvectorsaresimilar

Thewordsinaterm-documentmatrix

• EachwordisacountvectorinℕD:arowbelow

Thewordsinaterm-documentmatrix

• Twowords aresimilariftheirvectorsaresimilar

TheTerm-Contextmatrix

• Insteadofusingentiredocuments,usesmallercontexts• Paragraph• Windowof10words

• Awordisnowdefinedbyavectorovercountsofcontextwords

Samplecontexts:20words(Browncorpus)• equalamountofsugar,aslicedlemon,atablespoonfulofapricot

preserveorjam,apincheachofcloveandnutmeg,• onboardfortheirenjoyment.Cautiouslyshesampledherfirst

pineapple andanotherfruitwhosetasteshelikenedtothatof

• ofarecursivetypewellsuitedtoprogrammingonthedigital computer.InfindingtheoptimalR-stagepolicyfromthatof

• substantiallyaffectcommerce,forthepurposeofgatheringdataandinformation necessaryforthestudyauthorizedinthefirstsectionofthis

Term-contextmatrixforwordsimilarity

• Twowords aresimilarinmeaningiftheircontextvectorsaresimilar

aardvark computer data pinch result sugar …apricot 0 0 0 1 0 1pineapple 0 0 0 1 0 1digital 0 2 1 0 1 0information 0 1 6 0 4 0

Shouldweuserawcounts?

• Fortheterm-documentmatrix• Weused tf-idf insteadofrawtermcounts

• Fortheterm-contextmatrix• PositivePointwise MutualInformation(PPMI)iscommon

Pointwise MutualInformation• Pointwise mutualinformation:

• Doeventsxandyco-occurmorethaniftheywereindependent?

• PMIbetweentwowords:(Church&Hanks1989)• Dowordsxandyco-occurmorethaniftheywereindependent?

• PositivePMIbetweentwowords(Niwa &Nitta1994)• ReplaceallPMIvalueslessthan0withzero

PMI(X,Y ) = log2P(x,y)P(x)P(y)

PMI(word1,word2 ) = log2P(word1,word2)P(word1)P(word2)

ComputingPPMIonaterm-contextmatrix

• MatrixF withW rows(words)andC columns(contexts)• fij is#oftimeswi occursincontextcj

pij =fij

fijj=1

∑i=1

∑pi* =

fijj=1

∑i=1

∑p* j =

fiji=1

fijj=1

∑i=1

pmiij = log2pij

pi*p* jppmiij =

pmiij if pmiij > 0

0 otherwise

p(w=information,c=data)=p(w=information)=p(c=data)=

p(w,context) p(w)computer data pinch result sugar

apricot 0.00 0.00 0.05 0.00 0.05 0.11pineapple 0.00 0.00 0.05 0.00 0.05 0.11digital 0.11 0.05 0.00 0.05 0.00 0.21information 0.05 0.32 0.00 0.21 0.00 0.58

p(context) 0.16 0.37 0.11 0.26 0.11

=.326/1911/19 =.58

7/19 =.37

pij =fij

fijj=1

∑i=1

p(wi ) =fij

Np(cj ) =

fiji=1

pmiij = log2pij

pi*p* j

• pmi(information,data)=log2 (

p(w,context) p(w)computer data pinch result sugar

p(context) 0.16 0.37 0.11 0.26 0.11

PPMI(w,context)computer data pinch result sugar

apricot 1 1 2.25 1 2.25pineapple 1 1 2.25 1 2.25digital 1.66 0.00 1 0.00 1information 0.00 0.57 1 0.47 1

.32/ (.37*.58)) =.57

WeighingPMI

• PMIisbiasedtowardinfrequentevents• Variousweightingschemeshelpalleviatethis

• SeeTurney andPantel (2010)

• Add-onesmoothingcanalsohelp

Add#2%Smoothed%Count(w,context)computer data pinch result sugar

apricot 2 2 3 2 3pineapple 2 2 3 2 3digital 4 3 2 3 2information 3 8 2 6 2

p(w,context),[add02] p(w)computer data pinch result sugar

p(context) 0.19 0.25 0.17 0.22 0.17

PPMI(w,context).[add22]computer data pinch result sugar

apricot 0.00 0.00 0.56 0.00 0.56pineapple 0.00 0.00 0.56 0.00 0.56digital 0.62 0.00 0.00 0.00 0.00information 0.00 0.58 0.00 0.37 0.00

PPMI(w,context)computer data pinch result sugar

apricot 1 1 2.25 1 2.25pineapple 1 1 2.25 1 2.25digital 1.66 0.00 1 0.00 1information 0.00 0.57 1 0.47 1

Usingsyntaxtodefineaword’scontext• Zellig Harris(1968)

• “Themeaningofentities,andthemeaningofgrammaticalrelationsamongthem,isrelatedtotherestrictionofcombinationsoftheseentitiesrelativetootherentities”

• Twowordsaresimilariftheyhavesimilarparsecontexts• Duty andresponsibility (ChrisCallison-Burch’sexample)

Modifiedbyadjectives

additional,administrative,assumed,collective,congressional,constitutional…

Objectsofverbs assert,assign,assume,attendto,avoid,become,breach…

Co-occurrencevectorsbasedonsyntacticdependencies

• ThecontextsCaredifferentdependencyrelations• Subject-of- “absorb”• Prepositional-objectof“inside”

• Countsforthewordcell:

Dekang Lin,1998“AutomaticRetrievalandClusteringofSimilarWords”

PMIappliedtodependencyrelations

• “Drink it” morecommonthan“drink wine”• But“wine”isabetter“drinkable”thingthan“it”

Objectof“drink” Count PMI

it 3 1.3

anything 3 5.2

wine 2 9.3

tea 2 11.8

liquid 2 10.5

Hindle, Don. 1990. Noun Classification from Predicate-Argument Structure. ACL

Objectof“drink” Count PMItea 2 11.8

liquid 2 10.5

wine 2 9.3

anything 3 5.2

it 3 1.3

WordSimilarity:DistributionalSimilarity(I)

WordSimilarity:DistributionalSimilarity(II)

Reminder:cosineforcomputingsimilarity

cos(v, w) =v • wv w

=vv•ww=

viwii=1

N∑vi2

N∑ wi

Dot product Unit vectors

vi isthePPMIvalueforwordv incontextiwi isthePPMIvalueforwordw incontexti.

Cos(v,w)isthecosinesimilarityofv andw

Sec. 6.3

Cosineasasimilaritymetric

• -1:vectorspointinoppositedirections• +1:vectorspointinsamedirections• 0:vectorsareorthogonal

• RawfrequencyorPPMIarenon-negative,socosinerange0-1

large data computerapricot 1 0 0digital 0 1 2information 1 6 1

Whichpairofwordsismoresimilar?cosine(apricot,information)=

cosine(digital,information)=

cosine(apricot,digital)=

cos(v, w) =v • wv w

=vv•ww=

viwii=1

N∑vi2

N∑ wi

1+ 0+ 0

1+36+1

0+1+ 4

1+ 0+ 0

0+ 6+ 2

0+ 0+ 0

=838 5

Otherpossiblesimilaritymeasures

D:KLDivergence

WordSimilarity:DistributionalSimilarity(II)

Word Similarity: Distributional Similarity...

Documents

Vector Semantics Distributional Hypothesis

Word Meaning and Similarity - Texas A&M Universityfaculty.cse.tamu.edu/huangrh/Fall17/l13_1_sem_intro.pdfWord Meaning and Similarity Word Sensesand Word Relations Slides are adapted

Evaluating the Complexity of Time Series Based on Distributional Orderliness · Evaluating the Complexity of Time Series Based on Distributional Orderliness 162 similarity is too

Improving Distributional Similarity with Lessons Learned from Word Embeddings Omer Levy Yoav Goldberg Ido Dagan Bar-Ilan University Israel 1

Distributional Semantic Concept Models for Entity … · Distributional Semantic Concept Models for Entity Relation Discovery ... distributional semantic concept models of each ca

Compositional Operators in Distributional · PDF fileCompositional Operators in Distributional ... in distributional semantics. ... an introduction to compositional and distributional

Improving Distributional Similarity with Lessons …...Improving Distributional Similarity with Lessons Learned from Word Embeddings Authors: Omar Levy, Yoav Goldberg, IdoDagan Presentation:

Chapter 1 DISTRIBUTIONAL SIMILARITY AND PREPOSITION … · While nouns, verbs and adjectives have received considerable atten-tion in terms of both lexical semantic language resource

Integrating Pattern-based and Distributional Similarity Methods for Lexical …u.cs.biu.ac.il/.../uploads/Shachar_Mirkin-MSc_Thesis.pdf · · 2014-04-23Integrating Pattern-based

Word & Document Representations; Distributional Similarity

INF5820 Distributional Semantics: Extracting …...INF5820 Distributional Semantics: Extracting Meaning from Data Lecture 2 Distributional and distributed: inner mechanics of modern

Distributional Comparative Statics

Distributional semantics meets MRS? · PDF file · 2012-07-03Introduction Distributional semantics and DELPH-IN ... I Combining compositional and distributional techniques, ... I

Lecture 24 Distributional Word Similarity II Topics Distributional based word similarity example PMI context = syntactic dependenciesReadings: NLTK book

Distributional Semantics

The Distributional Denjoy Integral

Distributional Semantics - GitHub Pages › slides › distributional... · 2019-12-05 · Word embeddings (Word2Vec, GloVe, FastText) predict rather than use co-occurrence Similarity

Distributional semantic pre-filtering in context-aware ...ricci/papers/SPF-UMUAI-2016-online.pdf · Published online: 31 March 2015 ... to-situation similarity computation methods

Distributional Semantics: Word Association and Similarity

Doctoral Thesis Distributional semantic phrases vs ...eprints-phd.biblio.unitn.it/1060/1/EMVecchi_Thesis.pdf · Compositional Distributional Semantics ... in distributional semantics