74

Click here to load reader

Dirty text

Embed Size (px)

DESCRIPTION

Why is it difficult to process text data and why is it very diffcult do sentiment analysis. Methods, improvements, problems and solutions.

Citation preview

Page 1: Dirty text

   

Page 2: Dirty text

   

Page 3: Dirty text

   

Meet him

Page 4: Dirty text

   

I am a very happyyy person.... 

Page 5: Dirty text

   

I am a very happyyy person....

Page 6: Dirty text

   

Remove repetition of letters

Page 7: Dirty text

   

I am a very happyyy person.... 8­) 

Page 8: Dirty text

   

I am a very happyyy person.... 8­) 

Page 9: Dirty text

   

Convert smileys

Page 10: Dirty text

   

@raju is a very happyyy person.... :) 

Page 11: Dirty text

   

@raju is a very happyyy person.... :) 

Page 12: Dirty text

   

@sachin is a very happyyy person.... :) 

Page 13: Dirty text

   

@sachin is a very happyyy person.... :) 

Page 14: Dirty text

   

@raju @sachin is a very happyyy person.... :) 

Page 15: Dirty text

   

Getting huge data

Collecting useful data

Pre Processing

Page 16: Dirty text

   

This is f**king sHittt.I hate you  :) 

Page 17: Dirty text

   

This is f**king sHittt.I hate you  :) 

Page 18: Dirty text

   

This is s**r .Are you are watching star plus :D 

Page 19: Dirty text

   

This is s**r .Are you are watching star plus :D 

Page 20: Dirty text

   

 Don't worry about everything

Page 21: Dirty text

   

Regex                                    ­ Test before you run

Page 22: Dirty text

   

Get Large Data

Filter to Useful Data

Clean

Page 23: Dirty text

   

Get Large Data

Filter to Useful Data

Clean Data Munging

20%

Page 24: Dirty text

   

Page 25: Dirty text

   

Ask questions

Page 26: Dirty text

   

 +ve (or) ­ve ?

Page 27: Dirty text

   

???

Page 28: Dirty text

   

Page 29: Dirty text

   

Magic Box

Inputdata

Page 30: Dirty text

   

Magic Box

Inputdata

Page 31: Dirty text

   

Data modeling 60%

Page 32: Dirty text

   

Page 33: Dirty text

   

Computer is dumb machine

Page 34: Dirty text

   

HeHe what's that??

1 0 machine

Page 35: Dirty text

   

We need to tag words

Page 36: Dirty text

   

Assign numbers to text

Page 37: Dirty text

   

Page 38: Dirty text

   

Worry about adjectives first

Page 39: Dirty text

   

Awesome 4

     Ugly        ­3

      Why         0

Scores.txt

Data

Sentiment

Page 40: Dirty text

   

Less accurate why?

Page 41: Dirty text

   

Most words are ignored

Page 42: Dirty text

   

What's the solution?

Page 43: Dirty text

   

Page 44: Dirty text

   

TF­IDF

Page 45: Dirty text

   

Normal Tf­Idf = Tf * Idf

Slightly modified

Tf = score           Idf=update count

Page 46: Dirty text

   

Awesome 4

     Ugly        ­3

      good        2

Scores.txt

Data

Sentiment

Fun 2.014  5

 Soft 2.92      

           

20

Dynamic.txt

Page 47: Dirty text

   

How do we know, if it's correct?

Page 48: Dirty text

   

Page 49: Dirty text

   

Testing accuracy

Page 50: Dirty text

   

Mixed sentences

Page 51: Dirty text

   

I hate facebook, but I love twitter

Page 52: Dirty text

   

I hate facebook, but I love twitter

Page 53: Dirty text

   

I hate rahul #politics, but I love modi :) 

Page 54: Dirty text

   

I hate rahul #politics, but I love modi :) 

Page 55: Dirty text

   

Page 56: Dirty text

   

Closest possible one is pos

Page 57: Dirty text

   

Page 58: Dirty text

   

I hate facebook, but I love twitter

Page 59: Dirty text

   

I hate facebook, but I love twitter

arg1 arg2 arg3 arg4Key Word

Page 60: Dirty text

   

Main word+

Args

Tagger+

PatternPolarity

Page 61: Dirty text

   

Problems with this model

Page 62: Dirty text

   

Page 63: Dirty text

   

Training data 

Processing speed 

Page 64: Dirty text

   

I hate facebook, but I love twitter

Twitter

I love 

output

Page 65: Dirty text

   

I hate facebook, but I love twitter

facebook

I hate 

output

Page 66: Dirty text

   

Problems with this model?

Page 67: Dirty text

   

Sarup is a tech Enthusiast.He has a great taste in music. He is not only a designer 

but also startup minded.

Sarup

is a tech Enthusiast

Page 68: Dirty text

   

Co reference Resolution 

Page 69: Dirty text

   

Problems with using stanford nlp 

Page 70: Dirty text

   

Page 71: Dirty text

   

We are designing our own co reference model

Page 72: Dirty text

   

Problems?

Page 73: Dirty text

   

Page 74: Dirty text

   

Thank you