43
Seeing the Big Picture Through Big Data Onur Karadeli Mustafa Murat Sever March-2016 C1 - Public

Büyük Veriyle Büyük Resmi Görmek

Embed Size (px)

Citation preview

Page 1: Büyük Veriyle Büyük Resmi Görmek

Seeing the Big Picture Through Big Data

Onur Karadeli

Mustafa Murat Sever

March-2016C1 - Public

Page 2: Büyük Veriyle Büyük Resmi Görmek

Agenda

• What is Big Data?• Use Cases• Apache Hadoop Ecosystem• Q&A

C1 - Public

Page 3: Büyük Veriyle Büyük Resmi Görmek

Big Data ?

C1 - Public

Page 4: Büyük Veriyle Büyük Resmi Görmek

What is Big Data ?

4C1 - Public

Page 5: Büyük Veriyle Büyük Resmi Görmek

Big Data is growing (Google Trends)

5C1 - Public

Page 6: Büyük Veriyle Büyük Resmi Görmek

Definition of Big Data

Big data is a term for data sets that are so large or complex that traditional data processing applications are inadequate.

Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, querying and information privacy.

-BigData WIKIPEDIA

What is Big ?

6C1 - Public

Page 7: Büyük Veriyle Büyük Resmi Görmek

The ‘3V’ s

• Volume• Velocity• Variety

7C1 - Public

Page 8: Büyük Veriyle Büyük Resmi Görmek

Volume

• %40 Growth per year

• 50 Zettabytes by 2020

Ref:Where-is-your-data-FINAL-5a

8C1 - Public

Page 9: Büyük Veriyle Büyük Resmi Görmek

Volume Scalibility

Single TV

Multi TVs

9C1 - Public

Page 10: Büyük Veriyle Büyük Resmi Görmek

Velocity

Ref: http://wersm.com/how-much-data-is-generated-every-minute-on-social-media/10C1 - Public

Page 11: Büyük Veriyle Büyük Resmi Görmek

Velocity – Realtime triggers

11C1 - Public

Page 12: Büyük Veriyle Büyük Resmi Görmek

Variety

12

Ref: Relational Solutions

C1 - Public

Page 13: Büyük Veriyle Büyük Resmi Görmek

Additional ‘V’ s

• Veracity• Variability• Visualization• Value

Ref: http://blog.sqlauthority.com

Page 14: Büyük Veriyle Büyük Resmi Görmek

Where to Use Big Data

C1 - Public

Page 15: Büyük Veriyle Büyük Resmi Görmek

It’s a Big Family

15C1 - Public

Page 16: Büyük Veriyle Büyük Resmi Görmek

16

Human Being as a Big Data Source

C1 - Public

Page 17: Büyük Veriyle Büyük Resmi Görmek

Every moment, new data...

17C1 - Public

Page 18: Büyük Veriyle Büyük Resmi Görmek

18

They are smart now

C1 - Public

Page 19: Büyük Veriyle Büyük Resmi Görmek

Health

19https://www.youtube.com/watch?v=Lyv0_GIGSbY

C1 - Public

Page 20: Büyük Veriyle Büyük Resmi Görmek

Some professions will disappear

News reporters Sonographers LawyersSports reporters Phlebotomists Compliance officers/workersWall street reporters Radiologists Bill collectorsJournalists Psychotherapists Meeting/event plannersAuthors Counselors Fitness coachesPsychologists Cost estimators CryptographersMilitary planners Accountants Financial planners/advisorsLogisticians Dietitians Tax advisors Interpreters/translatorsNutritionists Customer service reps AuditorsDoctors Teachers

* By Thomas Frey (Senior Futurist @ Da Vinci Institute)

C1 - Public

Page 21: Büyük Veriyle Büyük Resmi Görmek

Not Only Humans ...

21C1 - Public

Page 22: Büyük Veriyle Büyük Resmi Görmek

Not Only Humans: Connected Cows !

22C1 - Public

Page 23: Büyük Veriyle Büyük Resmi Görmek

Not Only Humans: Connected Cows !

23C1 - Public

Page 24: Büyük Veriyle Büyük Resmi Görmek

New opportunities for tech companies and new brands

24C1 - Public

Page 25: Büyük Veriyle Büyük Resmi Görmek

Social Data

25C1 - Public

Page 26: Büyük Veriyle Büyük Resmi Görmek

Visuality is important

26

https://www.youtube.com/watch?v=ujcrJZRSGkg

C1 - Public

Page 27: Büyük Veriyle Büyük Resmi Görmek

Just Music

27C1 - Public

Page 28: Büyük Veriyle Büyük Resmi Görmek

Not a rocket science, but ...

28

Discover Weekly Data Flow

C1 - Public

Page 29: Büyük Veriyle Büyük Resmi Görmek

Not a rocket science, but ...

29

Implicit Matrix Factorization

C1 - Public

Page 30: Büyük Veriyle Büyük Resmi Görmek

Other trend use cases

30C1 - Public

Page 31: Büyük Veriyle Büyük Resmi Görmek

Apache Hadoop

C1 - Public

Page 32: Büyük Veriyle Büyük Resmi Görmek

Apache Hadoop • Open-Source Projects/Sub-projects of

Apache.

• Core projectsHDFS: Hadoop Distributed File SystemMapReduce: Distributed Data processing

...• Hadoop is not a database.

• Move computation to data !

• Now- %32 percent of all enterprise uses Apache Hadoop.

32C1 - Public

Page 33: Büyük Veriyle Büyük Resmi Görmek

Apache Hadoop History

• 2003 Google File system paper• 2006 Hadoop subproject created• 2008 Sort record: Running on a 910-node cluster, Hadoop sorted one

terabyte in 209 seconds• 2009 Yahoo runs 17 clusters with 24,000 machines• 2011 Facebook, LinkedIn, eBay and IBM collectively contribute 200,000

lines of code

Ref: https://en.wikipedia.org/wiki/Apache_Hadoop

33C1 - Public

Page 34: Büyük Veriyle Büyük Resmi Görmek

Apache Hadoop Base Components & Enablers

Ref: http://synerzip.com - Innovation – It’s in our DNA

34C1 - Public

Page 35: Büyük Veriyle Büyük Resmi Görmek

BI & Visualization example

35

Ref: http://forums.bsdinsight.com/articles/?page=4

C1 - Public

Page 36: Büyük Veriyle Büyük Resmi Görmek

Hadoop Platforms

Ecosystem Management Software for Platform Management.

36

Examples:• Cloudera• Hortonworks• IBM• Pivotal

C1 - Public

Page 37: Büyük Veriyle Büyük Resmi Görmek

HDFS File Storage Architecture

37C1 - Public

Page 38: Büyük Veriyle Büyük Resmi Görmek

Hadoop Topology

38C1 - Public

Page 39: Büyük Veriyle Büyük Resmi Görmek

Task Management

39C1 - Public

Page 40: Büyük Veriyle Büyük Resmi Görmek

Map & Reduce

40C1 - Public

Page 41: Büyük Veriyle Büyük Resmi Görmek

The Best Big Data Team should have ...

41

• Data Hygienists – for clean data

• Data Explorers – discover data to use

• Business Solution Architects – combine data for a use case

• Data Scientists – for the right model

• Campaign Expert – for the best benefit

* From HBR : https://hbr.org/2013/07/five-roles-you-need-on-your-bi

C1 - Public

Page 42: Büyük Veriyle Büyük Resmi Görmek

Data Scientists Skills

42C1 - Public

Page 43: Büyük Veriyle Büyük Resmi Görmek

Thank you

C1 - Public