21
Solving the Scalability Challenge from the Ground Up Justin Y. Shi | [email protected] Data Cloud 2015 6 th International Workshop on Data Intensive Computing in the Clouds

Solving the Scalability Challenge from the Ground Up

  • Upload
    temple

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Solving the Scalability Challenge from the Ground Up

Justin Y. Shi | [email protected]

Data Cloud 20156th International Workshop on Data Intensive Computing in the Clouds

Scalability Dilemma = Difficulty to Expand

Performance v.s. Reliability

Scalability Dilemma for HPC Applications ‐> An Oxy Moron?

Lessons from the History

Circuit‐Switching NetworkPacket‐Switching Network

• Fast• Expensive to Maintain• Difficult to Scale• (Dedicated switch to data at a time)

• Slower• Cheap to Maintain• Infinitely Scalable• (Data decoupled from 

switches)

TodayAll Internet Traffic are Packet Switched

The Scalability Dilemma is …

“the Dedicated Resource Syndrome” Fixed program/data ‐processor binding Decoupled ‐>Unbounded Growth

Reliability Performance

Needs a Solution to CAP Theorem 

Data Clouds Are Harder to Protect 

Correctness of Distributed Program‐ProgramCoordination – One Way to Look at This Mess…

Program and Data Must be Decoupled from Hardware

Requirement 1: Zero Data Loss

Requirement 2:  Zero Single Point Failure

Requirement 3: Infinitely Scalable 

Electronics are Less Reliable

Impossibility Theories

It is Hard to Wait Correctly

Bounded Wait

Unbounded Wait Impossibility

User’s Perspective

Decoupling is Happening at SC15  … <Key, Value> …

What About Data Intensive HPC Cloud?

Booth #299

100% Reliable Distributed Computing(when R > minimal survival set Rs)

Statistic Multiplexed Computing (SMC)

Application‐Level Tuple Switching Network

Implementations Anka

Synergy

Tuning Can Make SMC Faster Than MPI

Synchronous Replication in Realtime in Memory

Summary

CAP Should All be Satisfied

Zero Single Point Failure

Decoupling is the Only SolutionVisit Booth #299 for More Details

Acknowledgements

• Reported CI architecture research is supported in part by National Science Foundation (MRI Grant #CNS0958854)

• DI architecture research is supported in part by Ben Franklin Technology Partners and private investors of Parallel Computers Technology Inc.

• NCAR for Yellowstone benchmark effort

Questions?

Synergy 3.0+ Source CodeCopy of This Presentation