Architecture Support for Disciplined Approximate...

sa paASPLOS 2012

Hadi EsmaeilzadehAdrian SampsonLuis CezeDoug Burger

Architecture Supportfor DisciplinedApproximate Programming

University of Washington

Microsoft Research

mobile devicesbattery usage

data centerspower & cooling costs

dark siliconutilization wall

Disciplined approximate programming

Precise Approximate✗✓references

jump targets

JPEG header

pixel data

neuron weights

audio samples

video frames

The EnerJ programming language

safely interleave approximate and precise operation

EnergyErrors EnergyErrors

Perfect correctness is not required

information retrieval

machine learning

sensory data

scientific computing

physical simulation

augmented reality

computer vision

@Approx float[] nums;⋮@Approx float total = 0.0f;for (@Precise int i = 0; i < nums.length; ++i) total += nums[i];return total / nums.length;

Disciplined approximate programmingThe EnerJ programming language

approximate data storage

approximate operations

Hardware supportfor disciplined approximate programming

TruffleCoreCompiler

EnerJ Code

TruffleCoreCompiler

Compiler-directed approximation

Simplify hardware implementation

Safety checks at compile time

No expensive checks at run time

Approximation-aware ISA

Dual-voltage microarchitecture

Energy savings results

Approximation-aware languages need:

Approximate operations

Approximate data

Fine-grained interleaving

+-÷×

registers caches main memory

ADD R1 R2 R3MOV R3 R4JMP 0x01234STL R1 0xABCDLDF R2 0xBCDEADD R1 R2 R3MOV R3 R4JMP 0x01234STL R1 0xABCDLDF R2 0xBCDEADD R1 R2 R3MOV R3 R4JMP 0x01234

Approximation-aware languages need:

Approximate operations

Approximate data

+-÷×

registers caches main memory

per instruction

per cache line

Traditional, precise semantics

ADD r1 r2 r3:

writes the sum of r1 and r2 to r3some value

Approximate semantics

ADD r1 r2 r3:

Informally: r3 gets something that approximates the sum r1 + r2.Actual error pattern depends on microarchitecture, voltage, process, variation, …

Undefined behavior

ADD r1 r2 r3:

Approximate semantics

ADD r1 r2 r3:

Informally: r3 gets something that approximates the sum r1 + r2.

No other register is modified.

Does not jump to an arbitrary address.No floating point division exception is raised.

No missiles are launched.⋮

An ISA extensionwith approximate semantics

operationsADD.aMUL.aCMPLE.a

AND.aXNOR.aSRL.a

ADDF.aDIVF.a…ALU

storageregisterscaches

main memory

LDL.aSTL.a STF.a

LDF.a …

Dual-voltage pipeline

Fetch Decode Reg Read Execute Memory Write Back

Branch Predictor

Instruction Cache

Decoder Register File

Integer FU

Data Cache

Register File

data movement & processing planecontrol plane

Register File

Integer FU

Data Cache

Register File

Integer FU

Data Cache

Integer FU

switch replicate switch(dynamic) (dynamic)(static)

Dual-voltage functional units:shadow structures

ExecuteStage

operands result

One structure isactive at a time.

Dual-voltage functional units:shadow structures

Issue width not changed(scheduler is unaware of shadowing)

Inactive unit is power-gated

No voltage change latency

Approximate storage:register modes

precise modeapproximate mode

Reads from registersin approximate modemay return any value.

ADD r1 r2 r3

ADD.a r1 r2 r3r3

The destination register’smode is set to match thewriting instruction.

r4ADD r2 r3.a r4

Register operandsmust be marked withthe register’s mode.(Otherwise, read garbage.)

Registers and caches:dual-voltage SRAMs

001110101101

precisioncolumn

dataVDDH VDDL

row selectiondata (read)+ data (write)

+ precision

DV-SRAM subarray

(for sense amplifiers and

precharge)

Registers and caches:dual-voltage SRAMs

Mixture of precise and approximate data

Instruction stream gives access levels(compiler-specified)

Approximate storage:caches

LDL.a 0x…

Data enters cache with precision of the access.Compiler: consistently treat data as approximate or precise.(Otherwise, read garbage.)

Approximate main memory

Detailed DV-SRAM design

Voltage level-shifter and mux circuits

Replicated pipeline registers

Broadcast network details

Also in the paper

0-VddHoutput

VddH VddH

0-VddHprecision 0 -Vdd(H/L)

0 -VddLoutput

0-VddHprecision

0 -Vdd(H/L)VddH

0 -Vdd(H/L)input[0]

0 -Vdd(H/L)input[1]

0 -Vdd(H/L)output

0-VddHselect

Simulated EnerJ programsPrecision-annotated Java [PLDI’11]Scientific kernels, mobile app, game engine, imaging, raytracer

Modified McPAT models for OoO (Alpha 21264) and in-order cores[Li, Ahn, Strong, Brockman, Tullsen, Jouppi; MICRO’09]65 nm process, 1666 MHz, 1.5 V nominal (VDDH)4-wide (OoO) and 2-wide (in-order)Includes overhead of additional muxing, shadow FUs, etc.

Extended CACTI for DV-SRAM structures[Muralimanohar, Balasubramonian, and Jouppi; MICRO’07]64 KB (OoO) and 32 KB (in-order) L1 cacheLine size: 16 bytesIncludes precision column overhead

Energy savings on in-order core

7–24% energy saved on averageRaytracer saves 14–43% energy

fft imagefill jmeint lu mc raytracer smm sor zxing average

0.75 V 0.94 V 1.13 V 1.31 VVDDL =

Energy savings on OoO core

Energy savings up to 17%Efficiency loss up to 5% in the worst case

fft imagefill jmeint lu mc raytracer smm sor zxing average

0.75 V 0.94 V 1.13 V 1.31 VVDDL =

Application accuracy trade-off

fft imagefill jmeint lu mc raytracer smm sor zxing

uality

10-8 10-7 10-6 10-5 10-4 10-3 10-2

Application-specific output quality metricsError resilience varies across applications

Hardware support fordisciplined approximate programming

TruffleCoreCompiler

int p = 5;@Approx int a = 7;for (int x = 0..) {

a += func(2);@Approx int z;z = p * 2;p += 4;

}a /= 9;func2(p);a += func(2);@Approx int y;z = p * 22 + z;p += 10;

Hardware support fordisciplined approximate programming

Approximation-aware ISATightly coupled with language-level precision information

Dual-voltage microarchitectureData plane can run at lower voltageLow-complexity design relying on compiler support

Significant energy savingsUp to 43% vs. a baseline in-order core

Future work ondisciplined approximate programming

Approximate accelerators

Precision-aware programmer tools

Non-voltage approximation techniques

Architecture Support for Disciplined Approximate...

Documents

convex optimization solvers modeling systems disciplined ... · EE364a Review Disciplined Convex Programming and CVX • convex optimization solvers • modeling systems • disciplined

Disciplined Approximate Computing: From Language to Hardware and Beyond University of Washington Adrian Sampson, Hadi Esmaelizadeh, 1 Michael Ringenburg,

Disciplined Informality

2. Disciplined Programming Models.pdf

Disciplined Software Testing Practices

The Disciplined Prospector

DISCIPLINED AGILE: Un nuovo Framework da conoscere e applicare · 3. Disciplined Agile Provides Context-Sensitive Advice 4. Disciplined Agile Extends Scrum 5. Disciplined Agile Enables

Disciplined Agile DevOps

Disciplined Agile 2.1

DisciplinedAgileCer/ﬁcaon* · DisciplinedAgileCer/ﬁcaon* Meaning’ HowtoEarnIt Thepersonisnewtodisciplinedagile* buteagertolearn* A9endaDADworkshop* Thepersonisnewto*disciplined

Research on Disciplined Innovation

Disciplined Trader

Disciplined Agile Delivery

Disciplined agile business analysis

Disciplined For Prayer

Approximate Load Balance Based on ID/Locator Split Routing Architecture

The Disciplined Management Process

Disciplined Convex-Concave Programmingboyd/papers/pdf/dccp.pdf · In this paper we introduce disciplined convex-concave programming (DCCP), which combines the ideas of disciplined

DISCIPLINED AGILE - pmichicagoland.starchapter.com · Disciplined Agile (DA) Disciplined Agile (DA) is a process-decision toolkit that provides straightforward guidance to help people,

Architecture Support for Disciplined Approximate …asampson/media/papers/truffle-asplos...Architecture Support for Disciplined Approximate Programming Hadi Esmaeilzadeh Adrian Sampson