10
Contents at a Glance PART I Introduction 1 Introduction to Big Data 3 2 The Value of Big Data 11 PART II Big Data Platform 3 The Apache Hadoop Platform 37 4 Why an Appliance? 51 5 BDA Configurations, Deployment Architectures, and Monitoring 79 6 Integrating the Data Warehouse and Analytics Infrastructure to Big Data 125 7 BDA Connectors 133 8 Oracle NoSQL Database 181 PART III Analyzing Information and Making Decisions 9 In-Database Analytics: Delivering Faster Time to Value 205 10 Analyzing Data with R 251 11 Endeca Information Discovery 325 12 Big Data Governance 357 13 Developing Architecture and Roadmap for Big Data 393 Index 423 ix

Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Contents at a Glance

PART IIntroduction

1 Introduction to Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 The Value of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

PART IIBig Data Platform

3 The Apache Hadoop Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4 Why an Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 BDA Configurations, Deployment Architectures, and Monitoring . . . . . . . . . . 79

6 Integrating the Data Warehouse and Analytics Infrastructure to Big Data . . . . 125

7 BDA Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8 Oracle NoSQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

PART IIIAnalyzing Information and Making Decisions

9 In-Database Analytics: Delivering Faster Time to Value . . . . . . . . . . . . . . . . . 205

10 Analyzing Data with R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

11 Endeca Information Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

12 Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357

13 Developing Architecture and Roadmap for Big Data . . . . . . . . . . . . . . . . . . . 393

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 / Blind folio: ix

ix

00-FM.indd 9 8/14/13 1:56 PM

Page 2: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Contents

Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiIntroduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxv

PART IIntroduction

1 Introduction to Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4Google’s MapReduce Algorithm and Apache Hadoop . . . . . . . . . . . . . . . . . 5Oracle’s Big Data Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 The Value of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Am I Big Data, or Is Big Data Me? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Big Data, Little Data—It’s Still Me . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

What Happened? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Now What? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Reality, Check Please! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18What Do You Make of It? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Information Chain Reaction (ICR) . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Big Data, Big Numbers, Big Business? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Facebook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25Internal Source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25ICR: Connect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26ICR: Change . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 / Blind folio: xi

xi

00-FM.indd 11 8/14/13 1:56 PM

Page 3: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

xii Oracle Big Data Handbook

Wanted: Big Data Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Big Data Example 1: Clinical Trial Research

Within the Healthcare Industry . . . . . . . . . . . . . . . . . . . . . . . . . . . 30Example 2: Improvements in Car Design for

Driver Safety Within the Automotive Industry . . . . . . . . . . . . . . . . 31Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

PART IIBig Data Platform

3 The Apache Hadoop Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37Software vs. Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39The Hadoop Software Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Hadoop Distributions and Versions . . . . . . . . . . . . . . . . . . . . . . . . . . 40The Hadoop Distributed File System (HDFS) . . . . . . . . . . . . . . . . . . . 40Scheduling, Compute, and Processing . . . . . . . . . . . . . . . . . . . . . . . . 43

Operating System Choices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45I/O and the Linux Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

The Hadoop Hardware Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46CPU and Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Disk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Putting It All Together . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4 Why an Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Why Would Oracle Create

a Big Data Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52What Is an Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53What Are the Goals of

Oracle Big Data Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54Optimizing an Appliance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Oracle Big Data

Appliance Version 2 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Oracle Big Data

Appliance X3-2 Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58Where Did Oracle

Get Hadoop Expertise? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61Configuring a Hadoop Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Choosing the Core Cluster Components . . . . . . . . . . . . . . . . . . . . . . 64Assembling the Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

What About a Do-It-Yourself Cluster? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Total Costs of a Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

00-FM.indd 12 8/14/13 1:56 PM

Page 4: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

Contents xiii

Time to Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73How to Build Out Larger Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Can I Add Other Software

to Oracle Big Data Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Drawbacks of an Appliance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5 BDA Configurations, Deployment Architectures, and Monitoring . . . . . . . . 79Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Big Data Appliance X3-2 Full Rack (Eighteen Nodes) . . . . . . . . . . . . 82Big Data Appliance X3-2 Starter Rack (Six Nodes) . . . . . . . . . . . . . . . 86Big Data Appliance X3-2 In-Rack Expansion (Six Nodes) . . . . . . . . . . 89Hardware Modifications to BDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89Software Supported on Big Data Appliance X3-2 . . . . . . . . . . . . . . . . 90

BDA Install and Configuration Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92Critical and Noncritical Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94Automatic Failover of the NameNode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95BDA Disk Storage Layout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Adding Storage to a Hadoop Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99Hadoop-Only Config and Hadoop+NoSQL DB . . . . . . . . . . . . . . . . . . . . . . 99

Hadoop-Only Appliance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Hadoop and NoSQL DB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Memory Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103Deployment Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

Multitenancy and Hadoop in the Cloud . . . . . . . . . . . . . . . . . . . . . . 103Scalability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Multirack BDA Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Installing Other Software on the BDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107BDA in the Data Center . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Administrative Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107Client Access Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108InfiniBand Private Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108Network Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109Connecting to Data Center LAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111Example Connectivity Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Oracle Big Data Appliance Restrictions on Use . . . . . . . . . . . . . . . . . . . . . . 112BDA Management and Monitoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Enterprise Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115Cloudera Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117Hadoop Monitoring Utilities: Web GUI . . . . . . . . . . . . . . . . . . . . . . . 117Oracle ILOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120Hue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122DCLI Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

00-FM.indd 13 8/14/13 1:56 PM

Page 5: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

xiv Oracle Big Data Handbook

6 Integrating the Data Warehouse and Analytics Infrastructure to Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

The Data Warehouse as a Historic Database of Record . . . . . . . . . . . . . . . . 126The Oracle Database as a Data Warehouse . . . . . . . . . . . . . . . . . . . . 127Why the Data Warehouse and Hadoop Are Deployed Together . . . . . 128

Completing the Footprint: Business Analyst Tools . . . . . . . . . . . . . . . . . . . . . 130Building Out the Infrastructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

7 BDA Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133Oracle Big Data Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134Oracle Loader for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Online Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Oracle OCI Direct Path Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139JDBC Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139Offline Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Oracle Data Pump Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141Delimited Text Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

Installation of Oracle Loader for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . 142Invoking Oracle Loader for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143Input Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

DelimitedTextInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145RegexInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146AvroInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146HiveToAvroInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146KVAvroInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147Custom Input Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

Oracle Loader for Hadoop Configuration Files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

Loader Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150Additional Optimizations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Leveraging InfiniBand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Comparison to Apache Sqoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

Oracle SQL Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153Installation of Oracle SQL Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . 157HIVE Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159Creating External Tables Using

Oracle SQL Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160ExternalTable Configuration Tool . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161Data Source Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161Configuration Tool Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162Required Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163Optional Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164ExternalTable Tool for Delimited Text Files . . . . . . . . . . . . . . . . . . . . . 164Testing DDL with --noexecute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

00-FM.indd 14 8/14/13 1:56 PM

Page 6: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

Contents xv

Adding a New HDFS File to the Location File . . . . . . . . . . . . . . . . . . 167Manual External Table Configuration . . . . . . . . . . . . . . . . . . . . . . . . . 168

Hive Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169ExternalTable Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

Oracle Data Pump Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171Configuration Files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173Querying with Oracle SQL

Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175Oracle R Connector for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176Oracle Data Integrator Application Adapter for Hadoop . . . . . . . . . . . . . . . . 177

8 Oracle NoSQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181What Is a NoSQL Database System? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

NoSQL Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184Oracle NoSQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

A Sample Use Case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

Client Driver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189Key-Value Pairs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190Storage Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192Replication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193Smart Topology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194Online Elasticity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194No Single Point of Failure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195CRUD Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196Multiple Update Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196Lookup Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196Transactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197Predictable Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199Installation and Administration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

Simple Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200Administration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

How Oracle NoSQL Database Stacks Up . . . . . . . . . . . . . . . . . . . . . . . . . . . 201Useful Links . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

PART IIIAnalyzing Information and Making Decisions

9 In-Database Analytics: Delivering Faster Time to Value . . . . . . . . . . . . . . . . 205Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

Oracle’s In-Database Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208Why Running In-Database Is So Important . . . . . . . . . . . . . . . . . . . . 211

00-FM.indd 15 8/14/13 1:56 PM

Page 7: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

xvi Oracle Big Data Handbook

Introduction to Oracle Data Mining and Statistical Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

Oracle’s In-Database Advanced Analytics . . . . . . . . . . . . . . . . . . . . . 213Oracle Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213Introduction to R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

In-Database Statistical Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236Making BI Tools Smarter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

Spatial Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238Understanding the Spatial Data Model . . . . . . . . . . . . . . . . . . . . . . . 239Querying the Spatial Data Model . . . . . . . . . . . . . . . . . . . . . . . . . . . 239Using Spatial Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240Making BI Tools Smarter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

Graph-Based Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242Graph Data Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242Querying Graph Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

Multidimensional Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245Making BI Tools Smarter and Faster . . . . . . . . . . . . . . . . . . . . . . . . . . 246

In-Database Analytics: Bringing It All Together . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

Integrating Analytics into Extract-Load-Transform Processing . . . . . . . . . . . . . . . . . . . . . . . . 247

Delivering Guided Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248Delivering Analytical Mash-ups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

10 Analyzing Data with R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251Introduction to Open Source R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252

CRAN, Packages, and Task Views . . . . . . . . . . . . . . . . . . . . . . . . . . . 252GUIs and IDEs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

Traditional R and Database Interaction vs. Oracle R Enterprise . . . . . . . . . . 256Oracle’s Strategic R Offerings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

Oracle R Enterprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259Oracle R Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260ROracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261Oracle R Connector for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261

Oracle R Enterprise: Next-Level View . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261Oracle R Enterprise Installation and Configuration . . . . . . . . . . . . . . . . . . . . 263Using Oracle R Enterprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

Transparency Layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265Embedded R Execution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

00-FM.indd 16 8/14/13 1:56 PM

Page 8: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

Contents xvii

Oracle R Connector for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309Invoking MapReduce Jobs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311Testing ORCH R Scripts Without the Hadoop Cluster . . . . . . . . . . . . 311Interacting with HDFS from R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313HDFS Metadata Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314Working with Hadoop Using the ORCH Framework . . . . . . . . . . . . . 316ORCH Predictive Analytics on Hadoop . . . . . . . . . . . . . . . . . . . . . . . 317ORCHhive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319Oracle R Connector for Hadoop and

Oracle R Enterprise Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . 322Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

11 Endeca Information Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325Why Did Oracle Select Endeca? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

Product Suites Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326Endeca Information Discovery Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

Major Functional Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328Key Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

Endeca Information Discovery and Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331

Difference in Roles and Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . 332BI Development Process

vs. Information Discovery Approach . . . . . . . . . . . . . . . . . . . . . . . 333Complementary But Not Exclusive . . . . . . . . . . . . . . . . . . . . . . . . . . 334

Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335Oracle Endeca Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336Oracle Endeca Studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339Oracle Endeca Integration Suite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342Endeca on Exalytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343Scalability and Load Balancing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344

Unifying Diverse Content Sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348Endeca Differentiator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349Industry Use Cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

Hands-On with Endeca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351Installation and Configuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351Developing an Endeca Application . . . . . . . . . . . . . . . . . . . . . . . . . . 353

12 Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357Key Elements of Enterprise Data Governance . . . . . . . . . . . . . . . . . . . . . . . . 359

Business Outcome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359Information Lifecycle Management . . . . . . . . . . . . . . . . . . . . . . . . . . 359Regulatory Compliance and Risk Management . . . . . . . . . . . . . . . . . 360Metadata Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360

00-FM.indd 17 8/14/13 1:56 PM

Page 9: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

xviii Oracle Big Data Handbook

Data Quality Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361Master and Reference Data Management . . . . . . . . . . . . . . . . . . . . . 361Data Security and Privacy Management . . . . . . . . . . . . . . . . . . . . . . 362Business Process Alignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362

How Does Big Data Impact Enterprise Data Governance? . . . . . . . . . . . . . . 363Modeled Data vs. Raw Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363Types of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366Applying Data Governance to Big Data . . . . . . . . . . . . . . . . . . . . . . . 370Leveraging Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . 373

Industry-Specific Use Cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377Utilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377Healthcare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379Financial Services . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380Retail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382Consumer Packaged Goods (CPG) . . . . . . . . . . . . . . . . . . . . . . . . . . . 383Telecommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384Oil and Gas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386

How Does Big Data Impact Data Governance Roles? . . . . . . . . . . . . . . . . . 388Governance Roles and Organization . . . . . . . . . . . . . . . . . . . . . . . . . 388

An Approach to Implementing Big Data Governance . . . . . . . . . . . . . . . . . . 389

13 Developing Architecture and Roadmap for Big Data . . . . . . . . . . . . . . . . . . 393Architecture Capabilities for Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394

New Characteristics of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394Conceptual Architecture Capabilities of Big Data . . . . . . . . . . . . . . . 395Product Capabilities and Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397Making Big Data Architecture Decisions . . . . . . . . . . . . . . . . . . . . . . 399

Architecture Development Process for Realizing Incremental Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400

Overview of Oracle Information Architecture Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400

Overview of Applied OADP for Information Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

Big Data Architecture Development Process . . . . . . . . . . . . . . . . . . . 408Impact on Data Management

and BI Processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415Traditional BI Development Process . . . . . . . . . . . . . . . . . . . . . . . . . 415Big Data and Analytics Development Process . . . . . . . . . . . . . . . . . . 415

Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416Traditional Data Governance Focus . . . . . . . . . . . . . . . . . . . . . . . . . . 417New Focus for Governance in Big Data . . . . . . . . . . . . . . . . . . . . . . 417

Developing Skills and Talent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418Data Scientist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418

00-FM.indd 18 8/14/13 1:56 PM

Page 10: Contents at a Glance · Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 xiv Oracle Big Data Handbook 6 Integrating the Data Warehouse and Analytics Infrastructure to

Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9

Contents xix

Big Data Developer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419Big Data Administrator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419

Big Data Best Practices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419Align Big Data Initiative with

Specific Business Goals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Ensure a Centralized IT Strategy

for Standards and Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Use a Center of Excellence to

Minimize Training and Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Correlate Big Data with Structured Data . . . . . . . . . . . . . . . . . . . . . . 420Provide High-Performance and Scalable Analytical Sandboxes . . . . . 420Reshape the IT Operating Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

00-FM.indd 19 8/14/13 1:56 PM