22
Lab Validation Report IBM Real‐time Compression Reducing Storage Capacity and Costs without Compromise By Vinny Choinski with Brian Garrett February 2011 © 2011, Enterprise Strategy Group, Inc. All Rights Reserved.

ESG Lab Validation Report on IBM Real-time Compression

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: ESG Lab Validation Report on IBM Real-time Compression

       

Lab Validation Report  IBM Real‐time Compression  

 Reducing Storage Capacity and Costs without Compromise   

By Vinny Choinski with Brian Garrett 

 

February 2011                     © 2011, Enterprise Strategy Group, Inc.  All Rights Reserved. 

Page 2: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      2 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Contents 

Introduction .................................................................................................................................................. 3 Background ............................................................................................................................................................... 3 IBM Real‐time Compression ..................................................................................................................................... 4 

ESG Lab Validation ........................................................................................................................................ 5 Intuitive Easy to Use GUI .......................................................................................................................................... 6 High Availability ........................................................................................................................................................ 7 Capacity Savings ....................................................................................................................................................... 8 Compression Accelerator Full Scan .......................................................................................................................... 8 Performance ........................................................................................................................................................... 11 NAS Resource Efficiency ......................................................................................................................................... 14 Data Deduplication and IBM Real‐time Compression ............................................................................................ 15 

ESG Lab Validation Highlights ..................................................................................................................... 19 

Issues to Consider ....................................................................................................................................... 19 

The Bigger Truth ......................................................................................................................................... 20 

Appendix ..................................................................................................................................................... 21        

  

 All trademark names are property of their respective companies. Information contained in this publication has been obtained by sources The Enterprise Strategy Group (ESG) considers to be reliable but is not warranted by ESG. This publication may contain opinions of ESG, which are subject to change from time to time. This publication is copyrighted by The Enterprise Strategy Group, Inc. Any reproduction or redistribution of this publication, in whole or in part, whether  in  hard‐copy  format, electronically, or otherwise  to persons not authorized  to  receive  it, without  the express  consent  of  the Enterprise Strategy Group, Inc., is in violation of U.S. Copyright law and will be subject to an action for civil damages and, if applicable, criminal prosecution. Should you have any questions, please contact ESG Client Relations at (508) 482.0188.  

ESG Lab Reports 

The goal of ESG Lab reports is to educate IT professionals about emerging technologies and products in the storage, data management and information security industries. ESG Lab reports are not meant to replace the evaluation process that should be conducted before making purchasing decisions, but rather to provide insight into these emerging technologies. Our objective is to go over some of the more valuable feature/functions of products, show how they can be used to solve real customer problems and identify any areas needing improvement. ESG Lab's expert third‐party perspective is based on our own hands‐on testing as well as on interviews with customers who use these products in production environments.  Although this report may utilize publicly available material from various vendors, including IBM, it does not necessarily reflect the positions of such vendors on the issues addressed in this report.  This ESG Lab report was developed with IBM funding. 

Page 3: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      3 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Introduction  This ESG Lab report explores how IBM Real‐time Compression can be used to reduce the cost of storing primary file data without impacting performance. The results of hands‐on testing of IBM Real‐time Compression Appliances performed by ESG at an IBM facility is used to demonstrate the value of non‐disruptive deployment, loss‐less capacity savings, real‐time performance, and non‐stop high availability.  

Background 

Enterprise data storage continues to grow—roughly one quarter of NAS and SAN users (25% and 23%, respectively) report annual growth rates at over 40%.1

Figure 1.Storage Scalability Challenges 

 Even with the abundance of storage efficiency technology—such as deduplication and thin provisioning—available in the market today, users have not been able to stem the growth. 

 

Source: Enterprise Strategy Group, 2010. 

Challenges associated with scaling storage environments span a wide spectrum of issues. When asked to describe the challenges their organizations face in scaling their storage environments, respondents cited rising operational cost and rapid unstructured data growth, along with its associated management, as the top two challenges. When combined, operational cost and rapid unstructured data growth were selected by 41% of respondents as top challenges to scalable storage, with 11% of respondents identifying OPEX and rapid unstructured data growth, respectively, as their primary challenges, as shown in Figure 1.   

Network‐attached file systems are commonly leveraged for a number of primary storage applications, including home directories, shared corporate data, and shared project files. A rapidly growing number of organizations use network‐attached disk arrays for virtual server images and database applications. Put it all together and ESG sees a perfect storm of challenges for IT administrators forming on the horizon. First and foremost amongst those challenges is the cost associated with storing unstructured file data. A growing number of IT managers are using storage efficiency technologies to diminish the costs associated with never‐ending data growth.    

                                                      1 Source: ESG Research Report, Scale‐out Storage Market Trends, December 2010.  

20%

28%

32%

20%

31%

9%

9%

10%

11%

11%

0% 5% 10% 15% 20% 25% 30% 35%

Need to support growing virtual server environments 

Hardware costs

Data protection

Rapid growth and management of unstructured data

Operational costs

What would you say are your organization’s biggest challenges in terms of scaling your storage environment to support your applications? Which would you characterize as the primary challenge for your organization? (Percent of 

respondents, N=305)

Primary storage challenge

All storage challenges

Page 4: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      4 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

IBM Real‐time Compression  

IBM Real‐time Compression is a real‐time, loss‐less data compression technology for primary and active data. In their current form, IBM Real‐time Compression Appliances are installed as bridges between clients and network‐attached storage (NAS) systems. In the example in Figure 2, users are storing Microsoft Word and Adobe Acrobat documents on a network‐attached disk array.  Documents are compressed as data passes through IBM Real‐time Compression technology on its way to the disk system. Data, shown as colored blocks, is compressed in real‐time before being written to disk.   

Figure 2. Introducing IBM Real‐time Compression Appliances 

 

While the algorithms at the heart of IBM Real‐time Compression are well known, the technology used to perform compression in real‐time is novel and powerful. Instead of performing compression as a disruptive background task, IBM Real‐time Compression is performed at real‐time speeds. During file updates, only changed segments are compressed. Instead of re‐compressing the whole file after an update, most of the file remains intact. A very specific algorithm is used to compress file data into "logical units" (not to be confused with LUNs) that reside inside the compressed file and are specific in size. In NFS environments, they are 32 KB in size and in a CIFS environment they are 61.44 KB in size. The rationale behind this is such that in one IO only the segment of the file being modified needs to be decompressed. As a result, IBM Real‐time Compression technology delivers:   

! Immediate storage capacity savings without compromising performance.  ! Improved performance in many cases due to a decrease in disk activity. ! Transparency that preserves high availability environments. ! Loss‐less data integrity. ! Reduced power, cooling, and space requirements. ! Added‐value by magnifying the effectiveness of existing deduplication solutions. 

The balance of this report presents the results of ESG Lab validation tests designed to demonstrate how IBM Real‐time Compression transparently reduces primary storage space requirements without changes in performance, storage, applications, networks, or processes. Data compression rates of 75% to 91% were observed in tests using Oracle databases, VMware .vmdk files, and office productivity files.   

 

 

   

Network Attached Storage

LAN

IBM Real‐time Compression

Page 5: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      5 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

ESG Lab Validation  ESG Lab performed hands‐on evaluation and testing of IBM Real‐time Compression Appliances at an IBM facility in Marlborough, Massachusetts. Testing began with an examination of ease of deployment.  

Non‐disruptive Installation 

An IBM Real‐time Compression Appliance is positioned between a network switch and one or more NAS storage devices as an inline, transparent bridge, as shown in Figure 3. ESG Lab used a simple three‐step process to install and configure IBM Real‐time Compression between a Microsoft Windows Server and a NetApp NAS system.  

Figure 3. Non‐disruptive Installation 

 

First, the IBM Real‐time Compression management console was launched from a web browser to begin the configuration. After basic network, password, and permission settings had been provided, the appliance was plugged into the Ethernet switch. Next, the NetApp NAS system was disconnected from the Ethernet switch and connected directly to the appliance. Finally, the management console was used to define the NetApp file systems to be optimized with IBM Real‐time Compression. The ability to define exported file systems and file types to be excluded from compression was noted.   

Three minutes and ten mouse clicks after getting started, files written to the NetApp NAS system were being automatically compressed in real‐time. From an end‐user standpoint, the networked file share looked and behaved exactly as before IBM Real‐time Compression had been installed.  

 

 

 

 

 

 

Page 6: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      6 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Intuitive Easy to Use GUI 

The installation process was enhanced through the use of an intuitive web‐based user interface which allows for initial setup and configuration as well as continued ongoing administration and management. The home screen shown in Figure 4 shows the high level status of the solution.   

Figure 4. IBM Real‐time Compression GUI 

 

The status screen provides the administrator with a dashboard view of the system. Information such as model number, serial number, and software version can be accessed for support related activities. The network pane provides color‐coded, at‐a‐glance status of the health of the physical network connections. System resources like CPU and memory can be monitored in the resource utilization window and, most importantly, common conflicts and problems including duplicate network IPs are provided to accelerate problem resolution. The status screen also shows the amount of compression and space savings that have been achieved to date—in this example, a 90% compression ratio has reduced storage capacity requirements by 21.8 TB.   

 

Why This Matters  Reducing the cost of primary and archive NAS capacity is a good idea, but not if it requires massive changes to existing network and NAS infrastructure. Replacing existing NAS systems before they reach the ends of their leases or depreciation schedules would be a waste of time and money. Changing the way the network is configured between clients and NAS systems introduces risk.  

ESG Lab has confirmed that IBM Real‐time Compression can be deployed in a matter of minutes. Leveraging existing investments in NAS technology, the non‐disruptive deployment of IBM Real‐time Compression reduces manpower and risk as it sets the stage for dramatic capacity savings.      

Page 7: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      7 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

High Availability  

IBM Real‐time Compression integrates into high‐availability topologies and existing configurations seamlessly without introducing any new single point of failure or degradation of the service level offered by the storage and networking equipment. IBM Real‐time Compression also provides active/active and active/passive path failover in the event of a hardware failure within a pair of appliances configured for availability.  

ESG Lab Testing 

ESG Lab tested the recoverability of a two‐node configuration in a series of high availability tests. While ESG Lab performed file reads and writes through the two appliances, an Ethernet cable from one of the nodes was removed to trigger a failover to the other Ethernet connection, as depicted in Figure 5. 

The NFS client was able to maintain access to the NetApp FAS filer without interruption. Next, ESG Lab powered off a node while data was being written and read from the NetApp filer. As expected, IBM Real‐time Compression maintained read and write access without disruption. 

Figure 5. Fault Tolerance Test Bed 

 

Lastly, to simulate the loss of both appliances, the surviving node was powered off. In the unlikely event of a catastrophic data center failure, IBM Real‐time Compression offers a utility called Revert. The Revert utility can be used to decompress files previously compressed by an IBM Real‐time Compression Appliance in the event of a total system failure. It can be used in the event of a failure as well as at a remote site to decompress files that have been mirrored to a WAN‐connected NAS disk array. The Revert utility can also be easily copied to backup tapes, enabling data extraction and decompression at any remote site.   

 

Why This Matters  Because IBM Real‐time Compression Appliances are logically configured in‐band between clients and the NAS‐attached disk capacity they rely on, transparent high availability is a crucial requirement for applications based on IBM Real‐time Compression capacity. ESG Lab has verified that a dual‐node IBM Real‐time Compression configuration transparently survives typical hardware failures with no user intervention.  

NetApp FAS 270C

NFS Client

2 x IBM Real-time Compression

LAN

X

X

Page 8: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      8 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Capacity Savings 

IBM Real‐time Compression reduces the footprint of network file data by providing data compression on the fly.   Files being written are compressed in real‐time as they pass through the appliance. Already compressed files are decompressed as they are read. With IBM Real‐time Compression, network file capacity requirements can be reduced up to 80% or more, as shown in Table 1, for highly compressible data types (e.g., databases). Unlike data deduplication technology, which is designed to eliminate multiple copies of data that accumulate over time (e.g., a month’s worth of accumulated backup data), IBM Real‐time Compression reduces capacity for primary and archive data as it is stored for the first time.2

Compression Accelerator Full Scan 

  

To address uncompressed legacy data stored on a system prior to the implementation of the IBM Real‐time Compression Appliance and free up valuable storage space, background scans can be run to compress data. To compress this data, a tool called Compression Accelerator (CA) is used. Figure 6 shows the interface of Compression Accelerator Full Scan which now runs directly on the appliance—no host software for CA needs to be installed with newer versions of IBM Real‐time Compression. 

Figure 6. Configuring CA Full Scan  

 

Background compression can be managed via the IBM Real‐time Compression interface at a granular level.  Individual NFS exports and CIFS shares can be selected for the scan process with different attributes assigned to each scan. Background compression scans can be scheduled, throttled, and configured with exclusions, making it easy to avoid resource conflicts with heavy on‐the‐fly workload periods.  

                                                      2 While IBM Real‐time Compression differs from data deduplication, it should be noted that the two technologies are complementary. When deployed together, the capacity savings are magnified as data deduplication eliminates multiple copies of data that have been compressed with IBM Real‐time Compression. 

Page 9: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      9 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

ESG Lab Testing 

Capacity savings were measured using a variety of tests. Each test was designed to compare the capacity utilization of a file system before IBM Real‐time Compression was introduced (uncompressed) to the same file system after it had been written through an IBM Real‐time Compression Appliance (compressed).   

In this example, the capacity savings that can be achieved for virtual server images stored on a VMware .vmdk file mounted via NFS was evaluated. Two physical servers running VMware ESX software were configured. Each physical server was configured with six Windows and two Linux virtual machines. The guest operating system and local drive data for each virtual machine was stored in a .vmdk file on a NetApp FAS3070.  

Figure 7. The ESG Lab VMware Test Bed 

 

Capacity savings were measured as a 500 MB source file directory tree was copied to the NFS‐mounted Windows and Linux images. The files were copied to two different directories on a NetApp NAS system: one uncompressed and the other compressed with an IBM Real‐time Compression Appliance. The 10.6 GB collection of source files on the Windows platform consumed only 2.6 GB after IBM Real‐time Compression, as shown in Figure 7 and Table 1. A similar test was performed from a Windows client using a 562 MB collection of common office productivity files (e.g., documents, text files, xml files, presentations, etc.). In this example, a capacity savings of 90% was recorded. Last, but not least, a 287 GB ERP database instance created by the Oracle Apps R12 Vision demo consumed only 30 GB after IBM Real‐time Compression.  

 

 

 

 

 

 

 

 

 

Page 10: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      10 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Figure 8. IBM Real‐time Compression Capacity Savings 

 

 

Table 1: IBM Real‐time Compression Capacity Savings 

    Before IBM Real‐time Compression (GB) 

After IBM Real‐time Compression (GB) 

Capacity Savings (GB) 

Percent  Saved 

VMware .vmdk (Windows)   10.5  2.6  7.9  75% VMware .vmdk (Linux)  10.5  0.9  9.6  91% Office Productivity  564  59  505  90% Oracle Database  287.0  30.0  257  90% 

 

Why This Matters  Reducing the cost of storage capacity is a key concern for IT managers, especially for digital file content which accounted for 76% of global digital capacity in 2010 and is expected to constitute the bulk of digital assets for the foreseeable future.3

ESG Lab testing with real‐world data has confirmed that a non‐disruptive IBM Real‐time Compression Appliance can be used not only to reduce primary NAS disk capacity between 75% and 91%, it can also be used to create cost and operational savings on multiple tiers of storage throughout the data lifecycle. 

 

 

                                                      3 Source: ESG Research Report, Digital Archive Market Forecast 2010‐2015, July 2010. 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Office Productivity VMware vmdk (Windows guest)

VMware vmdk(Linux guest)

Oracle DB

Capa

city Savings 

Page 11: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      11 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Performance 

While data compression has been widely adopted in the IT industry, it has not historically been used with primary storage due to performance concerns. IBM Real‐time Compression uses a novel approach to tackle this problem: based upon decades of expertise developing real‐time processing and network optimization algorithms, a purpose‐built appliance was developed to implement industry‐standard compression algorithms in real‐time. The IBM Real‐time Compression approach was also designed to mitigate the performance drawbacks of mechanically slow disk. As disk capacity is reduced, so are the number of IO requests that need to be performed to complete a file operation. As the number of disk accesses goes down, performance for each file operation speeds up.   

Offloading compression processing to run on an IBM Real‐time Compression Appliance instead of a disk array has a number of advantages. First, it avoids the potential slowdown that can occur when running processor‐ and data‐intensive compression algorithms on a disk array. Next, it reduces the amount of data that the disk array has to process. Sending less data to the disk array increases the read/write‐caching efficiency of the disk array. And finally,   data integrity is assured due to the fact that IBM Real‐time Compression does not cache write data. Put it all together and IBM Real‐time Compression not only eliminates compression performance penalties, it can actually be used to improve application‐level performance. 

ESG Lab Testing 

The VMware test bed shown earlier in Figure 7 was used for the first performance test. This simple test recorded the wall clock time required to copy a 500 MB source file directory. As shown in Figure 9, the file copy operation running in a Windows guest operating system completed 28% faster after the IBM Real‐time Compression Appliance was installed between the VMware ESX client and the NetApp FAS3070 disk array. A copy of the same data within a Linux guest operating system completed 19% faster.  

Figure 9. Less Disk Improves Performance for a VMware File Copy 

 

 

Table 2. VMware File Copies 

   Before IBM Real‐time 

Compression After IBM Real‐time 

Compression Percent Faster 

Windows  84.36  60.39  28% Linux  53.96  43.75  19% 

0 10 20 30 40 50 60 70 80 90

Unix

Windows

Elapsed Time in seconds (less is better)

Before Real‐time Compression After Real‐time Compression

Page 12: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      12 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

An online transaction processing (OLTP) database application which simulates a warehouse order entry application for 1,800 simulated users was tested. Performance was analyzed before and after the introduction of an IBM Real‐time Compression STN6800 Appliance. The configuration after the IBM Real‐time Compression Appliance had been installed is shown in Figure 10.4

Figure 10. Evaluating Oracle OLTP Database Performance 

 

 

The number of database transactions per minute for 1,800 simulated users was recorded. The average number of transactions per minute recorded during three test runs was used to analyze the impact of IBM Real‐time Compression. As shown in Figure 11, IBM Real‐time Compression increased the number of user level transactions by 15%. In other words, the database application was able to do 15% more work after the introduction of IBM Real‐time Compression—as it simultaneously reduced disk capacity requirements by 80%.  

Figure 11. Less Disk Improves Performance for an Oracle Database Application  

 

                                                      4  Configuration details are listed in the Appendix. 

Page 13: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      13 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

ESG Lab noted that IBM Real‐time Compression not only increased the amount of transactions the system could handle, it also improved response times. Response time improved between 20% and 90% depending on the type of transaction. For example, an order‐status transaction completed 43% quicker and a new order transaction completed 90% faster.  

A final test was performed to determine how well an IBM Real‐time Compression Appliance can maintain sustained performance levels when attached to a NAS system that is extremely busy. The industry standard IOzone utility, which generates and measures a variety of file operations,  was used to perform typical file operations running on 20 IBM x335 servers in parallel. The servers were connected to a NetApp FAS6070 with 56 15K RPM FC drives configured as a single aggregate. Ten 1 gigabit Ethernet ports on a high‐end IBM Real‐time Compression STN6800 Appliance were used to create a bridged connection between the IBM x335 clients and the NetApp FAS6070. With two IBM Real‐time Compression STN6800 ports per logical network connection between a Cisco Catalyst 3750G Ethernet switch and the disk array, five gigabit Ethernet ports were being compressed in parallel by a single IBM Real‐time Compression Appliance. The results are shown in Figure 12.   

Figure 12. Real‐time Aggregate Throughput Over Five Gigabit Ethernet Interfaces  

 

ESG Lab was impressed with a peak throughput of more than 558 MB/sec. A peak aggregate throughput of more than 500 MB/sec is close to the theoretical limit of NFS running over five gigabit Ethernet interfaces. A similar set of results peaking at 621 MB/sec over six gigabit Ethernet interfaces was audited. Near wire‐speed performance is a great result for any NAS solution; in this case, it’s outstanding given the fact that near wire‐speed results were achieved as the IBM Real‐time Compression Appliance was compressing data.  

Why This Matters  Using compression to reduce the cost of disk capacity is a great idea, but not if it degrades performance for primary and archive applications that rely on fast NAS storage capacity.   

With aggregate throughput capabilities of more than 100 MB/sec per compressed gigabit Ethernet interface and the ability to increase the number of Oracle database transactions by 15%, ESG Lab has confirmed that IBM Real‐time Compression can be used to improve the performance of primary and archive applications that rely on NAS storage capacity.  

0

100

200

300

400

500

600

Initial Write Random Write 

Re‐Write Read Random Read Re‐Read

Aggregate Tho

rughpu

t (MB/Sec)

File Operations

Page 14: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      14 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

NAS Resource Efficiency 

Reducing an application’s disk capacity requirements with compression can improve the efficiency of a NAS storage system. With less disk operations to process per file operation, the NAS system has less work to do. With more data being served with each compressed IO request, the effective efficiency of the cache memory in the NAS system is improved. This is particularly helpful for primary applications and workflows that tend to push the CPU or disk utilization limits of an existing NAS system.  

ESG Lab Testing 

ESG Lab monitored the CPU and disk utilization of the NetApp FAS3070 during the VMware copy test presented earlier in this report. NetApp statistics were captured every second during the first sixty seconds of the copy job. The average CPU and disk utilization over ten second intervals is shown in Figure 13.  

Figure 13. NAS Resource Efficiency 

 

IBM Real‐time Compression improved CPU and disk utilization during every time interval. Utilization improvements varied between 10% and 25%. Similar results were seen during Oracle OLTP testing where NAS utilization improvements enabled the system to do more work (15% more transactions) with quicker response times (20% to 90% faster). Much like adding a turbocharger to a car for increased fuel efficiency and more horsepower, IBM Real‐time Compression not only increases the performance of a NAS engine, it also improves its efficiency.  

 

Why This Matters  ESG research indicates that the metrics used to evaluate the success of IT’s contribution to an organization’s green initiatives are led by reductions in energy requirements (38%), IT operating expenses (38%), and IT capital costs (29%).5

                                                      5 Source: ESG Research Report, 

 IBM Real‐time Compression not only reduces energy and capital costs by using less disk capacity, it also increases the efficiency of a NAS infrastructure. A more efficient NAS infrastructure is easier to manage and can be used to forestall or possibly avoid the capital costs of an upgrade.  

Global Green IT Priorities, November 2008. 

Page 15: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      15 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Data Deduplication and IBM Real‐time Compression 

Data deduplication has become a commonly accepted practice in disk‐based backup environments over the last couple of years. Applying deduplication technology to highly redundant data (e.g., backup sets) can greatly expand the capacity and extend the life of secondary storage systems. Data compression, on the other hand, has been predominantly used to reduce the footprint of more randomly accessed primary storage. The two technologies are often considered mutually exclusive because of their differing data handling attributes. However, in a properly architected environment, as illustrated in Figure 14, the two concepts can be combined to leverage the strengths of both—IBM Real‐time Compression reduces primary storage capacity, which magnifies the capacity and resource efficiency savings during backup operations, which use data deduplication to reduce secondary storage capacity. 

Figure 14. Deduplication and IBM Real‐time Compression 

 

IBM Real‐time Compression works with existing deduplication solutions despite the common misconception that compression and deduplication must be deployed together in the same appliance. IBM Real‐time Compression uses its segmented compression approach while preserving file structure and file metadata, eliminating the need to reconstitute compressed files before they can be deduplicated.  

A majority of NAS solutions are backed up with NDMP over an IP network. When backups are performed this way, whether to a tape, disk system, or deduplication device, sending the compressed data reduces the load on each of these devices resulting in faster backups and reduced capacity requirements. Compressed NAS data can also be backed up to a SAN attached deduplication device (e.g., virtual tape library) in its compressed state. For those environments where SAN attached backup is not an option, the compressed data can be accessed via the IP network, shared to the backup server, and sent to a deduplication device configured as a disk backup target. In both cases, IBM Real‐time Compression and deduplication work together to reduce the amount of data sent to and stored on the backup solution, increasing the efficiency of deduplication. 

 

  

 

Page 16: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      16 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

ESG Lab Testing 

ESG Lab audited the results of testing conducted by IBM and confirmed that the combination of IBM Real‐time Compression and deduplication can be used to reduce backup windows, storage consumption, and resource utilization on the backup target storage system. The testing leveraged Quest Software’s Benchmark Factory and Data Factory to create and populate an Oracle database running over NFS on a Sun Solaris 10 host connected to a NetApp FAS6070 filer. NDMP backups of the Oracle data were conducted through the Solaris Oracle host via a locally‐installed backup application. The NDMP backup data was sent to and stored on a Data Domain DD690 appliance NFS connected to the same SUN Solaris host. A 37 GB Oracle database was created on the NFS storage and used as the backup data source for the testing.      

Deduplicated backups of the Oracle database were conducted both with and without IBM Real‐time Compression enabled in the environment. Seven full database backups were run to simulate a typical weekly backup cycle. As shown in Figure 15, the weekly backup window was reduced by 72% with IBM Real‐time Compression.   

Figure 15. IBM Real‐time Compression Accelerates  Deduplication Backup Performance 

 

 

Table 3. Real‐time Compression and Deduplication  Results 

Day Native 

Backup (GB) Deduplication 

(GB) 

Deduplication & Real‐time Compression 

(GB) 

Deduplication Only 

Backup Duration (Sec) 

Deduplication & Compression 

Backup Duration (Sec) 

1   37  8  6  376  77 2  74  13  9  375  104 3  111  15  11  375  108 4  148  18  13  376  110 5  185  20  15  376  110 6  222  22  17  374  112 7  259  24  18  373  114 

Total         2,625  735 

0 500 1000 1500 2000 2500 3000

Backup Elapsed Time 

(Secs) 

Backup Elapsed Time (less is better)

Deduplication Only Deduplication & Real‐time Compression

Page 17: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      17 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

What the Numbers Mean    

! Retaining seven full backups of a 37 GB database would consume 259 GB of secondary storage space with traditional disk‐based backup methods. 

! Adding deduplication to the backup schema yielded a 90% reduction in the amount of backup data space consumed on the secondary storage (from 259 GB to 24 GB).   

! Adding IBM Real‐time Compression reduced backup capacity requirements from 24 GB to 18 GB.  ! IBM Real‐time Compression improved backup performance by reducing the workload on the Data Domain 

deduplication appliance. In this case, the time required to do seven full backups was reduced by 72% (from 44 minutes to 12 minutes). 

! Shorter backup durations increase the amount of backup capacity that can be protected without having to add additional backup hardware or software.  

! IBM Real‐time Compression not only increased the efficiency of primary storage, it also increased the efficiency of secondary storage.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Page 18: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      18 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

A similar set of tests was performed with a goal of measuring the effect of configuring IBM Real‐time Compression in front of a storage system configured to run deduplication as a background task to reduce the capacity of primary storage residing on a NetApp filer.6

The full database images were copied to a NetApp filer configured to run deduplication as a background task. The test was repeated with IBM Real‐time Compression configured in front of the NetApp filer. The following benefits were achieved with IBM Real‐time Compression and deduplication in a primary storage environment:  

 The server and Oracle database that was used during the Data Domain test was repurposed for this round of tests. A 37 GB Oracle database was modified to create a series of seven daily images to be backed up over the course of a week. A daily change rate of 7% was simulated.  

! Deduplication reduced the size of the Oracle database from 37 GB to 28 GB.  ! IBM Real‐time Compression reduced the size of the same database from 37 GB to 7.2 GB.  ! Together, IBM Real‐time Compression and deduplication reduced capacity from 37 GB to 6.3 GB.  ! The capacity required to store a week’s worth of full database backups was reduced from 259 GB to 17 GB 

with IBM Real‐time Compression and deduplication working together.  ! IBM Real‐time Compression  improved the efficiency of NetApp post‐process deduplication:   

o The time required to do daily deduplication was reduced by 95%. o NetApp aggregate disk IO activity was reduced by 75%. o NetApp CPU time was reduced by 80%. 

! IBM Real‐time Compression reduced the footprint of primary storage. This causes a ripple effect in additional capacity and infrastructure savings for lesser tiers of storage as data is moved, managed, and copied through the environment. 

 

Why This Matters  ESG research indicates that using data reduction technology to reduce overall storage footprint is a leading IT initiative. Billions of dollars have been spent in recent years on data deduplication solutions. Existing and planned investments in emerging data deduplication technologies must be preserved with solutions that integrate transparently and have no impact on performance.  

ESG Lab validated that IBM Real‐time Compression has no negative impact on downstream IT processes including deduplication. IBM Real‐time Compression not only has a positive impact on primary storage utilization, but also can be used to magnify the benefits of data deduplication technology during backup and archive operations.   Combining Real‐time Compression and deduplication optimized the utilization and efficiency of the entire storage infrastructure.  

 

                                                      6 Most of the deduplication solutions that were generally available when this report was written were designed to reduce the capacity of secondary storage systems used for backup and archive operations. NetApp Deduplication can also be used to reduce the capacity of primary storage. For more on NetApp Deduplication, please refer to the ESG Lab report at: http://www.enterprisestrategygroup.com/2008/04/netapp‐deduplication‐for‐fas‐doing‐more‐with‐less/ 

Page 19: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      19 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

ESG Lab Validation Highlights ! Installing IBM Real‐time Compression required no changes to servers, networks, or storage.  ! Installation and configuration was quick and easy.  ! Compressed files were being stored in real‐time three minutes and ten clicks of the mouse after starting.    ! Dramatic capacity savings for real‐world data sets were observed: 

o 90% for office productivity files (docs, presentations, etc.). o 80% for an order entry Oracle database application. o 75% for VMware .vmdk file (Windows guest OS). o 91% for VMware .vmdk file (Linux guest OS). 

! Using less disk capacity increased performance: o 28% faster copy of a 500 MB file (Windows guest OS, VMware ESX). o 15% more Oracle database transactions. o Aggregate IOzone re‐read throughput in excess of 600 MB/sec was recorded as an IBM Real‐time 

Compression Appliance compressed data in real‐time over six Gigabit Ethernet interfaces.  ! Using less disk capacity improved NetApp resource usage: 

o Up to 25% better CPU utilization. o Up to 19% better disk utilization. 

! IBM Real‐time  Compression magnified the benefits of data deduplication for backup and archive operations:   

o The time required to do seven full Oracle database backups with an EMC Data Domain deduplication appliance was reduced by 72%. 

o The time required to do daily post‐process NetApp deduplication of an Oracle database was reduced by 95%. 

o Performing compression before post‐process deduplication reduced NetApp aggregate disk IO activity by 75% and CPU time by 80%.  

! A dual‐node IBM Real‐time Compression high availability configuration survived a failed appliance transparently with no user intervention. The host‐based Revert utility was used to confirm that compressed data can be recovered in the unlikely event of a dual‐appliance failure.  

 Issues to Consider 

! STN6500 and STN6800 Appliances compress network‐attached file systems which use the CIFS or NFS protocol. Block‐based protocols (e.g., FC, iSCSI) are currently not supported. Block‐based support would bring the benefits of IBM Real‐time Compression to a larger universe of applications. ESG Lab has been advised that block‐based support is planned for a future release.  

! While the number of organizations deploying databases on NAS systems is increasing, it should be noted that most database applications are currently deployed on block‐based disk arrays, which are not yet supported by IBM Real‐time Compression. For those organizations that have deployed database applications on NAS systems to improve manageability and reduce costs, ESG Lab strongly recommends the use of IBM Real‐time Compression due to its ability to dramatically reduce capacity requirements as it increases application performance.  

! Careful integration is needed when using IBM Real‐time Compression to magnify the benefits of data deduplication during backup and archive operations. When configured correctly, it works transparently, like magic. Configured incorrectly, a wrong interface or mount point could cause primary data to be decompressed before it is backed up. That mistake would negate the resource savings documented in this report. ESG recommends that you consult with an IBM service representative before deploying IBM Real‐time Compression in tandem with data deduplication.  

Page 20: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      20 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

The Bigger Truth Organizations are finding new ways to leverage file data. Primary data in corporate, project, and home directories is being shared on network‐attached file systems.  Virtual server images are being stored on NFS mounted file systems to increase the mobility and availability of mission‐critical applications. Digital archives are growing to meet legal and regulatory demands. Databases, which have long been married to block‐based storage technologies, are being deployed on network‐attached appliances for simplified ease of management. Each of these trends can increase the value of sharing files over a network. IT managers, however, are facing a daunting set of challenges including increasing costs and the limitations of power, cooling, and space in the data center.  

New technologies have emerged in recent years with a goal of addressing the challenges associated with the never‐ending growth of networked file capacity. Some have focused on making it easier to manage more file system data from a single interface. Others have focused on reducing the amount of duplicate data that is backed up. Until now, none have focused on solving the problem at the source: as files are created and stored for the first time.   

Data compression has been used for decades, but this technology is going through a renaissance. As technology has improved and processors have gotten faster, it’s now possible for most data centers to compress primary data in real time. ESG believes that real‐time primary data compression is going to improve the fundamental efficiency and overall value of storage systems. The reasoning is simple: the closer to the point of data “creation” you can improve efficiency, the more total value you can get. 

When it comes to making storage more efficient, it’s important to consider not just how but why. For example, most deduplication solutions are designed for backup, not primary use data environments. Backup efficiency only represents a small fraction of the value potential for IT. It could be argued that a transparent solution like IBM Real‐time Compression applied to primary storage/data represents an order of magnitude (or more) value to an organization over backup efficiency alone.  

IBM Real‐time Compression leverages industry‐standard compression algorithms to deliver results that are far from industry‐standard.  First, IBM Real‐time Compression drastically reduces disk capacity requirements: ESG Lab has validated that an IBM Real‐time Compression Appliance can be used to reduce primary and archive NAS storage requirements between 75% and 91% for real‐world data sets.  Real‐time Compression magnifies the effective capacity of your storage infrastructure. For example, an 80% compression rate multiplies the amount of available capacity by five times (5X). Imagine if you could get five times more primary storage capacity, without adding disk, power, cooling, or floor space requirements. What could your company accomplish with the additional capacity? 

ESG Lab has confirmed that IBM Real‐time Compression Appliances are simple to deploy within an existing NAS infrastructure. Three minutes and ten mouse clicks after getting started, files were being stored and accessed in real‐time. We confirmed that IBM Real‐time Compression can magnify the efficiency of data deduplication products.  We also confirmed that IBM Real‐time Compression Appliances are highly available and recoverable. And last, but not least, we confirmed that IBM Real‐time Compression Appliances not only minimize the potential performance impact of data compression, the technology can actually be used to increase performance for real‐world applications. In other words, ESG Lab has confirmed that IBM Real‐time Compression fits transparently into existing storage environments and dramatically reduces storage requirements without compromising performance.    

 

Page 21: ESG Lab Validation Report on IBM Real-time Compression

Lab Validation: IBM Real‐time Compression                                                                                                                      21 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

Appendix

Table 4. Configuration Details 

  Ease of Deployment Test Bed Intel x306 Server 3.2 GHz – 1 GB Ram Gigabit Ethernet 

Windows 2003 SP‐1 

IBM Real‐time Compression STN6500  12x Gigabit ports; 4 GB Ram NetApp FAS250 OnTap 7.2.4 512 MB Ram 

13x 136GB HDD Gigabit Ethernet 

VMware Virtual Server Test Bed 2x physical servers Processor 2GHz Xeon – 8GB Ram Gigabit Ethernet 

VMware ESX Server  Guest OS (12 Windows; 4 Linux) 

IBM Real‐time Compression STN6500   

NetApp FAS3070 OnTap7.2.3.x.x 8 GB Ram 

Disk Capacity Gigabit Ethernet 56x 144 GB HDD 

Database Test Bed 9x IBM x355 Servers 2.4 GHz Xeon – 2 GB Ram Gigabit Ethernet 

3x Oracle servers Oracle 10.2.0.4 Database Size – 2 TB 

IBM Real‐time Compression STN6800  12x Gigabit ports; 32 GB Ram 

NetApp FAS6070 OnTap 7.2.3 32 GB Ram 

56x 144 GB HDD Gigabit Ethernet 

Cisco Catalyst 3750G Ethernet switch   

Throughput Test Bed 20x IBM x335 Servers 2.4 GHz Xeon – 2 GB Ram Gigabit Ethernet 

Operating System 

Cisco Catalyst 3750G Ethernet switch   

IBM Real‐time Compression STN6800  12x Gigabit ports; 32 GB Ram 

NetApp FAS6070 OnTap 7.2.3 32 GB Ram 

56x 144 GB HDD Gigabit Ethernet 

High Availability  Test Bed 2x IBM x306 3.2 GHz – 1 GB Ram Gigabit Ethernet 

Operating System 

2x IBM Real‐time Compression STN6500  12 Gigabit Ports; 8 GB Ram 

NetApp FAS270C OnTap 7.2.5.1 1 GB Ram 

7x 68 GB HDD Gigabit Ethernet 

 

Page 22: ESG Lab Validation Report on IBM Real-time Compression

 

© 2011, Enterprise Strategy Group, Inc. All Rights Reserved. 

                                  

  

   

20 Asylum Street  |  Milford, MA 01757  |  Tel:508.482.0188  Fax: 508.482.0218  |  www.enterprisestrategygroup.com