45
Методы визуализации для анализа зависящих от времени данных (Visual Methods for Analyzing Time-Oriented Data Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and Christian Tominski) Перевод – Борисенкова А., 424.

борисенкова методы визуализации для анализа зависящих от времени данных

  • Upload
    -

  • View
    261

  • Download
    1

Embed Size (px)

DESCRIPTION

2013 осень

Citation preview

Page 1: борисенкова методы визуализации для анализа зависящих от времени данных

Методы визуализации для анализа зависящих от времени данных

(Visual Methods for Analyzing Time-Oriented Data

Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and Christian Tominski)

Перевод – Борисенкова А., 424.

Page 2: борисенкова методы визуализации для анализа зависящих от времени данных

2

План доклада:

● введение● обзор визуализационных методов

представления данных● обзор аналитических методов обработки

данных● обзор методов с привлечением

пользователя● заключение

Page 3: борисенкова методы визуализации для анализа зависящих от времени данных

3

Три основных части процесса представления данных:

● Визуализация данных

● Анализ данных ● Внесение

корректировок пользователем

Page 4: борисенкова методы визуализации для анализа зависящих от времени данных

4

Основные особенности зависящих от времени данных

Данных обычно много

И у них много параметров, которые меняются со временем

И если это всё визуализировать, то экран будет переполнен информацией, среди которой можно потеряться

Надо что-то отбросить или скрыть

Page 5: борисенкова методы визуализации для анализа зависящих от времени данных

5

План доклада

● введение● обзор визуализационных методов

представления данных● обзор аналитических методов обработки

данных● обзор методов с привлечением

пользователя● заключение

Page 6: борисенкова методы визуализации для анализа зависящих от времени данных

6

Способы и концепции представления времени

● Линейное и повторяющееся время● Интервалы времени или дискретные точки● Упорядоченное время или представленное в

виде дерева время или время, воспринимаемое с нескольких точек зрения

(Большинство способов визуализации использует линейное время)

Page 7: борисенкова методы визуализации для анализа зависящих от времени данных

7

Следует подчеркнуть, что метод, разработанный для определенного вида данных, не должен применяться для визуализации другого вида данных.

Это может привести к невыразительности или неэффективности визуального представления, ошибкам и ложному толкованию

Page 8: борисенкова методы визуализации для анализа зависящих от времени данных

8

Повторяющееся время: спиральный граф

обнаружение ранее незамеченного периодического поведения данных

Page 9: борисенкова методы визуализации для анализа зависящих от времени данных

9

Что плохо и почему плохо

Неисследованные данные – неизвестные параметры – неизвестно, как именно визуализировать

Придется либо посадить пользователя, чтобы тот, заметив периодичность данных, нажал кнопку «стоп»,

...либо разрабатывать аналитические методы анализа данных, что интереснее. Подробнее – далее

Page 10: борисенкова методы визуализации для анализа зависящих от времени данных

10

Линейное время: дискретные точки

TimeWheel

Page 11: борисенкова методы визуализации для анализа зависящих от времени данных

112D TimeWheel и 3D TimeWheel

Page 12: борисенкова методы визуализации для анализа зависящих от времени данных

12

Что плохо и почему плохо

TimeWheel полезно только для многомерных данных с дискретным временем

Данные с интервальным временем не могут быть представлены

Page 13: борисенкова методы визуализации для анализа зависящих от времени данных

13

Интервалы времени: PlanningLines

Page 14: борисенкова методы визуализации для анализа зависящих от времени данных

14

Упорядоченная последовательность временных

точек: ThemeRiver

Page 15: борисенкова методы визуализации для анализа зависящих от времени данных

15

План доклада

● введение● обзор визуализационных методов

представления данных● обзор аналитических методов

обработки данных● обзор методов с привлечением

пользователя● заключение

Page 16: борисенкова методы визуализации для анализа зависящих от времени данных

16

Keim’s Visual Analytics Mantra

«Analyze First - Show the Important - Zoom and Filter, and Analyze Further - Details on Demand»

Сначала анализируем – показываем важное – приближаем, скрываем незначительное, продолжаем анализировать – если понадобится, покажем детали.

Page 17: борисенкова методы визуализации для анализа зависящих от времени данных

17

Методы, которыми проиллюстрируем важность

Keim’s Mantra

● концепция абстракции зависящих от времени данных

● анализ главных компонент● кластеризация

Page 18: борисенкова методы визуализации для анализа зависящих от времени данных

18

Концепция абстракции зависящих от времени данных

Требуется придумать способ анализа больших объемов всё время пополняющихся данных для упрощения последующей обработки

Создадим абстракцию, которая передает ключевые идеи, подавляя детали

Основная идея заключается в использовании качественных значений или паттернов, а не исходных данных, для дальнейшего анализа или визуализации

Предварительно данные требуется подготовить: оставить только корректные и нужные данные, отсортировать, etc.

Page 19: борисенкова методы визуализации для анализа зависящих от времени данных

19

Абстракция временных данных: три этапа

1) Подготовка данных: исключение данных с ошибками, сортировка

2) Преобразование входных данных в кривую с некоторой дополнительной информацией о распределении данных по этой кривой.

3) Преобразование количественных значений в качественные ("нормальный" или "высокий"), и объединение данных с одинаковыми качественными значениями во временные интервалы.

Page 20: борисенкова методы визуализации для анализа зависящих от времени данных

20

Красная область изображает сглаженную кривую, синие прямоугольники представляют временные интервалы устойчивых качественных значений, черная кривая – изначальные данные.

Page 21: борисенкова методы визуализации для анализа зависящих от времени данных

21

Выделение основных компонент

Из сырых данных выделяем те, которые соответствуют наибольшему разбросу значений, из оставшихся – снова выделяем те, которые соответствуют наибольшему разбросу значений, и так далее.

Алгоритм выделяет компоненты по порядку их значимости, что может помочь уменьшить размерность исходных данных, если она слишком велика.

Page 22: борисенкова методы визуализации для анализа зависящих от времени данных

22

Что плохо и почему плохо

Алгоритм не делает различий между зависимыми и независимыми переменными: все они равноправны. Из-за этого зависимость от времени может быть потеряна

Выход: исключить переменную «время» из рассмотрения, после завершения выделения остальных компонентов объединить время и выделенные компоненты

Page 23: борисенкова методы визуализации для анализа зависящих от времени данных

23

Число летних дней с максимальной дневной температурой выше 20C (синий), выше 25 C (фиолетовый), выше 30 C (зеленый), со среднесуточной температурой (желтый) и с максимальной (белый).

Page 24: борисенкова методы визуализации для анализа зависящих от времени данных

24

Кластеризация: Cluster Calendar View

Page 25: борисенкова методы визуализации для анализа зависящих от времени данных

25

Кластеризация: Rectangular View

Page 26: борисенкова методы визуализации для анализа зависящих от времени данных

26

План доклада

● введение● обзор визуализационных методов

представления данных● обзор аналитических методов обработки

данных● обзор методов с привлечением

пользователя● заключение

Page 27: борисенкова методы визуализации для анализа зависящих от времени данных

27

Анализ с привлечением пользователя при помощи

событий Взаимодействие с пользователем предполагает

параметризацию рассмотренных ранее методов визуализации и анализа данных. Большинство современных предназначенных для этого программ имеют интерактивный GUI для задания параметров с помощью, например, ползунков или чекбоксов.

Три шага:● – описание события;● – обнаружение события;● – представление события.

Page 28: борисенкова методы визуализации для анализа зависящих от времени данных

28

Что же хочет увидеть пользователь: описание события

Запрос: «Выбрать три последовательных дня с увеличением заболеваемости гриппом более чем на 15%». {(x, y, z)date | z.flu ≥ y.flu 1.15 ∗&& y.flu ≥ x.flu 1.15}∗

Page 29: борисенкова методы визуализации для анализа зависящих от времени данных

29

Обнаружение события

● Переменные в так или иначе определённой формуле инициализируются конкретными значениями из набора данных● Формула вычисляется в true или false

Процесс вычисления может повлечь большие накладные расходы, так что к выбору используемых алгоритмов вычисления стоит отнестись с вниманием

Page 30: борисенкова методы визуализации для анализа зависящих от времени данных

30

Учет пожеланий пользователя при визуализации данных:

представление событий

● Сообщить, что нашлось что-то, интересующее пользователя

● Выделить интересующие данные среди остальных данных

● Отразить, что же делает данные интересными для пользователя

Page 31: борисенкова методы визуализации для анализа зависящих от времени данных

31

«Выбрать дни с большим числом заражений»

Формула: {x | x.flu ≥ 300}

Page 32: борисенкова методы визуализации для анализа зависящих от времени данных

32

Что плохо и почему плохо

Не подходит для автоматического выявления событий в данных, если пользователь не представляет, что же именно искать

Page 33: борисенкова методы визуализации для анализа зависящих от времени данных

33

План доклада

● введение● обзор визуализационных методов

представления данных● обзор аналитических методов обработки

данных● обзор методов с привлечением

пользователя● заключение

Page 34: борисенкова методы визуализации для анализа зависящих от времени данных

34

Дальнейшее развитие методов визуализации

Page 35: борисенкова методы визуализации для анализа зависящих от времени данных

35

Спасибо за внимание!

Page 36: борисенкова методы визуализации для анализа зависящих от времени данных

36

REFERENCES

Visual Methods for Analyzing Time-Oriented Data by Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and Christian Tominski

Page 37: борисенкова методы визуализации для анализа зависящих от времени данных

37

REFERENCES

[1] B. Shneiderman, “The Eyes Have It: A Task by Data Type Taxonomy

for Information Visualizations,” in Proc. of the IEEE Symp. on Visual

Languages. IEEE Press, 1996, pp. 336–343.

[2] J. J. Thomas and K. A. Cook, “A Visual Analytics Agenda,” IEEE

Computer Graphics and Applications, vol. 26, no. 1, pp. 10–13, 2006.

[3] E. Hajnicz, Time Structures: Formal Description and Algorithmic Rep-

resentation, ser. Lecture Notes in Computer Science. Berlin: Springer-

Verlag, 1996, no. 1047.

[4] A. U. Frank, “Different Types of “Times” in GIS,” in Spatial and Tem-

poral Reasoning in Geographic Information Systems, M. J. Egenhofer

and R. G. Golledge, Eds. New York: Oxford University Press, 1998.

[5] W. Aigner, “Visualization of Time and Time-Oriented Information: Chal-

lenges and Conceptual Design,” Ph.D. dissertation, Vienna University of

Technology, 2006

Page 38: борисенкова методы визуализации для анализа зависящих от времени данных

38

R EFERENCES

.

[6] I. A. Goralwalla, M. T. Ozsu,

and D. Szafron, “An Object-Oriented

Framework for Temporal Data Models,” in Temporal Databases: Re-

search and Practice, E. et al., Ed. Springer, 1998, pp. 1–35.

[7] W. Muller and H. Schumann, “Visualization Methods for Time-

dependent Data - an Overview,” in Proc. of Winter Simulation 2003,

New Orleans, USA, Dec. 2003.

[8] S. F. Silva and T. Catarci, “Visualization of Linear Time-Oriented Data:

a Survey (Extended version),” Journal of Applied System Studies, vol. 3,

no. 2, 2002.

Page 39: борисенкова методы визуализации для анализа зависящих от времени данных

39

R EFERENCES

[9] M. Weber, M. Alexa, and W. Muller, “Visualizing Time-Series on

Spirals,” in Proc. of the IEEE Symp. on Information Visualization 2001

(InfoVis01), Oct. 2001, pp. 7–14.

[10] J. V. Carlis and J. A. Konstan, “Interactive Visualization of Serial

Periodic Data,” in Proc. of Symposium on User Interface Software and

Technology (UIST), 1998.

[11] K. P. Hewagamage, M. Hirakawa, and T. Ichikawa, “Interactive Visu-

alization of Spatiotemporal Patterns Using Spirals on a Geographical

Map,” in Proceedings of Symposium on Visual Languages (VL), Tokyo,

Japan, 1999.

[12] C. Tominski, J. Abello, and H. Schumann, “Axes-Based Visualizations

with Radial Layouts,” in Proc. of ACM Symp. on Applied Computing.

ACM Press, 2004, pp. 1242–1247.

[13] ——, “Interactive Poster: 3D Axes-Based Visualizations for Time Series

Data,” in Poster Compendium of IEEE Symp. on Information Visualiza-

tion (InfoVis’05), Minneapolis, USA, 2005.

Page 40: борисенкова методы визуализации для анализа зависящих от времени данных

40

R EFERENCES

[14] W. Aigner, S. Miksch, B. Thurnher, and S. Biffl, “PlanningLines: Novel

Glyphs for Representing Temporal Uncertainties and their Evaluation,”

in Proc. of the 9th Intl. Conf. on Information Visualisation (IV05). IEEE

Press, 2005.

[15] C. Plaisant, B. Milash, A. Rose, S. Widoff, and B. Shneiderman,

“LifeLines: Visualizing Personal Histories,” in CHI ’96: Proceedings of

the SIGCHI conference on Human factors in computing systems. ACM

Press, 1996.

[16] L. Chittaro and C. Combi, “Visualizing Queries on Databases of

Temporal Histories: New Metaphors and their Evaluation,” Data and

Knowledge Engineering, vol. 44, no. 2, pp. 239–264, 2003.

[17] S. Havre, E. Hetzler, P. Whitney, and L. Nowell, “ThemeRiver: Vi-

sualizing Thematic Changes in Large Document Collections,” IEEE

Transactions on Visualization and Computer Graphics, vol. 8, no. 1,

pp. 9–20, 2002

Page 41: борисенкова методы визуализации для анализа зависящих от времени данных

41

R EFERENCES

[18] R. L. Harris, Information Graphics: A Comprehensive Illustrated Refer-

ence. Oxford University Press, 1999.

[19] H. Hochheiser, “Interactive Graphical Querying of Time Series and

Linear Sequence Data Sets,” Ph.D. dissertation, University of Maryland,

2003.

[20] H. Doleisch, H. Hauser, M. Gasser, and R. Kosara, “Interactive

Focus+Context Analysis of Large, Time-Dependent Flow Simulation

Data,” Transactions of the Society for Modeling and Simulation Inter-

national, to appear 2007.

[21] J. Lin, E. Keogh, and S. Lonardi, “Visualizing and Discovering Non-

Trivial Patterns in Large Time Series Databases,” Information Visualiza-

tion, vol. 4, no. 2, pp. 61–82, 2005.

[22] D. Keim, “Scaling Visual Analytics to Very Large Data Sets,” Workshop

on Visual Analytics, Darmstadt, June 2005.

Page 42: борисенкова методы визуализации для анализа зависящих от времени данных

42

R EFERENCES

[23] W. J. Clancey, “Heuristic Classification,” Artificial Intelligence, vol. 27,

pp. 289–350, 1985.

[24] J. J. Thomas and K. A. Cook, Illuminating the Path: The Research and

Development Agenda for Visual Analytics. IEEE Press, 2005.

[25] J. Lin, E. Keogh, S. Lonardi, and B. Chiu, “A symbolic representation of

time series, with implications for streaming algorithms,” in Proc. ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge

Discovery. ACM Press, 2003.

S. Miksch, W. Horn, C. Popow, and F. Paky, “Utilizing Temporal Data

Abstraction for Data Validation and Therapy Planning for Artificially

Ventilated Newborn Infants,” AI in Medicine, vol. 8, no. 6, pp. 543–

576, 1996.

S. Miksch, A. Seyfang, W. Horn, and C. Popow, “Abstracting Steady

Qualitative Descriptions over Time from Noisy, High-Frequency Data,”

in Proc. of the Joint European Conf. on AI in Medicine and Med.

Decision Making (AIMDM’99). Springer, Berlin, 1999, pp. 281–290.

Page 43: борисенкова методы визуализации для анализа зависящих от времени данных

43

R EFERENCES

R. Bade, S. Schlechtweg, and S. Miksch, “Connecting Time-oriented

Data and Information to a Coherent Interactive Visualization,” in Proc.

of the 2004 Conf. on Human Factors in Computing Systems (CHI04).

ACM Press, 2004, pp. 105–112.

J. Lin, E. Keogh, L. Wei, and S. Lonardi, “Experiencing SAX: a Novel

Symbolic Representation of Time Series,” Data Mining and Knowledge

Discovery, 2007, to appear.

I. T. Jolliffe, Principal Component Analysis, 2nd ed., ser. Springer Series

in Statistics. Springer Verlag, New York, 2002.

S. dos Santos and K. Brodlie, “Gaining understanding of multivariate

and multidimensional data through visualization,” Computers & Graph-

ics, vol. 28, pp. 311–325, 2004.

S. Havre, E. Hetzler, and L. Nowell, “ThemeRiver: Visualizing Theme

Changes Over Time,” in Proc. IEEE Symp. on Information Visualization

(InfoVis’00), Salt Lake City, USA, Oct. 2000, pp. 115–123.

T. Nocke, H. Schumann, and U. B

ohm, “Methods for the Visualization

of Clustered Climate Data,” Computational Statistics, vol. 19, no. 1, pp.

75–94, 2004.

Page 44: борисенкова методы визуализации для анализа зависящих от времени данных

44

R EFERENCES

W. Muller, T. Nocke, and H. Schumann, “Enhancing the Visualization

Process with Principal Component Analysis to Support the Exploration

of Trends,” in Proc. of APVIS’06, 2006.

A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a review,”

ACM Computing Surveys, vol. 31, no. 3, pp. 264–323, 1999.

J. J. van Wijk and E. R. van Selow, “Cluster and Calendar Based

Visualization of Time Series Data,” in Proc. of the IEEE Symp. on

Information Visualization 1999 (InfoVis’99), 1999, pp. 4–9.

T. Nocke, H. Schumann, U. B

ohm, and M. Flechsig, “Information

Visualization Supporting Modeling and Evaluation Tasks for Climate

Models,” in Proc. of Winter Simulation 2003, New Orleans, USA, Dec.

2003.

J. Seo and B. Shneiderman, “A Rank-by-Feature Framework for Interac-

tive Exploration of Multidimensional Data,” Information Visualization,

vol. 4, no. 2, pp. 99–113, 2005.

E. Keogh, H. Hochheiser, and B. Shneiderman, “An Augmented Visual

Query Mechanism for Finding Patterns in Time Series Data,” in Proc.

Fifth International Conference on Flexible Query Answering Systems.

Springer-Verlag, 2002.

Page 45: борисенкова методы визуализации для анализа зависящих от времени данных

45

R EFERENCES

K. Henriksen, J. Sporring, and K. Hornbaek, “Virtual Trackballs Re-

visited,” IEEE Transactions on Visualization and Computer Graphics,

vol. 10, no. 2, pp. 206–216, 2004.

C. Tominski, “Event-Based Visualization for User-Centered Visual Anal-

ysis,” Ph.D. dissertation, University of Rostock, 2006.

S. dos Santos and K. Brodlie, “Gaining understanding of multivariate

and multidimensional data through visualization,” Computers & Graph-

ics, vol. 28, no. 3, pp. 311–325, 2004.

R. Sadri, C. Zaniolo, A. Zarkesh, and J. Adibi, “Expressing and

Optimizing Sequence Queries in Database Systems,” ACM Transactions

on Database Systems, vol. 29, no. 2, pp. 282–318, 2004.

D. H. House, A. S. Bair, and C. Ware, “An Approach to the Perceptual

Optimization of Complex Visualizations,” IEEE Transactions on Visu-

laization and Computer Graphics, vol. 12, no. 4, pp. 509–521, 2006.