Upload
-
View
261
Download
1
Embed Size (px)
DESCRIPTION
2013 осень
Citation preview
Методы визуализации для анализа зависящих от времени данных
(Visual Methods for Analyzing Time-Oriented Data
Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and Christian Tominski)
Перевод – Борисенкова А., 424.
2
План доклада:
● введение● обзор визуализационных методов
представления данных● обзор аналитических методов обработки
данных● обзор методов с привлечением
пользователя● заключение
3
Три основных части процесса представления данных:
● Визуализация данных
● Анализ данных ● Внесение
корректировок пользователем
4
Основные особенности зависящих от времени данных
Данных обычно много
И у них много параметров, которые меняются со временем
И если это всё визуализировать, то экран будет переполнен информацией, среди которой можно потеряться
Надо что-то отбросить или скрыть
5
План доклада
● введение● обзор визуализационных методов
представления данных● обзор аналитических методов обработки
данных● обзор методов с привлечением
пользователя● заключение
6
Способы и концепции представления времени
● Линейное и повторяющееся время● Интервалы времени или дискретные точки● Упорядоченное время или представленное в
виде дерева время или время, воспринимаемое с нескольких точек зрения
(Большинство способов визуализации использует линейное время)
7
Следует подчеркнуть, что метод, разработанный для определенного вида данных, не должен применяться для визуализации другого вида данных.
Это может привести к невыразительности или неэффективности визуального представления, ошибкам и ложному толкованию
8
Повторяющееся время: спиральный граф
обнаружение ранее незамеченного периодического поведения данных
9
Что плохо и почему плохо
Неисследованные данные – неизвестные параметры – неизвестно, как именно визуализировать
Придется либо посадить пользователя, чтобы тот, заметив периодичность данных, нажал кнопку «стоп»,
...либо разрабатывать аналитические методы анализа данных, что интереснее. Подробнее – далее
10
Линейное время: дискретные точки
TimeWheel
112D TimeWheel и 3D TimeWheel
12
Что плохо и почему плохо
TimeWheel полезно только для многомерных данных с дискретным временем
Данные с интервальным временем не могут быть представлены
13
Интервалы времени: PlanningLines
14
Упорядоченная последовательность временных
точек: ThemeRiver
15
План доклада
● введение● обзор визуализационных методов
представления данных● обзор аналитических методов
обработки данных● обзор методов с привлечением
пользователя● заключение
16
Keim’s Visual Analytics Mantra
«Analyze First - Show the Important - Zoom and Filter, and Analyze Further - Details on Demand»
Сначала анализируем – показываем важное – приближаем, скрываем незначительное, продолжаем анализировать – если понадобится, покажем детали.
17
Методы, которыми проиллюстрируем важность
Keim’s Mantra
● концепция абстракции зависящих от времени данных
● анализ главных компонент● кластеризация
18
Концепция абстракции зависящих от времени данных
Требуется придумать способ анализа больших объемов всё время пополняющихся данных для упрощения последующей обработки
Создадим абстракцию, которая передает ключевые идеи, подавляя детали
Основная идея заключается в использовании качественных значений или паттернов, а не исходных данных, для дальнейшего анализа или визуализации
Предварительно данные требуется подготовить: оставить только корректные и нужные данные, отсортировать, etc.
19
Абстракция временных данных: три этапа
1) Подготовка данных: исключение данных с ошибками, сортировка
2) Преобразование входных данных в кривую с некоторой дополнительной информацией о распределении данных по этой кривой.
3) Преобразование количественных значений в качественные ("нормальный" или "высокий"), и объединение данных с одинаковыми качественными значениями во временные интервалы.
20
Красная область изображает сглаженную кривую, синие прямоугольники представляют временные интервалы устойчивых качественных значений, черная кривая – изначальные данные.
21
Выделение основных компонент
Из сырых данных выделяем те, которые соответствуют наибольшему разбросу значений, из оставшихся – снова выделяем те, которые соответствуют наибольшему разбросу значений, и так далее.
Алгоритм выделяет компоненты по порядку их значимости, что может помочь уменьшить размерность исходных данных, если она слишком велика.
22
Что плохо и почему плохо
Алгоритм не делает различий между зависимыми и независимыми переменными: все они равноправны. Из-за этого зависимость от времени может быть потеряна
Выход: исключить переменную «время» из рассмотрения, после завершения выделения остальных компонентов объединить время и выделенные компоненты
23
Число летних дней с максимальной дневной температурой выше 20C (синий), выше 25 C (фиолетовый), выше 30 C (зеленый), со среднесуточной температурой (желтый) и с максимальной (белый).
24
Кластеризация: Cluster Calendar View
25
Кластеризация: Rectangular View
26
План доклада
● введение● обзор визуализационных методов
представления данных● обзор аналитических методов обработки
данных● обзор методов с привлечением
пользователя● заключение
27
Анализ с привлечением пользователя при помощи
событий Взаимодействие с пользователем предполагает
параметризацию рассмотренных ранее методов визуализации и анализа данных. Большинство современных предназначенных для этого программ имеют интерактивный GUI для задания параметров с помощью, например, ползунков или чекбоксов.
Три шага:● – описание события;● – обнаружение события;● – представление события.
28
Что же хочет увидеть пользователь: описание события
Запрос: «Выбрать три последовательных дня с увеличением заболеваемости гриппом более чем на 15%». {(x, y, z)date | z.flu ≥ y.flu 1.15 ∗&& y.flu ≥ x.flu 1.15}∗
29
Обнаружение события
● Переменные в так или иначе определённой формуле инициализируются конкретными значениями из набора данных● Формула вычисляется в true или false
Процесс вычисления может повлечь большие накладные расходы, так что к выбору используемых алгоритмов вычисления стоит отнестись с вниманием
30
Учет пожеланий пользователя при визуализации данных:
представление событий
● Сообщить, что нашлось что-то, интересующее пользователя
● Выделить интересующие данные среди остальных данных
● Отразить, что же делает данные интересными для пользователя
31
«Выбрать дни с большим числом заражений»
Формула: {x | x.flu ≥ 300}
32
Что плохо и почему плохо
Не подходит для автоматического выявления событий в данных, если пользователь не представляет, что же именно искать
33
План доклада
● введение● обзор визуализационных методов
представления данных● обзор аналитических методов обработки
данных● обзор методов с привлечением
пользователя● заключение
34
Дальнейшее развитие методов визуализации
35
Спасибо за внимание!
36
REFERENCES
Visual Methods for Analyzing Time-Oriented Data by Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and Christian Tominski
37
REFERENCES
[1] B. Shneiderman, “The Eyes Have It: A Task by Data Type Taxonomy
for Information Visualizations,” in Proc. of the IEEE Symp. on Visual
Languages. IEEE Press, 1996, pp. 336–343.
[2] J. J. Thomas and K. A. Cook, “A Visual Analytics Agenda,” IEEE
Computer Graphics and Applications, vol. 26, no. 1, pp. 10–13, 2006.
[3] E. Hajnicz, Time Structures: Formal Description and Algorithmic Rep-
resentation, ser. Lecture Notes in Computer Science. Berlin: Springer-
Verlag, 1996, no. 1047.
[4] A. U. Frank, “Different Types of “Times” in GIS,” in Spatial and Tem-
poral Reasoning in Geographic Information Systems, M. J. Egenhofer
and R. G. Golledge, Eds. New York: Oxford University Press, 1998.
[5] W. Aigner, “Visualization of Time and Time-Oriented Information: Chal-
lenges and Conceptual Design,” Ph.D. dissertation, Vienna University of
Technology, 2006
38
R EFERENCES
.
[6] I. A. Goralwalla, M. T. Ozsu,
and D. Szafron, “An Object-Oriented
Framework for Temporal Data Models,” in Temporal Databases: Re-
search and Practice, E. et al., Ed. Springer, 1998, pp. 1–35.
[7] W. Muller and H. Schumann, “Visualization Methods for Time-
dependent Data - an Overview,” in Proc. of Winter Simulation 2003,
New Orleans, USA, Dec. 2003.
[8] S. F. Silva and T. Catarci, “Visualization of Linear Time-Oriented Data:
a Survey (Extended version),” Journal of Applied System Studies, vol. 3,
no. 2, 2002.
39
R EFERENCES
[9] M. Weber, M. Alexa, and W. Muller, “Visualizing Time-Series on
Spirals,” in Proc. of the IEEE Symp. on Information Visualization 2001
(InfoVis01), Oct. 2001, pp. 7–14.
[10] J. V. Carlis and J. A. Konstan, “Interactive Visualization of Serial
Periodic Data,” in Proc. of Symposium on User Interface Software and
Technology (UIST), 1998.
[11] K. P. Hewagamage, M. Hirakawa, and T. Ichikawa, “Interactive Visu-
alization of Spatiotemporal Patterns Using Spirals on a Geographical
Map,” in Proceedings of Symposium on Visual Languages (VL), Tokyo,
Japan, 1999.
[12] C. Tominski, J. Abello, and H. Schumann, “Axes-Based Visualizations
with Radial Layouts,” in Proc. of ACM Symp. on Applied Computing.
ACM Press, 2004, pp. 1242–1247.
[13] ——, “Interactive Poster: 3D Axes-Based Visualizations for Time Series
Data,” in Poster Compendium of IEEE Symp. on Information Visualiza-
tion (InfoVis’05), Minneapolis, USA, 2005.
40
R EFERENCES
[14] W. Aigner, S. Miksch, B. Thurnher, and S. Biffl, “PlanningLines: Novel
Glyphs for Representing Temporal Uncertainties and their Evaluation,”
in Proc. of the 9th Intl. Conf. on Information Visualisation (IV05). IEEE
Press, 2005.
[15] C. Plaisant, B. Milash, A. Rose, S. Widoff, and B. Shneiderman,
“LifeLines: Visualizing Personal Histories,” in CHI ’96: Proceedings of
the SIGCHI conference on Human factors in computing systems. ACM
Press, 1996.
[16] L. Chittaro and C. Combi, “Visualizing Queries on Databases of
Temporal Histories: New Metaphors and their Evaluation,” Data and
Knowledge Engineering, vol. 44, no. 2, pp. 239–264, 2003.
[17] S. Havre, E. Hetzler, P. Whitney, and L. Nowell, “ThemeRiver: Vi-
sualizing Thematic Changes in Large Document Collections,” IEEE
Transactions on Visualization and Computer Graphics, vol. 8, no. 1,
pp. 9–20, 2002
41
R EFERENCES
[18] R. L. Harris, Information Graphics: A Comprehensive Illustrated Refer-
ence. Oxford University Press, 1999.
[19] H. Hochheiser, “Interactive Graphical Querying of Time Series and
Linear Sequence Data Sets,” Ph.D. dissertation, University of Maryland,
2003.
[20] H. Doleisch, H. Hauser, M. Gasser, and R. Kosara, “Interactive
Focus+Context Analysis of Large, Time-Dependent Flow Simulation
Data,” Transactions of the Society for Modeling and Simulation Inter-
national, to appear 2007.
[21] J. Lin, E. Keogh, and S. Lonardi, “Visualizing and Discovering Non-
Trivial Patterns in Large Time Series Databases,” Information Visualiza-
tion, vol. 4, no. 2, pp. 61–82, 2005.
[22] D. Keim, “Scaling Visual Analytics to Very Large Data Sets,” Workshop
on Visual Analytics, Darmstadt, June 2005.
42
R EFERENCES
[23] W. J. Clancey, “Heuristic Classification,” Artificial Intelligence, vol. 27,
pp. 289–350, 1985.
[24] J. J. Thomas and K. A. Cook, Illuminating the Path: The Research and
Development Agenda for Visual Analytics. IEEE Press, 2005.
[25] J. Lin, E. Keogh, S. Lonardi, and B. Chiu, “A symbolic representation of
time series, with implications for streaming algorithms,” in Proc. ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge
Discovery. ACM Press, 2003.
S. Miksch, W. Horn, C. Popow, and F. Paky, “Utilizing Temporal Data
Abstraction for Data Validation and Therapy Planning for Artificially
Ventilated Newborn Infants,” AI in Medicine, vol. 8, no. 6, pp. 543–
576, 1996.
S. Miksch, A. Seyfang, W. Horn, and C. Popow, “Abstracting Steady
Qualitative Descriptions over Time from Noisy, High-Frequency Data,”
in Proc. of the Joint European Conf. on AI in Medicine and Med.
Decision Making (AIMDM’99). Springer, Berlin, 1999, pp. 281–290.
43
R EFERENCES
R. Bade, S. Schlechtweg, and S. Miksch, “Connecting Time-oriented
Data and Information to a Coherent Interactive Visualization,” in Proc.
of the 2004 Conf. on Human Factors in Computing Systems (CHI04).
ACM Press, 2004, pp. 105–112.
J. Lin, E. Keogh, L. Wei, and S. Lonardi, “Experiencing SAX: a Novel
Symbolic Representation of Time Series,” Data Mining and Knowledge
Discovery, 2007, to appear.
I. T. Jolliffe, Principal Component Analysis, 2nd ed., ser. Springer Series
in Statistics. Springer Verlag, New York, 2002.
S. dos Santos and K. Brodlie, “Gaining understanding of multivariate
and multidimensional data through visualization,” Computers & Graph-
ics, vol. 28, pp. 311–325, 2004.
S. Havre, E. Hetzler, and L. Nowell, “ThemeRiver: Visualizing Theme
Changes Over Time,” in Proc. IEEE Symp. on Information Visualization
(InfoVis’00), Salt Lake City, USA, Oct. 2000, pp. 115–123.
T. Nocke, H. Schumann, and U. B
ohm, “Methods for the Visualization
of Clustered Climate Data,” Computational Statistics, vol. 19, no. 1, pp.
75–94, 2004.
44
R EFERENCES
W. Muller, T. Nocke, and H. Schumann, “Enhancing the Visualization
Process with Principal Component Analysis to Support the Exploration
of Trends,” in Proc. of APVIS’06, 2006.
A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a review,”
ACM Computing Surveys, vol. 31, no. 3, pp. 264–323, 1999.
J. J. van Wijk and E. R. van Selow, “Cluster and Calendar Based
Visualization of Time Series Data,” in Proc. of the IEEE Symp. on
Information Visualization 1999 (InfoVis’99), 1999, pp. 4–9.
T. Nocke, H. Schumann, U. B
ohm, and M. Flechsig, “Information
Visualization Supporting Modeling and Evaluation Tasks for Climate
Models,” in Proc. of Winter Simulation 2003, New Orleans, USA, Dec.
2003.
J. Seo and B. Shneiderman, “A Rank-by-Feature Framework for Interac-
tive Exploration of Multidimensional Data,” Information Visualization,
vol. 4, no. 2, pp. 99–113, 2005.
E. Keogh, H. Hochheiser, and B. Shneiderman, “An Augmented Visual
Query Mechanism for Finding Patterns in Time Series Data,” in Proc.
Fifth International Conference on Flexible Query Answering Systems.
Springer-Verlag, 2002.
45
R EFERENCES
K. Henriksen, J. Sporring, and K. Hornbaek, “Virtual Trackballs Re-
visited,” IEEE Transactions on Visualization and Computer Graphics,
vol. 10, no. 2, pp. 206–216, 2004.
C. Tominski, “Event-Based Visualization for User-Centered Visual Anal-
ysis,” Ph.D. dissertation, University of Rostock, 2006.
S. dos Santos and K. Brodlie, “Gaining understanding of multivariate
and multidimensional data through visualization,” Computers & Graph-
ics, vol. 28, no. 3, pp. 311–325, 2004.
R. Sadri, C. Zaniolo, A. Zarkesh, and J. Adibi, “Expressing and
Optimizing Sequence Queries in Database Systems,” ACM Transactions
on Database Systems, vol. 29, no. 2, pp. 282–318, 2004.
D. H. House, A. S. Bair, and C. Ware, “An Approach to the Perceptual
Optimization of Complex Visualizations,” IEEE Transactions on Visu-
laization and Computer Graphics, vol. 12, no. 4, pp. 509–521, 2006.