Данные
Типы наборов данных
Данные, состоящие из записей
Наиболее часто встречающиеся данные - данные, состоящие из записей (record data) [7]. Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или операционные.
Табличные данные - данные, состоящие из записей, каждая из которых состоит из фиксированного набора атрибутов.
Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.
Пример транзакционной базы данных, содержащей перечень покупок клиентов магазина, приведен на рис. 2.1.
Графические данные
Примеры графических данных: WWW-данные; молекулярные структуры; графы (рис. 2.2); карты.
С помощью карт, например, можно отследить изменения объектов во времени и пространстве, определить характер их распределения на плоскости или в пространстве. Преимуществом графического представления данных является большая простота их восприятия, чем, например, табличных данных.
Пример карты, являющейся картой Кохонена (моделью нейронных сетей, которые будут рассмотрены в одной из лекций нашего курса), представлен на рис. 2.3.
Химические данные
Химические данные представляют собой особый тип данных. Пример таких данных: Benzene Molecule: C6H6 (рис. 2.4)
Согласно опросу на сайте Kdnuggets, www.kdnuggets.com (апрель, 2004 г.) "Типы анализируемых данных", наибольшее число опрошенных анализирует данные из "плоских" (flat table) и реляционных таблиц (26% и 24% соответственно), далее идут временные ряды (14%) и данные в виде текста (11%).
Остальные анализируемые типы данных в порядке убывания: web-контенты, XML, графика, аудио, видео и др.
Здесь и в следующих лекциях приводятся результаты опросов, проведенных на сайте Kdnuggets, который признан одним из наиболее авторитетных и известных сайтов в сфере Data Mining.