Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 2:

Данные

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >

Типы наборов данных

Данные, состоящие из записей

Наиболее часто встречающиеся данные - данные, состоящие из записей (record data) [7]. Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или операционные.

Табличные данные - данные, состоящие из записей, каждая из которых состоит из фиксированного набора атрибутов.

Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.

Пример транзакционной базы данных, содержащей перечень покупок клиентов магазина, приведен на рис. 2.1.

Пример транзакционных данных

Рис. 2.1. Пример транзакционных данных

Графические данные

Примеры графических данных: WWW-данные; молекулярные структуры; графы (рис. 2.2); карты.

Пример графа

Рис. 2.2. Пример графа

С помощью карт, например, можно отследить изменения объектов во времени и пространстве, определить характер их распределения на плоскости или в пространстве. Преимуществом графического представления данных является большая простота их восприятия, чем, например, табличных данных.

Пример карты, являющейся картой Кохонена (моделью нейронных сетей, которые будут рассмотрены в одной из лекций нашего курса), представлен на рис. 2.3.

Пример данных типа "Карта Кохонена"

Рис. 2.3. Пример данных типа "Карта Кохонена"

Химические данные

Химические данные представляют собой особый тип данных. Пример таких данных: Benzene Molecule: C6H6 (рис. 2.4)

Пример химических данных

Рис. 2.4. Пример химических данных

Согласно опросу на сайте Kdnuggets, www.kdnuggets.com (апрель, 2004 г.) "Типы анализируемых данных", наибольшее число опрошенных анализирует данные из "плоских" (flat table) и реляционных таблиц (26% и 24% соответственно), далее идут временные ряды (14%) и данные в виде текста (11%).

Остальные анализируемые типы данных в порядке убывания: web-контенты, XML, графика, аудио, видео и др.

Здесь и в следующих лекциях приводятся результаты опросов, проведенных на сайте Kdnuggets, который признан одним из наиболее авторитетных и известных сайтов в сфере Data Mining.

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >
Михаил Щукин
Михаил Щукин
Россия, Москва, МТУСИ