Интеллектуальный анализ данных и хранилище данных
Data Mining и Data Warehousing - очень мощные и популярные методы анализа данных. Пользователи, склонные к статистике, используют Data Mining. Они используют статистические модели для поиска скрытых закономерностей в данных. Майнеры данных заинтересованы в поиске полезных взаимосвязей между различными элементами данных, что в конечном итоге выгодно для бизнеса. Но, с другой стороны, эксперты по данным, которые могут напрямую анализировать аспекты бизнеса, как правило, используют хранилища данных.
Интеллектуальный анализ данных также известен как обнаружение знаний в данных (KDD). Как упоминалось выше, это область информатики, которая занимается извлечением ранее неизвестной и интересной информации из необработанных данных. Из-за экспоненциального роста данных, особенно в таких областях, как бизнес, интеллектуальный анализ данных стал очень важным инструментом для преобразования этого большого количества данных в бизнес-аналитику, поскольку ручное извлечение шаблонов стало, по-видимому, невозможным в последние несколько десятилетий. Например, в настоящее время он используется для различных приложений, таких как анализ социальных сетей, обнаружение мошенничества и маркетинг. Интеллектуальный анализ данных обычно имеет дело со следующими четырьмя задачами: кластеризация, классификация, регрессия и ассоциация. Кластеризация - это выявление похожих групп из неструктурированных данных. Классификация - это правила обучения, которые можно применять к новым данным и обычно включают следующие этапы: предварительная обработка данных, проектирование моделирования, изучение/выбор признаков и оценка/проверка. Регрессия - это поиск функций с минимальной ошибкой для моделирования данных. А ассоциация ищет связи между переменными. Интеллектуальный анализ данных обычно используется для ответа на такие вопросы, как, например, какие основные продукты могут помочь Wal-Mart получить высокую прибыль в следующем году?
Как упоминалось выше, хранилище данных также используется для анализа данных, но другими группами пользователей и с несколько иной целью. Например, когда дело доходит до сектора розничной торговли, пользователей хранилищ данных больше заботит, какие виды покупок популярны среди клиентов, поэтому результаты анализа могут помочь клиенту, улучшив качество обслуживания клиентов. Но майнеры данных сначала выдвигают гипотезу, например, какие клиенты покупают определенный тип продукта, и анализируют данные, чтобы проверить гипотезу. Хранилищем данных может заниматься крупный розничный торговец, который сначала снабжает свои магазины товарами одинакового размера, а затем обнаруживает, что магазины в Нью-Йорке продают товары меньшего размера гораздо быстрее, чем в магазинах Чикаго. Итак, взглянув на этот результат, розничный продавец может предложить магазину в Нью-Йорке меньшего размера по сравнению с магазинами в Чикаго.
Итак, как вы можете ясно видеть, эти два типа анализа кажутся невооруженным глазом одной и той же природы. Оба обеспокоены увеличением прибыли на основе исторических данных. Но, конечно, есть ключевые отличия. Проще говоря, интеллектуальный анализ данных и хранилище данных предназначены для предоставления различных типов аналитики, но определенно для разных типов пользователей. Другими словами, интеллектуальный анализ данных ищет корреляции, шаблоны для поддержки статистической гипотезы. Но хранилище данных отвечает на сравнительно более широкий вопрос, и оно нарезает и разбивает данные оттуда и далее, чтобы определить пути улучшения в будущем.