KDD против интеллектуального анализа данных
KDD (обнаружение знаний в базах данных) - это область компьютерных наук, которая включает в себя инструменты и теории, помогающие людям извлекать полезную и ранее неизвестную информацию (т. е. знания) из больших коллекций оцифрованных данных. KDD состоит из нескольких шагов, и Data Mining - один из них. Интеллектуальный анализ данных - это применение определенного алгоритма для извлечения шаблонов из данных. Тем не менее, KDD и Data Mining взаимозаменяемы.
Что такое KDD?
Как упоминалось выше, KDD - это область компьютерных наук, которая занимается извлечением ранее неизвестной и интересной информации из необработанных данных. KDD - это весь процесс попытки осмыслить данные путем разработки соответствующих методов или приемов. Этот процесс связан с отображением низкоуровневых данных в другие формы, более компактные, абстрактные и полезные. Это достигается созданием кратких отчетов, моделированием процесса генерации данных и разработкой прогностических моделей, способных предсказывать будущие случаи. Из-за экспоненциального роста данных, особенно в таких областях, как бизнес, KDD стал очень важным процессом для преобразования этого большого количества данных в бизнес-аналитику, поскольку ручное извлечение шаблонов за последние несколько десятилетий стало практически невозможным. Например, в настоящее время он используется для различных приложений, таких как анализ социальных сетей, обнаружение мошенничества, наука, инвестиции, производство, телекоммуникации, очистка данных, спорт, поиск информации и в основном для маркетинга. KDD обычно используется для ответа на такие вопросы, как «Какие основные продукты могут помочь Wal-Mart получить высокую прибыль в следующем году?». Этот процесс состоит из нескольких шагов. Он начинается с понимания области приложения и цели, а затем создания целевого набора данных. Далее следует очистка, предварительная обработка, сокращение и проецирование данных. Следующим шагом является использование интеллектуального анализа данных (объяснено ниже) для выявления шаблона. Наконец, полученные знания закрепляются визуализацией и/или интерпретацией.
Что такое интеллектуальный анализ данных?
Как упоминалось выше, интеллектуальный анализ данных - это только шаг в рамках общего процесса KDD. Есть две основные цели интеллектуального анализа данных, определяемые целью приложения, а именно проверка или обнаружение. Верификация - это проверка гипотезы пользователя о данных, а обнаружение - это автоматический поиск интересных закономерностей. Существует четыре основных задачи интеллектуального анализа данных: кластеризация, классификация, регрессия и ассоциация (обобщение). Кластеризация - это выявление похожих групп из неструктурированных данных. Классификация - это изучение правил, которые можно применять к новым данным. Регрессия - это поиск функций с минимальной ошибкой для моделирования данных. А ассоциация ищет отношения между переменными. Затем необходимо выбрать конкретный алгоритм интеллектуального анализа данных. В зависимости от цели могут быть выбраны различные алгоритмы, такие как линейная регрессия, логистическая регрессия, деревья решений и наивный байесовский алгоритм. Затем отыскиваются интересующие образцы в одной или нескольких формах представления. Наконец, модели оцениваются либо с точки зрения точности прогнозирования, либо с точки зрения понятности.
В чем разница между KDD и интеллектуальным анализом данных?
Несмотря на то, что два термина KDD и интеллектуальный анализ данных широко используются взаимозаменяемо, они относятся к двум связанным, но немного различающимся понятиям. KDD - это общий процесс извлечения знаний из данных, в то время как интеллектуальный анализ данных - это шаг внутри процесса KDD, который касается выявления закономерностей в данных. Другими словами, интеллектуальный анализ данных - это всего лишь применение определенного алгоритма, основанного на общей цели процесса KDD.