Data Mining
"Data mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности."
G. Piatetsky-Shapiro, GTE Labs

Продукты для анализа данных
(Data mining)
Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из сырых данных практически полезных знаний. PolyAnalyst находит многофакторные зависимости между переменными в базе данных, автоматически строит и тестирует многомерные нелинейные модели, выражающие найденные зависимости, выводит классификационные правила по обучающим примерам, находит в данных многомерные кластеры, строит алгоритмы решений.
PolyAnalyst используется в более чем 20 странах мира для решения задач из различных областей человеческой деятельности: бизнеса, финансов, науки, медицины. В настоящее время - это одна из самых мощных и в то же время доступных в ценовом отношении коммерческих систем для Data mining в мире.

Exploration engines (Машины исследований)
Основу PolyAnalyst составляют так называемые Exploration engines или Машины исследований - математические модули, основанные на различных DM алгоритмах, и предназначенные для автоматического анализа данных. Компания Megaputer Intelligence ведет интенсивные исследования, направленные на расширение аналитических функций системы PolyAnalyst, разработку новых DM алгоритмов и новых математических модулей системы.
Последняя версия PolyAnalyst 4.5 включает 14 Машин исследований:
Название модуля |
Технология/методы |
Find Laws Algorithm (FL) |
Symbolic Knowledge Acquisition Technology, Эволюционное программирование |
PolyNet Predictor Algorithm (PN) |
GMDH-Neural Net hybrid, гибрид метода МГУА и нейронных сетей |
Find Dependencies Algorithm (FD) |
N-dimensional distribution analysis, N-мерный анализ распределений |
Cluster Algorithm (FC) |
Localization of Anomalies, N-мерный кластеризатор |
PAY Algorithm (MB) |
Memory Based Reasoning and Genetic Algorithms hybrid, гибрид метода "ближайших соседей" и генетических алгоритмов |
Market Basket Analysis (BA) |
Transactional clustering and directed association rules, транзакционный кластеризатор с генерацией направленных ассоциативных правил |
Linear Regression (LR) |
Stepwise Linear Regression, многопараметрическая линейная регрессия с автоматическим выбором независимых переменных |
Classify Algorithm (CL) |
Fuzzy logic classification, классификация по булевой целевой переменной, необходимо наличие модуля FL, или PN, или MB, или LR |
Disciminate (DS) |
Модификация модуля CL, обнаруживает различия между двумя таблицами |
Decision Trees (DT) |
Модуль "деревья решений", классификация на категории |
Decision Forest (DF) |
Многомерное «дерево решений», классификация на большое количество категорий |
Text Analysis (TA) |
Модуль текстового анализа, преобразует неструктурированный текст в пространство формальных признаков для последующего анализа алгоритмами Data mining (пока только английский язык) |
Link Analysis (LA) |
Модуль нахождения и графической визуализации связей между объектами |
Summary Statistics (SS) |
Модуль общей статистики |
|

|