Тематический план
Введение
Предмет дисциплины и ее задачи. Краткие сведения о развитии теории анализа и интерпретации данных. Структура, содержание дисциплины, ее связи с другими дисциплинами учебного плана специальности. Перечень дисциплин и их разделов, усвоение которых необходимо студентам для изучения курса «Анализ и интерпретация данных».Тема 1. Основные понятия дисциплины
Введение в анализ данных. Проблема обработки данных. Матрица данных. Гипотезы компактности и скрытых факторов. Структура матрицы данных и задачи обработки. Матрица объект-объект и признак-признак. Расстояние и близость. Измерение признаков. Отношения и их представление. Основные проблемы измерений. Основные типы шкал. Проблема адекватности. Основные задачи анализа и интерпретации данных .Тема 2. Классификация данных с использованием детерминированных моделей
Решающие поверхности и дискриминантные функции. Линейные дискриминантные функции. Линейная разделимость. Кусочно-линейные дискриминантные функции. Нелинейные дискриминантные функции. Фи-машины. Потенциальные функции как дискриминантные функции. Пространство весов. Процедуры обучения с коррекцией ошибок: правило с фиксированным приращением, правило абсолютной коррекции, частично корректирующее правило. Обобщенные градиентные методы. Персептронный критерий. Процедуры обучения на основе минимальной среднеквадратичной ошибки: псевдоинверсный метод, метод Хо-КашпаТема 3. Классификация данных на основе статистических моделей
Функция потерь. Байесовская дискриминантная функция. Принятие решение по максимуму правдоподобия. Оптимальная дискриминантная функция для нормально распределенных образов. Дискриминантная функция Фишера. Множественный дискриминантный анализ. Пошаговый дискриминантный анализ. Ошибки классификации. Примеры построения статистических дискриминантных функций для различных статистических моделей данных. Обучение для статистических дискриминантных функций. Оценки максимального правдоподобия, байесовские оценки. Непараметрическое оценивание. Парзеновские окна, метод непараметрического оценивания на основе К-ближайшего соседстваТема 4. Кластер-анализ
Основные типы задач кластер-анализа. Меры подобия и функции расстояния . Выбор критерия кластеризации. Кластерные методы, основанные на евклидовой метрике. Иерархическая кластеризация. Метод К-внутригрупповых средних. Использование методов теории графов в задачах кластеризации. Кластеризация на основе анализа плотностей вероятностейТема 5. Методы снижения размерностей данных
Анализ матриц исходных данных. Метод главных компонент. Корреляционная матрица и ее основные свойства. Собственные векторы и собственные числа корреляционной матрицы. Приведение корреляционной матрицы к диагональной форме. Геометрическая интерпретация главных компонент на плоскости. Модели факторного анализа. Оценка факторных нагрузок методом максимального правдоподобия и центроидным методом. Вращение факторов и их интерпретация. Использование кластеризации признаков для снижения размерности. Многомерное шкалирование. Метрический и неметрический подход к многомерному шкалированию. Методы ортогонального проектирования. Нелинейные методы многомерного шкалирования. Многомерное шкалирование неметрических данных. Многомерные разверткиТема 6. Системы DATA MINING в задачах анализа и интерпретации данных
Понятие об интеллектуальных системах анализа и интерпретации данных. DATA MINING - системы извлечения новых знаний из данных. Типы систем DATA MINING -предметно-ориентированные аналитические системы, статистические пакеты, нейронные сети, деревья решений, обнаружение логических закономерностей, генетические алгоритмы, системы визуализации многомерных данныхТема 7. Современные пакеты прикладных программ для решения задач обработки экспериментальных данных
Табличные процессоры и базы данных в задачах обработки данных. Виды статистических пакетов. Требования к статистическим пакетам общего назначения. Общая характеристика пакетов "STATGRAFICS Plus", "STATISTICA", SAS, SPSS . Комплексные системы класса DATA MINING для обработки данных - "PolyAnalist", Intelligent Miner