С

Статистическое вывода

Статистическое вывода (англ. Statistical inference) — это процесс установления свойств распределения, лежащий в основе, путем анализа данных. Выводной статистический анализ выводит свойства генеральной совокупности: это включает проверку гипотез и получения оценок. Генеральная совокупность считается больше наблюдаемый набор данных; другими словами, наблюдаемые данные считаются выборке с большей совокупности.

Выводной статистика может противопоставляться описательной статистике. Описательная статистика интересуется исключительно свойствами наблюдаемых данных, и не предполагает, что эти данные могут происходить из большей совокупности.

Предисловие

Статистическое вывода выдвигает суждения о генеральной совокупности, используя данные, выбранные из этой совокупности с помощью какого вида отбора. Имея гипотезы о генеральной совокупности, для которых мы хотим делать вывод, статистическое вывода состоит из (во-первых) выбора статистической модели процесса, порождает данные, и с (во-вторых) вывода суждений из модели.

Кониси и Китагава утверждают, что «большинство задач статистического вывода могут рассматриваться как задачи, связанные со статистическим моделированием». Связано с этим, Дэвид Кокс сказал, что «как осуществляется [этот] перевод с предметной задачи статистической модели, является часто критичным частью анализа.»

Заключением статистического вывода является статистическое суждения. Некоторыми из распространенных видов статистических суждений являются следующие:

  • точечная оценка, то есть определенное значение, что лучше приближает некоторое исследуемый параметр;
  • интервальная оценка, например, доверительный интервал (или множественная оценка), то есть интервал, построенный с использованием набора данных, выбранного из генеральной совокупности, так, что при повторяющемся отборе таких наборов данных такие интервалы содержать истинное значение параметра с вероятностью на заданном доверительном уровне;
  • вероятный интервал, то есть множество значений, содержащий, например, 95% апостериорным убеждения;
  • отклонения гипотез;
  • кластеризация или классификация точек данных на группы.

Модели и предположения

Статистическое вывода требует некоторых предположений. Статистическая модель представляет собой набор предположений относительно порождение наблюдаемых данных, и похожих на них. Описания статистических моделей обычно подчеркивают роль численностей исследуемых генеральных совокупностей, в отношении которых мы хотим делать вывод. Описательная статистика, как правило, используется как подготовительный шаг перед осуществлением формально выводов.

Уровни моделей / предположений

Статистика различают три уровня моделирующих предположений:

  • Полностью параметрический: Распределения вероятностей, описывающих процесс порождения данных, считаются полностью описанными семейством распределений вероятности, включающих лишь ограниченное количество неизвестных параметров. Например, можно предположить, что распределение значений генеральной совокупности является истинно нормальным, с неизвестными средним значением и дисперсией, и наборы данных порождаются «простым» случайным отбором. Широко применяемым и гибким классом параметрических моделей является обобщенные линейные модели.
  • Непараметрический: Предположение относительно процесса, порождает данные, значительно меньше, чем в параметрической статистике, и могут быть минимальными. Например, каждый непрерывный распределение вероятности имеет медиану, который может быть оценен с использованием медианы выборки, или оценки Ходжеса — Лемана — Сена имеет хорошие свойства, когда данные происходят из простого случайного отбора.
  • Полупараметрический Под этим термином обычно подразумевают предположения «посередине» между полностью параметрическим и непараметрическая подходами. Например, можно предположить, что распределение генеральной совокупности имеет конечное среднее значение. Кроме того, можно предположить, что уровень чувствительности среднего значения в генеральной выборке зависит истинно линейным образом от некоторой ковариаты (параметрическое предположение), но не делать ни одного параметрического предположение, что описывало бы дисперсию вокруг этого среднего значения (то есть, о наличии или возможен вид любой -якои гетероскедастичности). Более общее, полупараметрической модели часто можно разделить на «структурную» составляющую и составляющую «случайной дисперсии». Одна компонента обрабатывается параметрически, а другая — непараметрическая. Хорошо известная модель Кокса является набором полупараметрической предположений.

Важность силу моделей / предположений

Какого бы уровня предположение не сделано, правильно откалиброваны вывода в целом требует, чтобы эти предположения были правильными; то есть, чтобы механизмы порождения данных действительно было указано правильно.

Неправильные предположения о «простой» случайный отбор могут сделать статистическое вывода недействительным. Например, неправильное предположение о модели Кокса может в некоторых случаях привести к ошибочным выводам. Неправильные предположения о нормальности в генеральной совокупности также лишают силу некоторые виды вывода на основе регрессии. Использование любой параметрической модели рассматривается скептически большинством экспертов в отборе выборок из человеческих совокупностей: «большинство статистиков, что делают выборки, когда имеют дело с доверительными интервалами вообще, то ограничивают себя утверждениями [о оценщики] на основе очень больших выборок, когда центральная предельная теорема гарантирует, что [оценщики] иметь распределения, почти нормальными ». В частности, нормальное распределение «был бы абсолютно нереалистичным и катастрофически неразумным предположению, если мы имеем дело с любым типом экономической генеральной совокупности». Здесь центральная предельная теорема утверждает, что распределение среднего значения выборки «для очень больших выборок» является распределенным примерно нормально, если это деление имеет не медленно нисходящий хвост.

Приближенные распределения

Учитывая трудности определения точных распределений статистик выборки, было разработано много методов их приближения.

При конечных выборках результаты приближения измеряют, насколько близко предельный распределение приближается к распределению выборки статистики: например, с 10 000 независимыми образцами нормальное распределение приближается (с двумя цифрами точности) с распределением выборочного среднего для многих популярных распределений, по теореме Берри — Эссена. Тем не менее, для многих практических целей нормальное приближение дает хорошее приближение при наличии 10 (или более) независимых образцов, согласно симуляционных исследованиями и опытом статистиков. После работы Колмогорова в 1950-х передовая статистика использует теорию приближений и функциональный анализ для количественного выражения ошибки приближения. В этом подходе исследуется метрическая геометрия распределений вероятностей; этот подход выражает ошибку приближения с помощью, например, отклонения Кульбака — Лейблера, отклонения Брегман и расстояния Хеллингера.

Для бесконечно больших выборок предельный распределение выборочной статистики, если такой существует, описывают предельные результаты, такие как центральная предельная теорема. Предельные результаты не являются утверждениями о конечные выборки, и действительно неуместны для них. Тем не менее, асимптотической теории предельных распределений часто привлекают для работы с конечными выборками. Например, предельные результаты часто привлекают для обоснования обобщенного метода моментов и для использования обобщенных оценочных уравнений, популярны в эконометрии и биологической статистике. Величину разницы между предельным и истинным распределениями (формально, «ошибку» аппроксимации) может быть оценен с применением симуляции. Эвристическое применения предельных результатов в конечных выборок является распространенной практикой во многих приложениях, особенно с моделями невысокой размерности с логарифмически вогнутыми правдоподобия (такими как однопараметрическим экспоненциального семейства).

Модели на основе рандомизации

Для заданного набора данных, было произведено за планирование с рандомизации, распределение рандомизации статистики (при нулевой гипотезы) определяется путем оценки пробной статистики для всех планов, может быть порожден этим планированием с рандомизации. В частотном выводе рандомизация позволяет выводом основываться на распределении рандомизации, а не на субъективной модели, и это особенно важно в отборе для исследования и планировании экспериментов. Статистическое вывода с рандомизированных исследований также проще и во многих других ситуациях. Рандомизация является важной и в баесовому выводе: в отборе для исследования применения отбора без повторов обеспечивает взаимозаменяемость выборки из генеральной совокупности; в рандомизированных экспериментах рандомизация гарантирует предположение случайной отсутствии для информации о ковариату.

Объективная рандомизация позволяет правильные индуктивные процедуры. Многие статистиков предпочитают анализа на базе рандомизации для данных, было порождено четко определенными рандомизационных процедурами. (Тем не менее, правдой является и то, что в областях науки с развитыми теоретическими знаниями и контролем экспериментов рандомизированные эксперименты могут увеличивать расходы на экспериментирование без улучшения качества выводов.) Так же, результаты рандомизированных экспериментов рекомендуются ведущими статистическими органами как такие, которые могут давать вывода с большей надежностью, чем наблюдательные исследования тех же явлений. Тем не менее, хорошо наблюдательное исследование может быть лучше плохой рандомизированное эксперимент.

Статистический анализ рандомизированного эксперимента может основываться на схеме рандомизации, определенной в протоколе эксперимента, и не требует субъективной модели.

Однако, как бы то ни было, некоторые гипотезы невозможно проверять с применением объективных статистических моделей, точно описывают рандомизированные эксперименты или случайные выборки. В некоторых случаях такие рандомизированные исследования является неэкономическими или неэтичными.

Анализ рандомизированных экспериментов на базе моделей

Стандартной практикой при анализе данных рандомизированных экспериментов является ссылаться на статистическую модель, часто линейную. Однако схема рандомизации направляет выбор статистической модели. Невозможно выбрать подходящую модель, не зная схемы рандомизации. Игнорируя протокол эксперимента при анализе данных рандомизированных экспериментов, можно получить опасно обманчивы результаты; распространенные ошибки включают забывание блокировки, используется в эксперименте, и спутывания повторяющихся измерений на одной и той же экспериментальной единицы с независимыми повторами обработки, применяемой к различным экспериментальных единиц.

Парадигмы для вывода

Была основана различные школы статистического вывода. Эти школы, или «парадигмы», не являются взаимоисключающими, и методы, хорошо работают по одной парадигмы, часто имеют привлекательные интерпретации других парадигм.

Бандиопадхай и Форстер описывают четыре парадигмы: «(I) классические статистики или статистики ошибок, (II) Байеса статистики, (III) статистики на базе правдоподобия, и (IV) статистики на базе информационного критерия Акаике». Обзор классической (или частотной) парадигмы, баесовои парадигмы и парадигмы на базе информационного критерия Акаике приведены ниже. Парадигма на базе правдоподобия является по сути пидпарадигмою парадигмы на базе информационного критерия Акаике.

Частотное вывода

Эта парадигма калибровка выдвижения суждений путем рассмотрения (релевантного) повторного отбора наборов данных, подобных имеющегося. Путем рассмотрения его характеристик на повторяющихся выборках может быть описано частотные свойства любой процедуры статистического вывода, хотя на практике эта количественная оценка может быть сложной задачей.

Примеры частотного вывода

  • p -значение
  • Доверительный интервал

Частотное вывода, объективность и теория принятия решений

Одной из интерпретаций частотного вывода (или классического вывода) является то, что оно применимо только в терминах частотной вероятности; то есть в терминах повторяющихся выборок из генеральной совокупности. Однако в подходе Неймана эти процедуры разрабатываются в терминах преекспериментальних вероятностей. То есть, прежде чем приступать к эксперименту, принимается решение о правиле, как приходить к выводу, так что вероятность быть правильным контролируется удобным образом: такой вероятности не нужно иметь частотную интерпретацию, или интерпретацию повторного отбора. Напротив, баесове вывода работает в терминах условных вероятностей (т.е. вероятностей, обусловленных наблюдаемыми данными), сравниваемых с обособленными (но обусловленными неизвестными параметрами) вероятностями, применяемые в частотном подходе.

Частотные процедуры проверки значимости и доверительных интервалов могут быть построены без учета функций полезности. Однако некоторые элементы частотных статистик, такие как статистическая теория решений, таки включают функции полезности. В частности, частотные разработки оптимального вывода (такие как минимально-дисперсионные несмещенные оценки или равномерно мощные критерии) используют функции потерь, которые играют роль (отрицательных) функций полезности. Статистикам-теоретикам не требуется явное указание функций потерь для доказательства того, что статистическая процедура обладает свойством оптимальности. Тем не менее, функции потерь часто полезны для установления свойств оптимальности: например, медианные несмещенные оценки являются оптимальными по модульных функций потерь, потому что они минимизируют ожидаемые потери, а минимально квадратичные оценки являются оптимальными по квадратичной функций потерь, потому что они минимизируют ожидаемые потери.

Хотя статистики, используют частотное вывода, и должны выбирать для себя параметры, которые интересуют и оценки / критерии, применять, отсутствие очевидно явных функций полезности и априорных распределений поспособствовала тому, что частотные процедуры стали широко рассматриваться как «объективные» .

Баесове вывода

Баесове счисления описывает меры убеждения с применением «языка» вероятности; убеждения являются положительными, интегрируются в единицу, и подчиняются аксиомам вероятности. Баесове вывода использует доступные апостериорные убеждения как основу для вынесения статистических суждений. Существует несколько различных обоснований применения баесового подхода.

Примеры баесового вывода

  • Предполагаемый интервал для интервальной оценки
  • Коэффициенты Байеса для сравнения моделей

Баесове вывода, субъективность и теория принятия решений

Многие неформальные баесових выводов основываются на «интуитивно умных» сводках апостериорным. Например, апостериорная среднее, медиана и мода, интервалы высокой плотности апостериорного и коэффициенты Байеса все могут быть мотивированы следующим образом. И хотя в этом типе вывода и не нужно указывать пользовательскую функцию полезности, эти сведения все зависят (в определенной степени) от указанных априорных убеждений, и в целом рассматриваются как субъективные выводы. (Было предложено методы построения априорного, не требуют внешнего ввода, но их еще не было полностью разработано.)

Формально баесове вывода калибруется со ссылкой на явно указанную функцию полезности, или потерь; «Правило Байеса» является таким, что максимизирует ожидаемую полезность, усредненную над неопределенностью апостериорным. Формальное баесове вывода затем автоматически предлагает оптимальные решения в смысле теории решений. При заданных предположениях, данных и полезности баесове вывода может быть сделано практически для любой задачи, хотя не каждому статистическому выводу нужно иметь баесову интерпретацию. Анализы, которые не являются формально баесовимы, могут быть (логично) бессвязными; особенность баесових процедур, используют корректные априорные (то есть такие, которые интегрируются в единицы), заключается в том, что они гарантированно будут связными. Некоторые сторонники баесового вывода утверждают, что вывод должен иметь место в этой теоретической модели решений, и баесове вывода не должно завершаться оценкой и обобщением апостериорных убеждений.

Вывод на основе информационного критерия Акаике

Другие парадигмы для вывода

Минимальная длина описания

Принцип минимальной длины описания (МДО, англ. Minimum description length, MDL) был разработан с идей по теории информации и теории колмогоровськои сложности. Принцип МГО выбирает статистические модели, максимально сжимают данные; вывода происходит без рассмотрения «механизмов порождения данных» или вероятностных моделей, которые противоречат данным или являются неопровержимыми, как это может делаться в частотном или баесовому подходах.

Тем не менее, если «механизм порождения данных» существует в реальности, то согласно шеннонивськои теоремы об источнике шифрования он предлагает МДО-описание данных, в среднем и асимптотически. В минимизации длины описания (или описательной сложности) оценка МГО аналогична оценки максимального правдоподобия и оценки апостериорного максимума (с использованием баесових априорных с максимальной энтропией). Хотя МГО избегает предположение, что вероятностная модель, лежащая в основе данных, известна; принцип МДО также может применяться без предположений, например, что данные происходят с независимой выборки.

Принцип МГО применялся в коммуникационной теории кодирования в теории информации, в линейной регрессии и извлечении данных.

Выполнение выводных процедур на базе МГО часто использует приемы и критерии теории сложности вычислений.

Фидуцийне вывода

Фидуцийне вывод был подходом к статистическому вывода на основе фидуцийнои вероятности, известной также как «фидуцийний распределение». В дальнейших работах этот подход был назван недоопределенной, чрезвычайно ограниченным в применимости и даже ошибочным. Хотя эта аргументация является такой же, как и та, что показывает, что так называемый распределение доверия не действует распределением вероятности, и, поскольку это не лишило силу применения доверительных интервалов, оно не обязательно лишает силу выводы, получаемые с фидуцийнои аргументации.

Структурное вывода

Развивая идеи Фишера и Питмана с 1938 по 1939 годы, Джордж Барнард разработал «структурное вывода» (англ. Structural inference) или «центральное вывода» (англ. Pivotal inference), подход, использующий инвариантные вероятности на групповых семействах (англ. Group family ). Барнард переформулировал аргументацию, которая стояла за фидуцийним выводом на ограниченном классе моделей, на котором «фидуцийни» процедуры были бы хорошо определенными и полезными.

Вопрос вывода

Приведенные ниже вопросы обычно включаются в сферы статистического вывода.

  1. Статистические предположения
  2. Статистическая теория решений
  3. Теория оценивания
  4. Проверка статистических гипотез
  5. Пересмотр взглядов в статистике
  6. Планирование экспериментов, дисперсионный анализ и регрессия
  7. Отбор выборки для наблюдения
  8. Суммирование статистических данных

Показать больше

Похожие статьи

Добавить комментарий

Проверьте также
Закрыть
Кнопка «Наверх»
Закрыть
Закрыть