22
1 НАТАН АБРАМОВИЧ ЦЕЙТЛИН ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКА x 1 x 2 x k x k+1 x n z 1 z 2 z m V Ø Ø Ø Ø Ø Ø Ø Ø Ø Ø Ø Ø Объект экспериментальных исследований Ö + Ö Y Мудрость - дочь опыта (Л. Винчи) Харьков (Украина) - Гёттинген (Германия) 1968 – 2002

ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

  • Upload
    others

  • View
    22

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

1

НАТАН АБРАМОВИЧ ЦЕЙТЛИН

ИЗ ОПЫТА АНАЛИТИЧЕСКОГО

СТАТИСТИКА

x1 x2 … xk xk+1 … xn z1 z2 … zm V

Объект экспериментальных исследований + Y

Мудрость - дочь опыта (Л. Винчи)

Харьков (Украина) - Гёттинген (Германия) 1968 – 2002

Page 2: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

2

СОПРОВОДИТЕЛЬНАЯ ЗАПИСКА.

Уважаемые читатели и коллеги! Настоящая монография является итогом многолетней научной работы автора. Публикация книги в Интернете имеет цели быстро познакомить научную общественность с результатами наших исследований и разработок, а также получить от коллег и заинтересованных читателей отзывы, критические замечания, пожелания и рекомендации в отношении издания книги в твёрдом переплёте. Наиболее интересные конструктивные замечания автор намеревается включить в текст монографии (с позволения оппонентов). В дальнейшем автор планирует исправить неудачные места или привести возражения на критические замечания, подготовить книгу к изданию, найти соответствующее издательство. Автор считает необходимым перевести текст книги с русского на английский язык. Любые советы по затронутым вопросам будут приняты с благодарностью.

Автор к. т. н. Н. А. Цейтлин.

КЛЮЧЕВЫЕ СЛОВА

Аналитический статистик, математическая статистика, формализация, эксперимент, регрессионный эксперимент, активный эксперимент, пассивный эксперимент, исследование, методика статистической обработки результатов наблюдений, программное обеспечение ЭВМ по математической статистике, оптимальное планирование эксперимента, статистическая обработка результатов наблюдений, научно-технический отчет, проверка статистических гипотез, попарное сравнение статистических параметров, быстрые методы статистики, адекватность, эмпирическая формула, регрессионный анализ, сервисный алгоритм, метод скользящей средней, область определения, округление, ортогональность, мультиколлинеарность, матрица плана, редукция, корреляционная матрица, дисперсия ошибки воспроизводимости, аппроксимация, диаграмма состояния, сплайн-функция, математическая модель, формула косвенных изменений, элиминирующий анализ, плохо формализованная задача, экспертное оценивание качества, химическая технология, технология полимеров, процессы и аппараты химических производств, физическая химия, электрохимия, биология, строительство, метеорология, метрология, квалиметрия, охрана труда, экология, торговля, экономика.

АННОТАЦИЯ

Изложен опыт использования статистических методов в следующих областях наук: процессы и аппараты химических производств, физическая химия, электрохимия, биология, строительство, метеорология, метрология, квалиметрия, охрана труда, экология, торговля, экономика, технологии (химическая и полимеров).

Page 3: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

3

Для научных работников, математиков-статистиков, студентов университетов и аспирантов, разработчиков современного программного обеспечения ЭВМ.

РЕФЕРАТ

В книге освещен тридцатилетний опыт работы автора в качестве аналитического статистика. Опыт заключался в формализации задач экспериментального исследования, составлении методик статистической обработки результатов наблюдений и программного обеспечения ЭВМ по математической статистике, участии в оптимальном планировании и курировании экспериментов, в статистической обработке результатов наблюдений и в составлении научно-технических отчетов.

Определена роль аналитического статистика в научно-исследовательском коллективе.

Изложены простые методы проверки параметрических гипотез: аналитический «альфа-метод проверки гипотез» и графический «метод доверительных интервалов» для попарного сравнения статистических параметров. Описаны быстрые методы статистики. Рассмотрены проблемы, связанные с построением адекватных эмпирических формул методом регрессионного анализа по результатам активного эксперимента или пассивных наблюдений. Приведены сервисные алгоритмы регрессионного анализа: метод скользящей средней, окаймление области определения модели, округление статистических оценок, ортогонализация мультиколлинеарной матрицы плана пассивного регрессионного эксперимента, редукция корреляционной матрицы, оценка дисперсии ошибки воспроизводимости отклика по «почти параллельным» опытам, аппроксимация сложных поверхностей отклика и диаграмм состояния с помощью сплайн функций и ряд других. Описано решение задачи редукции (упрощения) известной математической модели (косвенных изменений) методом элиминирующего анализа. Изложен метод решения плохо формализуемых задач - многокритериальное экспертное оценивание качества объектов.

Автор делится опытом использования статистических методов в самых различных областях экспериментального исследования: технологии (химическая и полимеров), процессы и аппараты химических производств, физическая химия, электрохимия, биология, строительство, метеорология, метрология, квалиметрия, охрана труда, экология, торговля и экономика).

Книга предназначена для научных работников различных специальностей, математиков-статистиков, студентов университетов и аспирантов, а также для разработчиков современного программного обеспечения ЭВМ по математической статистике.

776 стр., 46 табл., 44 илл. Автор: Цейтлин Натан Абрамович (кандидат технических наук, специалист по

прикладным задачам математической статистики, автор более ста печатных работ). e-mail: [email protected]; web: http://people.freenet.de/nzarchiv/.

Page 4: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

4

ПРЕДИСЛОВИЕ

С чего все начиналось. Аналитический статистик. Круг задач АСа. Как стать АСом. Зигзаг истории. Сложность статистических задач. Очередь читателей книги. Особенности стиля. Благодарности.

- Знаешь, Оленька, через десять лет я выйду на пенсию и смогу, наконец, закончить книгу, которую начал тридцать лет назад.

- А что ты читаешь, папочка?

СПИСОК ПРИНЯТЫХ СОКРАЩЕНИЙ.

АС - аналитический статистик; ДС - дескриптивная (описательная) статистика; ЛПР - лицо, принимающее решение; МКИ - модель косвенных измерений; МО - математическое ожидание; МОЭИ - математическое обеспечение экспериментальных исследований; МС - математическая статистика; МТЭ - математическая теория эксперимента; НИИ - научно-исследовательский институт; НИР - научно-исследовательская работа; НО - научный отчет; ОЭИ - объект экспериментальных исследований; ПО - программное обеспечение; ПММ - простая математическая модель; ПЭ - планирование эксперимента; РА - регрессионный анализ; РМ – регрессионная модель; СВ - случайная величина; СММ - сложная математическая модель; СО - среднеквадратичное отклонение; ФКИ - формула косвенных измерений; ФР - функция распределения; ЭА - элиминирующий анализ; ЭВМ - электронно-вычислительная машина.

С ЧЕГО ВСЕ НАЧИНАЛОСЬ.

Науки юношей питают, отраду старым подают, в счастливой жизни

Page 5: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

5

украшают, в несчастный случай берегут… (М. В. Ломоносов)

Прочитав в детстве множество популярных книг о подвижнической деятельности знаменитых ученых и имея перед собой пример увлеченного наукой отца, профессора Абрама Натановича Цейтлина, автор после окончания института решил посвятить свою жизнь научной работе. Выбор научного профиля был сделан под влиянием неординарной личности Александра Зиновьевича Шехеля, который сочетал в себе незаурядные способности аналитика и необыкновенный артистизм в отношениях с коллегами.

Работали мы с ним в одной лаборатории «цементного» НИИ (ЮЖГИПРОЦЕМЕНТа) всего один 1968-й год. А. З. Шехель поражал коллег знаниями тонкостей технологии производства цемента, автоматизации процессов, экономики, но, главное, что он, прочитав всего лишь несколько монографий [1.2., 1.14., 2.3. и 7.3.], был единственным специалистом в институте, который знал, как правильно спланировать любой технологический эксперимент и как затем грамотно обработать результаты наблюдений! Автор неоднократно видел, как этот юноша, артистично скрестив руки на груди, объяснял солидным руководителям разных лабораторий, что и как им необходимо делать для проверки своих новаторских идей на экспериментальных установках!

По существу, А. З. Шехель выполнял функцию аналитического статистика (АСа). Такая «должность» отсутствовала тогда в штатных расписаниях НИИ, а названные функции выполняли отдельные энтузиасты, вроде А. З. Шехеля.

АНАЛИТИЧЕСКИЙ СТАТИСТИК.

Давида Гильберта спросили об одном из его бывших учеников. - А, такой-то? - вспомнил учёный. - Он стал поэтом. Для математики у него было слишком мало воображения.

К тому времени в среде экспериментаторов уже возникло понимание необходимости формальной постановки задачи экспериментального исследования, оптимального планирования эксперимента и грамотной статистической обработки результатов наблюдений. Однако сами экспериментаторы ещё не могли правильно формализовать задачу исследования и эффективно обработать результаты наблюдений, а «чистые» математики справлялись лишь со строго поставленными математическими задачами. Функция АСа заключалась в понимании задачи экспериментатора и переводе её в соответствующую математико-статистическую задачу, решение которой было бы доступно самому АСу, или, в сложных ситуациях, АСу совместно с «чистым» математиком. Поэтому АС должен был иметь по сути два образования – математика-статистика и предметное.

Роли соисполнителей экспериментального исследования распределились следующим образом. Экспериментатор ставил и решал задачу по существу, АС - по формальным критериям (задачи оптимального планирования эксперимента и, главное, - получения не противоречащих физическому смыслу статистических моделей). Наш опыт показывает, что результаты формального построения эмпирических формул, адекватных результатам наблюдений и, следовательно, удовлетворительных по статистическим критериям, могут приводить к неверным содержательным выводам. Тщательный анализ формул позволяет скорректировать их так, чтобы они не противоречили физической природе описываемого явления.

Круг задач Аса ограничивается, в основном, решением пяти задач:

-формализация задачи экспериментального исследования;

Page 6: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

6

-оптимальное планирование эксперимента – при исследовании управляемых объектов или разработка рациональной тактики сбора статистической информации - при обследовании («пассивном» наблюдении) неуправляемых объектов;

-корректировка плана эксперимента или тактики обследования в процессе проведения экспериментальных работ;

-статистическая обработка результатов наблюдений с привлечением (при необходимости в сложных случаях) «чистых» математиков и программистов;

-интерпретация результатов расчета в терминах исходной предметной области и участие в составлении научного отчета о проведенной работе.

КАК СТАТЬ АСОМ

Дорога в науку, увы, до сих пор не заасфальтирована! (Е. Мостовой).

Трудно в учениях, легко в нравоучениях. (Б. Мильштейн).

В молодости автор не планировал стать АСом, поэтому свое высшее образование получал нецеленаправленно. В детстве автор увлекался конструированием электронных приборов. Увлечение дошло даже до изобретения музыкального инструмента [1]. Однако учиться автор поступил на химический факультет Харьковского Политехнического Института, как советовал отец (кстати, химик). Через три года учёбы автор захотел приблизиться к своему увлечению и перевёлся в учебную группу специалистов по автоматизации химико-технологических систем на факультет химического машиностроения. С дипломом инженера по автоматизации химических производств автор работал в техническом отделе завода по переработке пластмасс и одновременно продолжал свое образование на курсах повышения математической квалификации инженеров в Харьковском Государственном Университете. Позже автор дважды оканчивал Московский Институт Повышения Квалификации Инженеров по специальностям „математическое моделирование“ и „планирование эксперимента“, но пришел к выводу, что ничего лучше самообразования придумать нельзя. Потеряв на подобном пути лучшие годы своей молодой жизни, автор смог определить оптимальную стратегию образования АСа для других людей. Начинать надо с возраста, когда маленький человек уже способен осознать себя социально значимой личностью. Именно с этого периода (и всю жизнь!) необходимо осваивать компьютер и Интернет, постоянно читать научно-популярную литературу и по мере развития интересов углубляться в ту или иную предметную область. После успешного завершения учебы в начальной школе с повышенной компьютерной, математической, биологической и физической (имеется в виду физика, но и без физкультуры нельзя обойтись!) подготовкой, следует поступить в университет на математический факультет, чтобы приобрести навыки в области математического обеспечения экспериментальных исследований. Для этого могут быть полезны специальности «математическая статистика», «прикладная математика», «математическое моделирование» и т. п.

Математическое образование АСа должно также включать предметные общематематические дисциплины: элементы математической физики,

Page 7: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

7

математической биологии, теоретических основ электротехники, радиотехники, теплотехники, теории машин и механизмов и тому подобных «основ». АС должен сносно владеть соответствующим программным обеспечением ЭВМ, то есть не только уметь пользоваться пакетами программ, но и понимать смысл используемых алгоритмов.

Для тех, кто решился последовать опыту автора и пошёл по пути самообразования, в разделе 12 приведен список «Рекомендуемой литературы по математической теории эксперимента». (В тексте книги будут использованы ссылки на источники из этого списка в виде пары чисел. Например, ссылка [11.4.] означает источник № 4. Тюрин H. И. «Введение в метрологию» из раздела № 11 «Теория ошибок». В остальных случаях будут использованы ссылки в виде одного числа на источник из списка в конце каждого раздела).

После завершения математического образования необходимо пройти программу избранной предметной области (инженерной, экономической, биологической и т. п.). Хорошее математическое образование позволит будущему АСу легко освоить современный математический аппарат любой предметной области. После успешной практической работы в научном учреждении и защиты диссертации специалист становится АСом.

ТРАДИЦИИ СТАТИСТИЧЕСКИХ КНИГ.

Традиции возникают там, где нехватает фантазии (Из Интернета)

В семидесятых годах А. З. Шехель эмигрировал из СССР в США, оставив на родине преемника – автора настоящей книги. Статистические взгляды автора (на методологию проверки статистических гипотез, рационализацию процедур регрессионного анализа и другие), формировавшиеся более тридцати лет по мере решения практических задач экспериментальных НИР, частично опубликованы в ряде прикладных работ [16.1. - 16.51., 16.59. - 16.60., 16.62.]. Работы писались с дальним прицелом так, чтобы в будущей книге они могли составить цепь примеров применения упомянутых взглядов. Материалы этих публикаций обсуждались на организованном автором семинаре Харьковского Дома ученых «Математическая теория эксперимента», на республиканских (в Киеве) и всесоюзных (в Москве) конференциях. Систематическое изложение статистических взглядов автора оказалось не простым делом. В последние годы советской власти, ввиду развала СССР и отсутствия возможности публиковаться, эти взгляды оформлялись в виде рукописей и складывались «в стол». И только теперь, находясь в эмиграции в Германии, автор получил возможность собраться с мыслями и объединить свои разрозненные работы в одну книгу.

Настоящую книгу можно, по – видимому, поставить в ряд изданий [1.2. - 1.4., 1.8., 1.11., 1.17., 1.19., 1.24., 2.1., 7.11., 7.27. и 15.34.], освещающих опыт применения методов математической статистики (МС) в различных предметных областях. Структура содержания подобных книг приблизительно одинакова. Вначале излагаются взгляды авторов на общие положения и методы МС, затем приводятся примеры использования этих методов.

Казалось бы, общие положения не должны зависеть от того, в какой предметной области они применяются и, тем более, какой автор их описывает. Тем не менее, каждый автор освещал их иногда по-разному, внося в них свое видение излагаемых методов. Например, Н. А. Плохинский [1.3.] представил статистические алгоритмы в удобной для практического использования форме; Х. Шенк [1.24] развил

Page 8: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

8

представления о системном подходе к организации испытаний; Л. Закс [2.1.] обстоятельно описал и сопоставил результаты около 1500 научных статей из различных журналов; Д. Гласс и Д. Стэнли [1.1.] создали один из лучших популярных учебников по МС для нематематиков; В. В. Александров и В. С. Шнейдеров [1.27.] развили и популярно изложили идею «интегративной» обработки экспериментальных данных на ЭВМ.

Предметные области приложения методов математической статистики чрезвычайно разнообразны. Каждая такая область порождает множество специфических задач, решение которых требует неформального подхода при использовании общеизвестных статистических методов.

В настоящей работе автор исходил из установившихся традиций в прикладной МС. Научные интересы автора находились в области осмысления и приложения методов МС к таким областям экспериментального исследования как технологии (химическая, биологическая, металлов и покрытий), процессы и аппараты химических производств, физическая химия, биология, медицина, строительство, техника безопасности и экономика.

Об этом и пойдет речь в книге.

СЛОЖНОСТЬ СТАТИСТИЧЕСКИХ ЗАДАЧ.

Наука - это систематическое расширение области человеческого незнания.(Роберт Гутовский)

В практической работе автору встречались простые и сложные статистические задачи. Простыми были задачи точечного (однозначного) и интервального оценивания параметров положения и разброса одной случайной величины, проверки гипотез относительно этих параметров, а также задачи корреляционного и регрессионного анализов связей между двумя переменными. Простые задачи решались с привлечением быстрых статистических методов, сложные – с привлечением программно реализованных на ЭВМ методов многомерного статистического анализа.

Проверка гипотез. Прежде чем начать статистическое исследование, экспериментатор должен сформулировать цель работы. Если эта цель может быть выражена количественно, то разумно априори сформулировать статистические гипотезы, подлежащие экспериментальной проверке. В разделе 1 описывается «α-метод (альфа-метод) проверки статистических гипотез». В качестве статистики критерия рекомендуется использовать уровень значимости α. Рассмотрены наиболее распространенные параметрические гипотезы относительно параметров нормального распределения – математического ожидания и дисперсии. Даны рекомендации для выбора критического уровня значимости, формулировки нулевой и альтернативной гипотез. Для практического применения α-метода рекомендуется использовать таблицы, номограммы или аппроксимации функций распределения Фишера и Стьюдента с выходом α.

Большое внимание уделяется наглядности представления результатов проверки гипотез. Для этого автор развивает графический метод доверительных интервалов (ДИ), позволяющий экспериментатору «с одного взгляда» выполнять попарное сравнение нескольких параметров.

Быстрые методы статистики. Будем называть быстрыми такие методы МС, которые могут быть использованы для решения простых задач без помощи ЭВМ. Быстрые методы могут применяться исследователями, так сказать, в "полевых"

Page 9: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

9

условиях: на животноводческой ферме, на производстве, в транспорте, в лесу, в экспедиции, на лекции, на консультации, в домашних условиях, на экзамене и т. п.

Некоторые быстрые методы настолько просты, что даже при наличии ЭВМ позволяют легко решить задачу за период времени, соизмеримый со временем ввода данных в ЭВМ. Владение быстрыми методами статистики позволяет экспериментаторам самостоятельно решать многие простые задачи.

Реализация быстрых методов статистики требует определённых знаний и навыков, наличия элементарной оргтехники (калькулятора, миллиметровой и копировальной бумаг, набора чертежных инструментов), статистических номограмм и таблиц. Статистические таблицы желательно составить самостоятельно на ЭВМ с помощью широко распространенных статистических программ или с помощью простых формул, приведенных в настоящей книге. Рекомендации по составлению подобных таблиц приведены в разделе 1. Методы постановки и решения простых и быстрых статистических задач описаны в разделах 1 – 3.

Сложными были статистические задачи многофакторного регрессионного и элиминирующего анализов в случае обработки результатов активного и пассивного эксперимента.

В книге описаны две принципиально разные задачи обработки результатов наблюдений: задача построения заранее неизвестной математической модели методом регрессионного анализа и задача редукции (сокращения) известной математической модели методом элиминирующего анализа.

Регрессионный анализ (РА) является наиболее популярным методом построения математической модели по результатам наблюдений за работой ОЭИ. Методы постановки и решения задач регрессионного анализа читатель найдет в блестяще написанных книгах [2.1-2.23] и многих др.

В разделе 6 обсуждаются только те проблемы РА, которые часто встречались в нашей практической работе: проблемы пропуска данных, окаймления области определения отклика, выбросов отклика (грубых ошибок), структурной идентификации регрессионной модели (РМ), нормальности распределения остатков, адекватности РМ, описания и интерпретации результатов РА в научном отчете и др.; описаны алгоритмы некоторых сервисных процедур РА: окаймление области определения РМ, округление численных оценок параметров РМ, редукция корреляционной матрицы, оценка СО ошибки воспроизводимости отклика по данным пассивного эксперимента, проверка гипотезы об адекватности РМ.

РЕГАН – наша лучшая в мире программа регрессионного анализа! В давние времена, когда президент Рейган был еще простым "народным артистом" США, нами (в соавторстве) был произведен на свет программный продукт под названием РЕГАН (РЕГрессионный АНализ) [16.41, 16.52]. Наверняка после рассекречивания агентурных данных ЦРУ истории станет известно, какую роль наш продукт сыграл в избирательной кампании будущего президента США :-). Однако, по нашему мнению, в то время и до сих пор это – лучшая из известных нам программ! Почему? Очень просто! РЕГАН изготавливается АСом самостоятельно для личного пользования. Рецепт – проще кулинарного. Берется лучшая на сегодняшний день программа регрессионного анализа (например, STATISTICA [http://www.statsoft.ru]) и дополняется сервисными процедурами пользователя! В нашей версии [16.52] в программе РЕГАН комплексно и всего за один подход к ЭВМ решались многие часто встречаемые задачи регрессионного анализа.

Автор надеется, что идеи, реализованные в описанном алгоритме, ещё не потеряли своей актуальности в математической статистике, равно как мысли упомянутого политического деятеля – для его страны. :-). Но подробнее обо всем этом будет написано в разделе 6.2. Методы постановки и решения сложных статистических задач регрессионного анализа описаны также в разделах 7 – 9.

Page 10: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

10

Элиминирующий анализ. Современные методы математического моделирования становятся столь совершенными, а уровень знаний столь высоким, что создаваемая сложная математическая модель (СММ) делается необозримо огромной и громоздкой. СММ может включать в себя ряд простых математических моделей (ПММ), описывающих более-менее существенные явления. Верификация, то есть практическая проверка СММ может показать, что многие ПММ практически не работают. Наличие неработающих элементов СММ создает ненужную иллюзию "полного знания", хотя на самом деле ни в СММ, ни в жизни неработающие ПММ никакой роли не играют.

(Это, к примеру, как незначимые цифры в числе 221,1648148 В, характеризующем среднее напряжение в электрической сети. Неужели знания округленного значения 220 В недостаточно, чтобы не включать в сеть прибор, настроенный на 110 В или не лезть в электрическую розетку пальцами? :-))

В описанной иллюзии не было бы большой беды, если бы программно реализованные неработающие ПММ просто паразитировали где-то в недрах ЭВМ. Однако, часто при использовании СММ на практике для обеспечения технологических и проектных расчетов бывает необходимо измерять независимые переменные СММ - факторы. Подобные измерения могут быть продолжительными и дорогостоящими. Кроме того, на создание ПММ часто тратится много сил, которые на поверку оказываются напрасными.

В приложении подобная ситуация встречается, например, при управлении производственными процессами, при замене устаревшего оборудования и аппаратов на предприятиях новыми и в других подобных случаях. Методы постановки и решения сложных статистических задач элиминирующего анализа описаны в разделе 5. В частности, рассмотрены два метода решения задачи элиминирующего анализа – аналитический и численный для анализа и редукции математических моделей с малым и большим числом факторов, соответственно.

ЭКСПЕРТНОЕ ОЦЕНИВАНИЕ КАЧЕСТВА ОБЪЕКТОВ

ПО МНОГИМ КРИТЕРИЯМ

Нередко в практической деятельности исследователя возникает задача сравнения многих однотипных объектов по ряду критериев с тем, чтобы выбрать из них лучший или расположить их в порядке возрастания некоего совокупного критерия качества. Причём эта задача осложняется тем, что некоторые частные критерии качества не поддаются формальному измерению путём сравнения с эталоном. Формализация подобной задачи заключается в её декомпозиции на менее сложные задачи, их решение и обобщение множества решений. Для этой цели используются методики многокритериального экспертного оценивания (ММЭО) качества объектов. Каждая отдельная характеристика объекта может быть оценена несколькими экспертами. Однако эти оценки имеют разброс, обусловленный опытом, знаниями и вкусами каждого члена экспертного совета. Совокупный критерий качества, являющийся функцией частных оценок, также будет являться величиной случайной. Сравнивая объекты по случайным совокупным критериям качества, мы приходим к необходимости формулировать гипотезы о неразличимости объектов по совокупному критерию качества против гипотез об их различимости. Отсюда, в частности, следует, что, например, лучшим может быть не один объект, а несколько. Подробнее эта и ряд других непростых проблем экспертного оценивания рассмотрены в разделах 1 и 10.

Page 11: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

11

КОНТИНГЕНТ ЧИТАТЕЛЕЙ КНИГИ

В книгах мы жадно читаем о том, на что не обращаем внимания в жизни.(Э. Кроткий)

Настоящая книга рассчитана на образованного читателя, освоившего самостоятельно, или в ВУЗе начальный курс МС. По курсу МС вышли сотни прекрасных книг (см., например, главу 12. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА). В этих книгах следует обратить внимание на разделы «Статистическое оценивание», «Проверка гипотез», «Планирование эксперимента» и особенно - «Регрессионный анализ».

Автор надеется, что в связи с малым тиражом настоящей книги читатели выстроятся в очередь для её изучения :-).

В первую очередь книга будет полезна дальновидным студентам старших курсов ВУЗов, которые готовят себя к научной карьере или просто хотят возвыситься в глазах преподавателя.

(Один студенческий «прикол». Автор в своё время, будучи студентом ХПУ, разыгрывал преподавателей следующим образом. Готовясь к какому–нибудь экзамену, изучал ответы на вопросы в экзаменационных билетах не только по конспекту лекций или по ортодоксальному учебнику, рекомендованному преподавателем, но и по свежей специальной литературе (монографиям и научным статьям в журналах). Бывало, преподаватели просто балдели от ответов! Так что настоящая монография поможет студентам возвыситься в глазах преподавателя, если взять её на экзамен и …сесть сверху! :-)

Поскольку «ученье – свет, а учёных – тьма», то очевидно, что тьма соискателей ученых степеней и остепенённых учёных смогут использовать многие описанные здесь методы в своих диссертационных и обычных научных работах.

Начальникам и руководителям научных коллективов достаточно будет прочитать введение, перелистать книгу и посмотреть картинки, чтобы убедиться в её полезности для рядовых сотрудников.

Составителям ПО ЭВМ по статистике наверняка захочется сделать себе карьеру путём реализации новых алгоритмов в очередной редакции своих статистических программ.

Лестным для автора был бы интерес к его книге «чистых» математиков, которые пожелали бы переформулировать и строго математически решить задачи, решенные автором на прикладном уровне строгости.

Коллегам – аналитическим статистикам автор был бы рад доставить удовольствие покритиковать книгу за незамеченные им ошибки, ляпы и просчеты. Благие пожелания автор учтет, ошибки исправит, конструктивные замечания коллег благодарно включит в следующее издание книги, если будет жив.

Page 12: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

12

ОСОБЕННОСТИ СТИЛЯ

Плавают разными стилями, тонут - одним. (Э. Кроткий)

Писательская деятельность автора подобна забросу сети в море с надеждой выловить хоть что-то живое. О «золотой рыбке» автор не мечтает. Кто-то где-то прочтёт монографию и примет на вооружение, захочет что-то исправить, использует в пособиях для студентов, впишет в свою книгу, сделает подпрограмму к своему пакету статистических программ или просто намотает на ус.

Настоящая монография написана в жанре научно-популярной литературы для студентов и специалистов. Автор пытался излагать материал доходчиво, иллюстрируя рассуждения примерами из собственной практики. Опыт чтения в течение двадцати лет спецкурса «Прикладные методы математической статистики» в Харьковском государственном университете им. А. М. Горького и научно-популярных лекций для научных работников НИИ убедил автора в необходимости перемежать серьезный материал теми житейскими двусмысленностями, которые к этому материалу имеют какое-то отношение.

В своей книге автор не претендует на абсолютные истины. На это намекают соответственно подобранные эпиграфы к разделам. Но это – не главное.

Готовясь к циклам лекций в различных аудиториях, автору приходилось по-разному компоновать материал. Теперь возникла проблема рационального расположения глав книги, с которой автор, по-видимому, не справился: получился некий «сборник трудов». Однако, «повторение - мать учения», как утверждает народная мудрость, - и автору иногда приходится следовать этой максиме в разделах, но не из матримониальных побуждений ☺, а чисто от желания создать комфортные условия читателю - не заставлять его крутить книгу туда - сюда в поисках однажды упомянутой где-то вначале формулы. Кроме того, предполагается, что некоторые читатели (как некогда – слушатели) могут быть специалистами в очень разных науках. Для таких читателей описание «своих» прикладных задач должно иметь более – менее завершённый характер. Более того, не исключено, что специалисты в различных предметных областях (но не аналитические статистики) вообще не будут читать статистические и другие «чужие» разделы книги, а сразу начнут изучать «свои» главы.

В многочисленных практических примерах применения методов математической статистики автор почти полностью цитирует свои работы (большинство – с соавторами), опубликованные в различных прикладных источниках. В этих работах постепенно были описаны некие общие концепции, на которые (из-за ограничения на объём журнальной публикации) приходилось ссылаться, доставляя неудобства читателю. В первых разделах настоящей монографии эти концепции, по-видимому, удалось изложить полностью.

Определенный интерес для будущих авторов научных работ, предназначенных для публикации, могут представить фрагменты переписки с рецензентами, которые обычно стоят на страже престижа своего журнала, собственных интересов, а иногда, даже, и интересов науки ☺. Для каждого автора должно быть очевидно, что свою уверенность в правоте следует отстаивать, невзирая на лица критиков (тем более, что в научных журналах эти лица принято скрывать под псевдонимом «чёрный рецензент»). Нельзя также не отметить, что благожелательная конструктивная критика оппонентов иногда способствует повышению качества работы столь существенным образом, что критиков остаётся только благодарить.

Ошибки и заблуждения автора также нашли отражение в книге, но всего лишь для того, чтобы читатель мог замечать нечто подобное в своих работах. (Это

Page 13: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

13

позволит читателю, «научившись на чужих ошибках, со знанием дела… совершать собственные...» ☺ [шутка из Интернета]).

ИЗВИНЕНИЯ

- Мне не нравится ваш кашель. - Извините, доктор, но лучше я не могу. (Из Интернета)

Автор просит прощения у читателя за следующие недостатки монографии.

1. В разделах отсутствует критический обзор литературы, из которого бы следовала необходимость поиска оригинального решения рассматриваемой статистической задачи.

2. Практически монография была написана давно. Однако вместо того, чтобы готовить её к публикации, автор занялся решением вопросов, далёких от науки (борьбой за существование, сменой страны проживания, трудоустройством и т. п.), затянувшим публикацию книги лет на десять.

3. Комментарии к источникам в приведенном списке «Рекомендуемой литературы» (см. раздел 12) отражают лишь мнение автора, а сам список является, в основном, перечнем книг из авторской библиотеки.

Остальные недостатки пытливые коллеги найдут сами.

БЛАГОДАРНОСТИ.

Наша благодарность иногда бывает так велика, что, расплачиваясь с друзьями за сделанное нам добро, мы ещё оставляем их у себя в долгу.(Ф. Ларошфуко)

Автор глубоко признателен в первую очередь талантливому школьному учителю математики Я. Я. Корфу (ныне - покойному) за прививку интереса к математике, остроумному преподавателю «курсов повышения квалификации инженеров» (а впоследствии, и коллеге) профессору ХГУ Ю. В. Ганделю, который этот интерес приумножил, лучшему в СССР (на взгляд автора) АСу Ю. П. Адлеру – за доброжелательную и конструктивную критику, а также всем, кто как-то способствовал написанию и выходу настоящей книги в свет: своим коллегам – соавторам работ [16.1 - 16.63] Цейтлину М. А., Телитченко В. А., Фотченко В. М., Райко В. Ф., Шаховой А. Ф. и др., а, особенно, ныне покойным В. Д. Смоляку и Ф. С. Новику – за самоотверженную «добычу» экспериментальных данных, а также за постановку предметных задач, раздумья над которыми привели нас к оригинальным решениям; членам нашего семинара «Математическая теория эксперимента» в Доме Учёных И. А. Колтунову, А. А. Гординскому, Н. Г. Ланцбергу, Ф. Э. Ицкову, И. Ю. Едвабник, А. Н. Рудаю, В. П. Чайке – за конструктивную критику, помощь и поддержку; своим шефам (в разное время) – зав. лаб. А. И. Летюку, зав. отд. Г. А. Ткачу (ныне покойному), зав. сект. Ф. М. Михайлову (НИОХИМ) и доктору К. Зайделю (НИИ Биофизической Химии им. Макса Планка, г. Гёттинген, ФРГ; Klaus Seidel; Max-Planck-Institut für biophysikalische Chemie; Göttingen) - за предоставленную возможность спокойно

Page 14: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

14

работать в своё удовольствие за казённый счёт; высоко профессиональным программистам А. Н. Рудаю, В. И. Рудай, В. П. Чайке, И. Ю. Едвабник и Л. М. Письмен - за воплощение алгоритмических фантазий автора в программных продуктах; доктору Я. С. Заир-Беку - за многочисленные замечания, пожелания, критику, недоумение, возмущение, рецензии, а также страницы «заготовок» для эпиграфов, предложения по структуре монографии, её плану, стилю изложения, вставке «оживляжей» (его термин); 46-ти трудолюбивым студентам – дипломникам харьковских вузов ХГУ, ХПИ и ХИРЭ – за техническую помощь, апробацию и творческое использование разработок автора в своих дипломных работах; строгим литературным редакторам Л. Ф. Задорожной и Е. Т. Хоруженко - за исправление множества литературных погрешностей в наших статьях; своим бывшим жёнам - Нэлле и Людмиле – за героическое долготерпение; сыну Александру – за приобщение автора к домашнему компьютеру, и, наконец, дочери Ольге - за комплименты.

Автор с благодарностью примет содержательные отзывы и конструктивную критику читателей и постарается воспроизвести эти материалы (с их позволения) в следующем издании книги.

Автор. Dr.-Ing. Natan Tseitlin. Е-mail: < [email protected] >. P. S.

«Хвалу и клевету приемлю равнодушно». Почтовый ящик (Е. Мостовой)

Page 15: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

15

ВВЕДЕНИЕ

Определение некоторых понятий. Связь математической статистики с теорией вероятностей. Статистический анализ данных. Равномерное и нормальное распределения случайных величин.

Я пишу… не для отечества и не ради славы, но для того внутреннего наслаждения,какое доставляет нам упражнение наших способностей. (Фосколо).

ОПРЕДЕЛЕНИЕ НЕКОТОРЫХ ПОНЯТИЙ.

Всякое определение есть ограничение. (Б. Спиноза)

Оказывается [15.27., с. 116], дать точное определение сколько-нибудь сложного понятия просто невозможно! Например, нельзя чётко определить, что такое «медицина», «физика», «человек», «бизнес» и даже «статистика». В. В. Налимов [15.27., с. 272] приводит коллекцию из 165-ти определений понятия «статистика», многие из которых не только лишены чёткости, но и противоречат друг другу. Тем не менее, на наш взгляд, даже нечёткое определение понятий позволяет читателю сделать первый шаг к осмысленному восприятию текста, а более глубокое представление об изучаемом предмете можно приобрести в специальной литературе и с собственным опытом.

Ряд основных понятий (в интерпретации автора).

ЛПР - лицо, принимающее решение. ЛПР – человек (или группа людей), наделённый полномочиями принимать решение и несущий ответственность за ошибочные решения. Варианты решений готовят эксперты, среди которых может быть и аналитический статистик (АС).

АС – специалист широкого профиля, обеспечивающий формальную постановку задачи экспериментального исследования, планирование эксперимента и математико-статистическую обработку результатов наблюдений, участвующий в составлении научного отчета, владеющий методами математического обеспечения экспериментальных исследований (МОЭИ).

МОЭИ – совокупный арсенал методов математического моделирования, информатики, вычислительной техники, планирования эксперимента (ПЭ) и математической статистики (МС).

ПЭ – математические методы оптимального выбора стратегии и тактики воздействия на управляемый объект экспериментальных исследований (ОЭИ) и организации пассивного эксперимента (то есть наблюдений ОЭИ, который подвергается неуправляемым воздействиям).

МС – методы сбора и математической обработки информации, полученной в результате наблюдений ОЭИ. Методы ПЭ и МС

Page 16: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

16

рекомендуется [1.9., с. 130] объединить термином «математическая теория эксперимента» (МТЭ). Исторически МС выделилась из дескриптивной (описательной) статистики (ДС), сохранившейся до настоящего времени (аналогично тому, как человек произошёл от обезьяны, сохранив к ней родственные чувства ☺).

ДС – математические методы представления популяций в предметных областях (народном хозяйстве, медицине, демографии и т. п.).Отметим, что в докомпьютерную эру МС была определена Р. Фишером (в 1938-м году) как «наука о сокращении и анализе наблюдённого материала» [15.27., с. 283]. В современных представлениях МС является «наукой о бесконечном извлечении информации из периодически обновляющихся данных» (Тьюки) [6.11.]. В рамках МС термин "статистика" означает также функцию

выборочных значений { } 1

N

i iy

=. Например, статистикой может быть

минимальное значение { }1,

min ii N

y∈

, выборочное среднее значение,

среднеквадратичное отклонение (СО) и т. п. ОЭИ – реально существующий объект (или явление), подлежащий

экспериментальному изучению и математическому моделированию [14.2.]. Примером ОЭИ может быть технологический процесс получения твердого металлического сплава [7.11]. Откликом Y в ОЭИ будет твердость сплава, а факторами – концентрации компонентов и характеристики технологического режима.По традиции [7.3.], восходящей к Н. Винеру, ОЭИ рассматривают в виде «черного» ящика (рис. 1).

X1 X2 … Xk Xk+1 … Xn Z1 Z2 … Zm V Объект экспериментальных исследований (ОЭИ) ⊕ Y

Рис. 1. Схематическое изображение объекта экспериментальных исследований: Xi

(i= n,1 ) – регистрируемые факторы, Xi (i= k,1 ) – управляемые, Xi (i= n1,k + ) –

неуправляемые, Zi (i= m1, ) – нерегистрируемые факторы; V – стохастический фактор (шум); Y- отклик.

Точнее было бы назвать схему ОЭИ «серым ящиком», так как всегда априори об

ОЭИ что-то известно (и эта информация позволяет сформулировать гипотезы относительно параметров статистической модели ОЭИ) и что-то неизвестно (эксперименты затевают, чтобы прояснить неизвестное).

На вход в «серый ящик» воздействует ряд факторов Xi (i= n,1 ) и Zi (i= m1, ), из

которых Xi (i= k,1 ) - регистрируемые управляемые факторы, Xi (i= n1,k + ) -

неуправляемые и Zi (i= m1, ) - нерегистрируемые, зачастую даже неизвестные факторы. На выходе «серого ящика» регистрируется зависимая переменная случайная величина (СВ) Y, называемая «откликом». На поведение отклика Y кроме перечисленных факторов, влияют некоторые природные стохастические факторы V (например, турбулентные пульсации [16.11]). Переменные величины Xi

Page 17: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

17

(i= n,1 ), Zi (i= m1, ), V и Y являются, как правило, параметрами физических свойств ОЭИ, имеющими размерность (м, кг, с, баллы и т. п.).

Здесь уместно тотчас же привести математическую модель ОЭИ

Y = ϕ1(x, z) + V , (1) где ϕ1(•) – неизвестная функция. Восстановить в записанном виде функцию ϕ1(•) по экспериментальным данным

невозможно. Приходится пользоваться предположением, что

ϕ1(x, z) = ϕ(β, x) + ϕ2(z), (2) где ϕ(•) – функция заданного вида (с точностью до значений элементов вектора

коэффициентов регрессии β), ϕ2(z) – обычно неизвестная функция, а сумма ϕ2(z) + V = ε обычно считается СВ, распределённой по нормальному закону с математическим ожиданием (МО) М{ε} = 0 и среднеквадратичным отклонением (СО) σy = (D{ε})0,5. Полученную таким образом модель ОЭИ

Y = ϕ(β, x) + ε (3) будем называть «моделью регрессии»; ϕ(•) – функцией регрессии, ε ~ N(0, σy) –

случайной ошибкой модели регрессии, вектор β и скаляр σy - параметрами регрессионной модели.

Отметим, что нивелированию влияния неизвестной функции ϕ2(z) на качество оценок параметров регрессионной модели уделено много внимания в литературе [6.8.].

Замечания.

1. При измерении величин, включаемых в модель регрессии, обычно возникают случайные погрешности, которыми часто необоснованно пренебрегают. Случаи, когда можно пренебречь случайной погрешностью измерения отклика обоснованно будут рассмотрены ниже.

2. В математической статистике термин «параметры» означает «константы (постоянные коэффициенты) статистических моделей»; в большинстве предметных областей (физике, химической технологии и др.) этот термин означает «наименование физического свойства» (температура, концентрация и т. п.). В ОЭИ факторами и откликом могут быть параметры физических свойств, а в формуле (3) вектор β и скаляр σy являются статистическими параметрами.

СВЯЗЬ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ С

ТЕОРИЕЙ ВЕРОЯТНОСТЕЙ.

Где начало того конца, которым оканчивается начало? (К. Прутков)

Page 18: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

18

Методы теории вероятностей являются дедуктивными, так как позволяют от вероятностной модели (общего) перейти к выборке (частному); методы МС являются индуктивными, так как позволяют от выборки (частного) перейти к вероятностной модели (общему) [2.1., с. 58].

Интерпретация.

Счастье – это когда тебя понимают, а несчастье – когда раскусили [Интернет].

Интерпретация является процессом толкования численных результатов расчета в терминах предметной области, «обслуживаемой» методами МС.

Интерпретация результатов расчета зависит в первую очередь от совокупности

математических свойств чисел yi (i=1, N ), используемых в исходной выборке. Перечислим полезные математические свойства чисел и присвоим им номера от

1 до 4:

1. Числа могут отличаться между собой. 2. Числа могут быть построены в вариационный ряд (от наименьшего к

наибольшему). 3. Числа можно вычитать (складывать). 4. Числа можно делить (умножать). Определим измерение (в общем случае) как способ установления соответствия

между параметром физического свойства объекта и некоторым числом [1.1.]. Для измерений применяются четыре разные шкалы (Табл. 1), в которых

используются различные сочетания математических свойств чисел.

Таблица 1: Интерпретируемые свойства измерительных шкал

Измерительная шкала Совокупность математических свойств чисел в измерительной шкале*

1 2 3 4

Номинальная (наименований) + - - -

Порядковая + + - -

интервальная + + + - метрическая

отношений + + + +

*Обозначения: «+» - используется; «-» - не используется.

В номинальной шкале (наименований) используется только первое

математическое свойство чисел, когда разным числам соответствуют разные физические свойства объектов.

В порядковой шкале используются только первое и второе математические свойства чисел; большие числа соответствуют большему количеству физических свойств объекта.

В интервальной шкале применяются первое, второе и третье математические свойства чисел; равным разностям чисел отвечают равные разности физических

Page 19: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

19

свойств объекта; ноль в интервальной шкале не означает отсутствие физического свойства.

В шкале отношений используются все четыре математические свойства чисел; равным отношениям чисел соответствуют равные отношения физических свойств объекта; ноль в шкале отношений означает отсутствие соответствующего физического свойства.

Шкалы - интервальная и отношений - образуют метрическую группу шкал.

Несколько примеров.

Прапорщик объясняет курсантам: - Вода кипит при 90 градусах! - Извините, товарищ прапорщик, -замечает курсант, - но мне кажется, что вода кипит при 100 градусах. - Да ну? Не может быть! Посмотрю в справочник... Да, точно. Тьфу ты! Да это ж я просто её с прямым углом перепутал!

Измерения в шкале наименований.

Каждой фазе состояния вещества может быть присвоено число: твердое – 1, жидкое – 2, газообразное – 3. Национальности человека можно присвоить числа: русский – 1; немец – 2; еврей – 3. Неравенства 1 ≠ 2; 2 ≠ 3; 1 ≠ 3 интерпретируются; отношения вида 1 < 2 < 3; 2 - 1 = 3 - 2; 3/2 = 1,5 и т. п. не интерпретируются.

Измерения в порядковой шкале.

Воинским званиям могут быть присвоены числа: рядовой - 1; ефрейтор – 2; майор – 7; подполковник – 8. Свойства чисел 1 ≠ 2; 1 ≠ 7;

1 < 2 < 7 < 8 интерпретируются; отношения 2 - 1 = 8 - 7; 8/2 = 4 и т. п. не интерпретируются.

Успеваемость четырёх учащихся может быть оценена в числах (баллах) 2, 3, 4 и 5. Свойства чисел 2 < 3 < 4 < 5 интерпретируются; отношения 3 - 2 = 5 - 4; или (2 + 3 + 4 + 5)/4 = 3,5 («средний балл») не интерпретируются.

Измерения в интервальной шкале.

Время суток, угол поворота, температура в градусах Цельсия (С°). Для времени суток 2, 3, 12 и 13 ч отношения 2 ≠ 3; 2 < 3; 3 - 2 = 13 - 12 (ч) и т. п. интерпретируются, а отношения 3/2 = 1,5 или 12/2 = 6 – не интерпретируются. Если температура воздуха повысилась с 8° С до 32° С, то можно сказать, что она возросла на 24° С, но нельзя сказать, что она увеличилась в четыре раза (хотя 32° С/8° С = 4). Время 0 часов, температура 0° С и угол 0° не означают отсутствие соответствующих физических свойств.

Page 20: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

20

Измерения в шкале отношений.

Масса; длина; сила; температура в градусах Кельвина (К). Масса 0 кг, длина 0 м, сила 0 N, температура 0 К означают отсутствие соответствующего свойства…

Данный пример автор, не задумываясь, переписал из книги [1.1.]. Однако, знакомые физики дружно возмутились: „В природе тело с массой m > 0 может иметь положительную температуру, как угодно близкую к 0 К, но только не точно 0 К!“

На это можно ответить так. Изобретатель В. Михеев из харьковского Физико-Технического Института Низких Температур изобрёл аппарат, охлаждающий вещество с массой m > 0 до температуры 0,00001 К! Так что дорогие коллеги! Не будем мелочными! Однако, чтобы не расходиться со строгой теорией, примем Вашу оговорку, а в скобках заметим, что значение температуры тела с массой m > 0, равное точно 0 К считается математической абстракцией. Теперь становится справедливым следующее утверждение.

Если температура воздуха повысилась с 8 до 32° С, то, перейдя к градусам Кельвина (273,16+8) К и (273,16+32) К можно говорить о том, что температура воздуха увеличилась в 1,085 раз.

Интерпретация результатов статистической обработки данных зависит от цели

исследования, интерпретируемых свойств чисел, которые используются в исходных данных, и свойств избранной статистической модели (см. разделы книги 6.6., 6.8., 9 и др.). Важнейшими характеристиками измерений являются их правильность, достоверность и точность [1.18., с.10, 39]. Правильность измерений определяется отсутствием систематической погрешности и зависит от правильности методов и средств измерения; достоверность (истинность, несомненность, степень доверия) результата измерения характеризуется случайной составляющей погрешности измерения: чем меньше случайная погрешность, тем достовернее результат.

Многие метрологические аспекты получения, обработки и интерпретации результатов измерений изложены в книге проф. В. А. Вознесенского [7.27.], причем столь толково, что, как говорится, «ни добавить, ни убавить». Остается только отослать любознательного читателя к этой чудесной книге.

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ.

В каждой естественной науке заключено столько истины, сколько в ней математики (И. Кант)

Под "анализом" в МС подразумеваются методы обработки результатов наблюдений, связанные с построением статистических моделей, оцениванием их параметров и проверкой гипотез.

Генеральную совокупность объектов (популяцию) G будем рассматривать как

набор бесконечно большого числа объектов {gi}, (i=1, ∞ ), с которыми связана данная проблема. Эти объекты могут быть людьми, животными, пробами грунта и т. п. Каждый объект gi называется элементом (или индивидуумом) генеральной совокупности.

Формализация задачи исследования свойств генеральной совокупности объектов G заключается в выборе численной характеристики Y объекта g. Измерение свойства Y объекта g называется наблюдением. Будем рассматривать Y

Page 21: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

21

как СВ, то есть, функцию, принимающую некоторое численное значение Y(g) на каждом элементе g генеральной совокупности G.

В результате одного i-го измерения находится одно значение Yi СВ Y. Всю генеральную совокупность G объектов {gi} можно охарактеризовать бесконечно

большим множеством (ImY) значений Yi, (i=1, ∞ ), полученных в результате измерений СВ Y, ImY = {Yi}, (i =1, ∞ ), которое будем называть просто «генеральной совокупностью».

СВ Y полностью определяется своей функцией распределения (ФР). Для произвольной случайной величины Y ФР F(Θ;у) определяется как

F(Θ;у) = P(Y ≤ y), (4) где Θ - вектор параметров распределения (вектор коэффициентов, или один

коэффициент); Р – вероятность события. Основной целью статистического анализа является выяснение свойств

рассматриваемой генеральной совокупности ImY объектов по результатам измерений свойств этих объектов.

Практически возможно только конечное число N < ∞ измерений. Поэтому поставленная цель достигается путем отбора из генеральной совокупности ImY

подмножества {Yi}, которое состоит из N элементов Yi, (i=1, N ) и называется случайной выборкой, исследования и описания его свойств, обобщения этих результатов и переноса их на всю генеральную совокупность.

Случайная выборка – это совокупность {Yi} в количестве N элементов Yi генеральной совокупности ImY, каждый из которых имеет равные шансы быть отобранным и попасть в выборку.

Случайная выборка должна быть представительной. Критериями представительности выборки являются: её объем N и эффективность рандомизации (процедуры случайного отбора) ее элементов [7.30.]. Чем больше объем N и реальнее рандомизация, тем представительнее выборка. Множество результатов Yi наблюдений свойств объектов {gi} образует набор данных {Yi}. Статистическая обработка набора данных заключается в поиске приемлемых оценок вектора параметров Θ, формулировке и проверке гипотез относительно этих параметров (параметрических гипотез).

Отметим, что когда параметры Θ не рассматриваются, то гипотезы относительно свойств распределения СВ Y называются непараметрическими.

Обобщение результатов статистической обработки данных на генеральную совокупность ImY называется статистическим выводом.

Интерпретация заключается в толковании численных результатов расчета оценок неизвестных параметров, проверки гипотез и других свойств генеральной совокупности ImY в терминах предметной области, «обслуживаемой» методами МС.

Описание допущений в научном отчёте о статистическом

анализе данных.

Если вы упустите свой шанс, он станет чужим. (Из Интернета)

Page 22: ИЗ ОПЫТА АНАЛИТИЧЕСКОГО СТАТИСТИКАmatstat.gmxhome.de/pdfs/Vvedenie.pdf1.14., 2.3. и 7.3.], был единственным специалистом

22

В прикладной математике широко используется система допущений. Это позволяет формализовать разнотипные физические задачи и решать их однотипными математическими методами [2.2.]. В МТЭ часто используются допущения о нормальном распределении случайной величины, о независимости результатов измерений, о равенстве нулю СО ошибки измерения факторов (в регрессионном анализе [2.3.]) и ряд других. Без подобных допущений было бы невозможно применять статистические методы. С другой стороны, правильность, корректность допущений нуждаются в проверке [2.4.]. Поэтому в научно-техническом отчете (НО) необходимо указывать, какие допущения приняты без проверки (как постулаты), а какие – проверены. Такое указание свидетельствует о степени неполноты знаний об объекте и отражает достигнутый уровень в диалектическом движении от полного незнания - к частичному, от частичного – к более полному и т. д. (Предполагается, что в будущих исследованиях непроверенные допущения при необходимости и возможности будут пересмотрены).

Представление статистической информации в научном отчете. В связи с интенсивным развитием теории информации и вычислительной техники, представление о НО существенно расширилось. Теперь кроме "бумажного отчета" – записи результатов НИР на бумаге, широко используется "компьютерный отчет" на носителях информации в ЭВМ.

Полнота описания результатов НИР уже не ограничивается возможностями бумажного носителя информации. В этой ситуации нередко наблюдается перегиб в сторону предоставления читателю НО чрезвычайно обильной, но несущественной для дальнейшего использования информации.

Общие требования к НО достаточно подробно описаны в стандарте [14.14.]. В разделе 6 будут приведены рекомендации к составлению той части НО, которая касается описания результатов статистической обработки данных.

Литература

1. Цейтлин Н. А. Электронное музыкальное устройство. Авт. свид. № 354430 от 9 марта 1966 г.