Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
26.02.2023
Размер:
318.59 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

КАЛМЫЦКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ИДЕОЛОГИЯ И АЛГОРИТМ ОБРАБОТКИ РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ

ЧАСТЬ 2 МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

Методические указания для студентов, магистрантов и аспирантов

Элиста 2012

Идеология и алгоритм обработки результатов измерений. Часть 2. Метод наименьших квадратов: Методические указания для студентов и аспирантов / Калм. ун–т; Сост.: А.С. Батырев, Р.А. Бисенгалиев, Р.А. Бисенгалиев, В.М. Зотов, В.В. Мусцевой. Элиста, 2012. 18 с.

В настоящей методической разработке кратко описаны основная идеология и методология обработки результатов экспериментов по методу наименьших квадратов. Пособие предназначено для студентов первого курса, выполняющих лабораторные работы по физике, но может быть полезным и для студентов старших курсов и аспирантов. Методические указания составлены на основе большого количества материала, однако изложение сознательно упрощено, поэтому оно должно рассматриваться как дополнительный материал при изучении теории ошибок.

Утверждено учебно–методическим советом факультета математики, физики и информационных технологий Калмыцкого государственного университета.

Рецензент доктор физико–математических наук, профессор кафедры теоретической физики и волновых процессов Волгоградского государственного университета Лебедев Н.Г.

Подписано в печать 30.11.12. Формат 60 84/16 Бумага тип. N 1. Печать офсетная. Усл. печ. л. 1,16. Тираж 50 экз. Заказ 1975.

Издательство Калмыцкого университета 358000 Элиста, ул. Пушкина,11.

С О Д Е Р Ж А Н И Е

Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1. Введение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5 2. Идеология и алгоритм метода наименьших квадратов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 3. Начальные и центральные статистические моменты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4. Определение параметров линейной функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5. Определение коэффициентов квадратичной параболы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 6. Определение коэффициентов сглаживающей параболы четвертой степени. . . . . . . . .13 7. Графический способ определения параметров, нелиненым образом входящих в сгла– живающую функцию . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Приложение I. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Приложение II. Задания для проведения самостоятельных работ. . . . . . . . . . . . . . . . . . . . .17 Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Предисловие

Впервой части настоящего пособия [1] мы описали природу возникновения и классификацию погрешностей, технологию и алгоритм обработки результатов измерений,

атакже дали рекомендации, как провести аппроксимирующую кривую по экспериментальным точкам. Однако за рамками рассмотрения остался вопрос: как поступать, если вид этой кривой заранее известен из физических теоретических соображений?

Внастоящем пособии описывается идеология и алгоритм метода наименьших квадратов, позволяющего определять по экспериментальным значениям числовые параметры, характеризующие сглаживающую кривую аналитической зависимости, и приводятся примеры определения таких коэффициентов для случаев линейной зависимости и квадратичной параболы.

Хотя метод наименьших квадратов описан во многих учебниках, студентов младших курсов, не владеющих аппаратом высшей математики, “отпугивает” перегруженность изложения доказательствами, отягощенными достаточно сложными математическими выкладками. Поэтому мы сознательно упростили изложение, опуская эти доказательства; читателей, желающих глубже познакомиться с рассматриваемым вопросом, мы отсылаем к литературе, список которой приведен в конце пособия.

При составлении пособия, мы следовали, в основном, изложению рассматриваемого вопроса, приведенному в [2]. В процессе его написания использовались также источники [3-9].

Пособие может быть использовано при проведении лабораторных работ по физическому практикуму. Как нам представляется, оно может быть использовано и для проведения самостоятельных работ.

Хотя пособие ориентировано, в первую очередь, на первокурсников, мы надеемся, что оно окажется полезным и для студентов старших курсов и аспирантов, сталкивающихся в своей работе с обработкой результатов измерений.

4

1. Введение

Каждый физический эксперимент сопровождается измерениями. В работе [1] мы уже отмечали, что ни одно измерение не может быть выполнено абсолютно точно. Всегда существует какая–то разница между истинным значением величины и полученным в результате измерений, называемая ошибкой или погрешностью измерений (далее мы не делаем различий между смысловыми значениями этих терминов и используем их как синонимы). Классификация и основные правила определения погрешностей мы также приводили в пособии [1].

Достаточно часто при измерениях необходимо изменять, варьировать какой–либо параметр x и проводить серии измерений некоторой величины y при фиксированных значениях xi этого параметра, определять для каждого такого значения среднее и погрешность его измерения, получая таким образом дискретный набор экспериментальных точек yi(xi), характеризующий функциональную зависимость измеряемой величины от варьируемого параметра.

При этом нередки случаи, когда вид этой зависимости y = '(x) точно известен из теоретических физических соображений, либо достаточно очевиден из распределения экспериментальных точек вдоль изменяющегося параметра.

Однако из–за погрешностей измерений с необходимостью возникает разброс полученных в эксперименте значений yi вокруг кривой y = '(x), характеризующей указанную аналитическую зависимость. Возникает вопрос, как наилучшим образом сгладить указанный разброс, макимально приблизив кривую ко всем полученным в эксперименте значениям, отразив общую закономерность ее поведения, избавившись при этом от нефизичных осцилляций, обусловленных погрешностями измерений.

Если вид зависимости известен точно или очевиден из расположения экспериментальных точек, то задача фактически сводится к определению оптимальных значений параметров этой зависимости. Например, для линейной зависимости y = ax + b к определению a и b, для квадратичной y = ax2 + bx + c к определению a, b и c и т.д.

Для минимизации влияния ошибок измерений в таких ситуациях выдающийся немецкий математик, физик и астроном Иоганн Карл Фридрих Гаусс использовал свой метод наименьших квадратов, который сейчас повсеместно применяется в статистике. Описанию алгоритма этого метода и посвящена настоящая работа.

Метод наименьших квадратов один из методов регрессионного анализа для оценки неизвестных величин по результатам измерений, содержащих случайные ошибки (регрессионный анализ статистический метод исследования функциональной зависимости между зависимой переменной y и одной или несколькими независимыми переменными x1; x2; :::; xn; независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные критериальными).

Метод наименьших квадратов применяется также для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке результатов измерений и астрономических наблюдений.

Когда искомая величина может быть измерена непосредственно, как, например, длина отрезка или угол, то, для увеличения точности, измерение производится многократно, и за окончательный результат принимают арифметическое среднее из всех отдельных измерений. Это правило арифметической середины основывается на соображениях теории вероятностей; сумма квадратов уклонений отдельных измерений от арифметической середины будет меньше, чем сумма квадратов уклонений отдельных

5

измерений от какой бы то ни было другой величины. Само правило арифметической середины представляет, следовательно, простейший случай метода наименьших квадратов.

До начала XIX века ученые не имели определенных правил для решения системы уравнений, в которой число неизвестных меньше, чем число уравнений; до этого времени употреблялись частные приемы, зависевшие от вида уравнений и от остроумия вычислителей, и потому разные вычислители, исходя из тех же данных наблюдений, приходили к различным выводам. Лежандру (1805–06) и Гауссу (1794–95) принадлежит первое применение к решению указанной системы уравнений теории вероятностей, исходя из начал, аналогичных с началом арифметической середины, уже издавна и, можно сказать, бессознательно применяемых к выводам результатов в простейшем случае многократных измерений. Как и в случае арифметической середины, изобретенный Гауссом и Лежандром способ не дает, конечно, истинных значений искомых величин, но зато дает их наиболее вероятные значения. Этот способ распространен и усовершенствован дальнейшими изысканиями Лапласа, Энке, Бесселя, Ганзена и других ученых и получил название метода наименьших квадратов, поскольку после подстановки в начальные уравнения неизвестных величин, выведенных этим способом, в правых частях уравнений получаются если и не нули, то небольшие величины, сумма квадратов которых оказывается меньшей, чем сумма квадратов подобных же остатков после подстановки каких бы то ни было других значений неизвестных. Помимо этого, решение уравнений по способу наименьших квадратов дает возможность выводить вероятные ошибки неизвестных, то есть величины, по которым судят о степени точности выводов.

Строгое обоснование и установление границ содержательной применимости метода даны А. А. Марковым и А. Н. Колмогоровым.

2. Идеология и алгоритм метода наименьших квадратов

Таким образом, перед нами стоит задача наиболее оптимального подбора числовых параметров a; b; c; :::, для того, чтобы максимально приблизить аналитическую зависимость y = '(x), характеризуемую этими параметрами, к экспериментальным точкам, не исказив при этом ее формы.

Пусть у нас имеются значения, полученные в результате измерений см. таблицу 1. Здесь i номер опыта, xi значение параметра, являющегося аргументом, yi отвечающее ему значение функции.

Таблица 1.

i

1

2

...

i

...

n

xi

x1

x2

...

xi

...

xn

yi

y1

y2

...

yi

...

yn

Взаимное расположение экспериментальных точек (xi; yi) и кривой теоретически известной аналитической зависимости y = '(x) схематически показано на рис. 1.

Так каким же образом подобрать характеризующие '(x) параметры? Как максимально близко к экспериментальным точкам провести описывающую эту зависимость кривую?

Это нетривиальный вопрос, поскольку минимизировать расстояние от экспериментальных точек до кривой можно различными способами. Можно добиваться того, чтобы максимальное расстояние между ними принимало минимальное значение; можно доби-

6

ваться минимума суммы абсолютных величин отклонений точек от кривой и т.д. Выбирая различные способы минимизации мы получим различные значения параметров a; b; :::, характеризующих кривую зависимости '(x).

В настоящее время общепринятым является метод наименьших квадратов. В его основе лежит требование того, чтобы сумма квадратов отклонений экспериментальных значений yi(xi) от сглаживающей кривой '(xi) обращалась в минимум:

n

X

[yi '(xi)]2 = min :

(1)

i=1

У этого метода два существенных преимущества перед другими. Во–первых, с математической точки зрения он сравнительно прост, во–вторых, он допускает строгое теоретическое обоснование с вероятностной точки зрения (см., например, [2]).

Перейдем к описанию алгоритма метода наименьших квадратов.

Итак, из каких–либо физических или общих соображений мы выбрали общий вид сглаживающей функции y = '(x); ее конкретный вид зависит от нескольких числовых параметров a; b; c; :::, и нам необходимо найти такие их значения, чтобы выполнялось приведенное выше требование минимума суммы квадратов.

Для этого представим эту функцию как зависимость не только от x, но и от a; b; c; ::::

y = '(x; a; b; c; :::):

(2)

Нам требуется исследовать эту функцию на экстремум и подобрать такой набор параметров a; b; c; :::, чтобы выполнялось:

n

X

[yi '(xi; a; b; c; :::)]2 = min :

(3)

i=1

Для этого, как и во всех задачах исследования функций на экстремумы, последовательно продифференцируем ее по a, b, c и т.д. и приравняем производные к нулю:

n

[yi '(xi; a; b; c; :::)] @a

i

= 0;

(4)

i=1

X

@'

 

 

 

n

[yi '(xi; a; b; c; :::)] @b

i

= 0;

(5)

i=1

X

@'

 

 

 

n

[yi '(xi; a; b; c; :::)] @c

i

= 0:

(6)

i=1

X

@'

 

 

 

: : : : : : : : : : : : : : : : :

Здесь (@'=@a)i значение частной производной функции ' по параметру a, вычисленное в точке xi; для (@'=@b)i , (@'=@c)i, ::: аналогично (при вычислении частной производной от функции нескольких аргументов мы предполагаем, что изменяется только тот аргумент, по которому производится дифференцирование, а остальные аргументы полагаем фиксированными, т.е. постоянными).

Поскольку мы предполагаем, что вид функции '(x) нам известен, частные производные мы можем взять аналитически. Таким образом, приведенная выше система уравнений в частных производных сводится к системе алгебраических уравнений; при этом

7

эта ситема содержит столько же уравнений, сколько неизвестных параметров a; b; c; :::, т.е. полностью определена и имеет единственное решение для каждого конкретного вида функции '(x). Далее мы рассмотрим такие решения для двух видов этой функции линейной и квадратичной параболы.

3. Начальные и центральные статистические моменты

Чтобы перейти к дальнейшему изложению, необходимо ввести понятия начальных и центральных статистических моментов.

По определению, начальным статистическим моментом случайной величины x

порядка s называется число, определяемое выражением:

[X] =

1

 

n

xs;

(7)

 

Xi

s

n

i

 

 

 

 

=1

 

 

 

 

 

 

 

где xi значение случайной величины, полученное в i–ом опыте, n число опытов.

Центральным статистическим моментом случайной величины x порядка s называется число, определяемое выражением:

1

 

n

 

 

 

 

Xi

 

s[X] = n

(8)

(xi mx)s:

 

 

 

=1

 

Здесь mx = M [X] математическое ожидание, в данном случае (в случае выполнения закона нормального распределения ошибок Гаусса см., например, [1]) совпадающее со статистическим средним значением величины, т.е.:

n

mx = M [X] = 1 xi =< x > : (9)

X

n

n=1

Как видно из приведенных формул, эти моменты различаются лишь тем, что начальные вычисляются относительно начала координат (откуда и произошло их название), а центральные относительно центра распределения, т.е. относительно среднего значения величины. Отметим, что начало координат можно выбрать совершенно произвольным образом из соображений удобства вычислений; формула пересчета значений от одной системы координат к другой очевидна: если у нас есть набор полученных в результате опытов значений xi, но мы хотим сдвинуть начало координат на величину a вправо, то новые значения x~i связаны с прежними соотношением x~i = xi a.

Для статистических моментов существуют аналогии в физике, например момент инерции. Как хорошо известно, этот момент также можно вычислять относительно произвольно выбранного начала координат, либо относительно центра масс; при этом полученные значения связаны теоремой Гюйгенса–Штейнера.

Важно понять, что для каждой конкретной серии экспериментальных значений xi моменты представляют собой не нечто непонятное и загадочное, а вполне определенные числа, постоянные значения которых для данной серии получаются обработкой экспериментальных данных. Поэтому мы рекомендуем читателю не пугаться “страшных” обозначений, а спокойно воспринимать их как обычные числа.

Например, пусть в результате опытов были получены значения, приведенные в таблице 2:

8

Таблица 2.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

1

 

2

 

 

3

 

 

4

 

5

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

10:1

 

10:4

 

10:3

 

10:2

10:3

10:2

 

 

 

 

 

 

 

Используя определения моментов (7)–(8), вычисляем:

 

 

 

 

 

 

 

 

 

 

1[X] =

10:1 + 10:4 + 2 10:3 + 2 10:2

= 10:25;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1[X] = 0;

 

 

 

 

 

 

 

 

 

 

 

 

[X] =

10:12 + 10:42 + 2 10:32 + 2 10:22

=

 

 

 

 

 

 

2

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

102:01 + 108:16 + 2 106:09 + 2 104:04

'

105:072;

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

[X] =

 

0:152 + 0:152 + 2 0:052 + 2 0:052

=

0:045 + 0:01

 

'

0:00917;

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

6

 

 

 

 

и т.д.

Сделаем два небольших замечания.

Во–первых, статистический первый центральный момент всегда равен нулю. Дей-

ствительно:

1

 

n

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

X

 

 

 

 

1 = n

=1

(xi mx) = n

 

xi mx = mx mx = 0:

(10)

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

Во–вторых, для играющего большую роль в математической статистике второго

центрального момента дисперсии, справедливо:

 

 

 

1

n

 

1

 

n

 

 

2m

n

 

 

 

 

X

 

 

X

 

 

Xi

 

 

2[X] = Dx[X] =

 

 

 

 

(xi mx)2 =

 

 

 

 

 

xi2

x

xi

+ (mx)2 = 2 (mx)2;

(11)

n

i=1

n

i=1

n

 

 

 

 

 

 

 

=1

 

 

что описывает связь вторых центрального и начального моментов и является аналогом теоремы Гюйгенса–Штейнера в механике (отметим, что в приведенном выше примере (11) не совсем выполняется из–за ошибок округления, поскольку берется разность двух больших чисел, очень близких по значению, одно из которых подверглось округлению, и эта разность сравнивается с малым, также приближенным округленным числом).

Учитывая последнее замечание, сделанное в скобках, очень часто на практике бывает удобно и полезно переместить начало осчета в точку, близкую к точке среднего значения, но не совпадающую с ней. Этот прием мы демонстрируем далее в примере 1 Приложения I.

Совершенно аналогичным образом вводится понятие статистических моментов системы двух величин.

Для начального статистического момента системы двух величин справедливо:

 

[X; Y ] =

1

 

n

xkys;

(12)

 

Xi

k;s

n

i i

 

 

 

 

=1

 

 

 

 

 

 

 

Для центрального статистического момента системы двух величин выполняется:

1

 

n

 

 

 

 

Xi

 

k;s[X; Y ] = n

(13)

(xi mx)k(yi my)s:

 

 

 

=1

 

9

Отметим, что, в принципе, в данной работе можно было бы и не вводить понятия статистических моментов, но, как мы увидим далее, они позволяют существенно сократить записи выражений, так как не прийдется многократно переписывать знаки суммирования.

4. Определение параметров линейной функции

Пусть при проведении измерений получена совокупность значений (xi; yi) и из тео-

ретических соображений известно, что зависимость y(x) линейна:

 

y = '(x; a; b) = ax + b:

(14)

Требуется, используя метод наименьших квадратов, определить оптимальные значения a и b.

В соответствии со сказанным в пункте 2, дифференцируем это выражение после-

довательно по a и по b. Получаем:

 

 

 

 

 

 

 

 

@'

 

 

 

@'

 

 

 

 

 

 

 

 

 

= x;

 

 

 

i

= xi;

(15)

 

@a

@a

@'

 

= 1;

 

@'

i

= 1:

(16)

 

 

 

 

 

 

 

 

@b

@b

Подставляя эти значения в полученную в пункте 2 систему уравнений, находим:

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

[yi (axi + b)]xi = 0;

(17)

=1

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

[yi (axi + b)] = 0:

(18)

=1

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

 

Таким образом, мы получили два уравнения для нахождения a и b.

 

Раскрывая скобки и производя суммирование, получаем:

 

n

n

 

 

 

 

n

 

 

XX X

xiyi a

xi2 b

xi = 0;

(19)

i=1

i=1

i=1

 

nn

XX

 

 

 

 

 

yi a

 

xi bn = 0:

(20)

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

Делим оба эти уравнения на n:

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

a n

 

xi2

 

b

n

 

 

 

 

 

xiyi

 

 

 

 

 

 

 

 

xi = 0;

(21)

n

n

 

n

 

 

 

=1

 

=1

 

 

 

 

i=1

 

 

 

 

Xi

 

 

Xi

 

 

 

 

X

 

 

 

 

 

1 n

yi

a

 

n

xi b = 0:

(22)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

n

i=1

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

X

 

 

 

 

 

Замечаем, что все суммы, входящие в последние два уравнения, есть не что иное, как введенные нами в пункте 3 статистические моменты. Соответственно, получаем:

1;1[X:Y ] a 2[X] bmx = 0;

(23)

10

Соседние файлы в папке новая папка 1