logo
лекции 2-й семестр

Компанию а

Понижение котировок (0.4) -2000 долл.

1

Повышение котировок (0.6)

1500 долл.

Инвестиции в

компанию В Понижение котировок (0.4) 500 долл.

Рис. 39.

В теории ПР повышение и понижение котировок на бирже именуются состояниями природы, возможные реализации которых являются случайными событиями. В общем случае задача принятия решений (ЗПР) может включать n состояний природы и m альтернатив. Если Pj- вероятность j-го состояния природы, а aij- платеж, связанный с принятием решения i при состоянии природы j (i = 1,...,m, j = 1,...,n), тогда ожидаемый платеж для решения i вычисляется в виде

MVi = ai1Pi1 + ai2Pi2 + ... + ainPin, i =1,...,n,

где по определению P1+P2+ ... +Pn= 1.

Наилучшим решением буде то, которое соответствует MV*i= maxi{MVi} или MV*i= mini{MVi}, в зависимости от того, является ли платеж в задаче доходом (прибылью) или убытком (затратами).

Для демонстрации других возможностей применения критерия ожидаемого значения рассмотрим ситуации ПР, в которых плата является математической функцией альтернативных решений. В этом случае представление задачи в виде дерева решений хотя и является возможным, но может быть не столь полезным, как в предыдущем примере. Рассмотрим условный пример, описанный в /25/.

Пример 2.

Электроэнергетическая компания использует парк из 20 грузовых автомобилей для обслуживания электрической сети. Компания планирует периодический профилактический ремонт автомобилей. Вероятность piполомки автомобиля по истечении t месяцев после профилактического ремонта оценивается следующим образом.

t

1

2

3

4

5

6

7

8

9

10

pi

0.05

0.07

0.10

0.13

0.18

0.23

0.33

0.43

0.50

0.55

Случайная поломка одного грузового автомобиля обходится компании в 200 долл., а плановый профилактический ремонт в 50 долл. Необходимо определить оптимальный период (в месяцах) между плановыми профилактическими ремонтами.

Обозначим через N искомое число месяцев между профилактическими ремонтами. На протяжении N-месячного цикла могут иметь место два вида расходов: 1) затраты, связанные с устранением поломки автомобиля на протяжении первых N-1 месяцев и 2) затраты на профилактический ремонт в конце цикла. Затраты второго вида (профилактический ремонт) составляют 50 долл.20 автомобилей, т.е. 1000 долл. на цикл. Затраты, связанные с устранением поломок автомобилей, должны основываться на среднем количестве автомобилей, вышедших из строя на протяжении первых N-1 месяцев цикла. Здесь мы имеем два состояния по истечении месяца t: поломка автомобиля с вероятностью pi и ее отсутствие с вероятностью 1 - pi. Следовательно, ожидаемое число поломок по истечении месяца t равно количеству автомашин в парке, умноженному на pi, т.е. 20pi. Используя этот результат, подсчитаем ожидаемое общее число сломавшихся автомобилей на протяжении первых N-1 месяцев цикла в виде суммы соответствующих величин для каждого месяца в отдельности, т.е. 20p1 + 20p2 + .... + 20pN-1= 20(p1 +p2 + ... +pN-1). Обозначив через EC(N) общую ожидаемую стоимость для цикла между профилактическими ремонтами, имеем следующее:

EC(N) = 1000$ + 200$20(p1 +p2+ .... + pN-1).

Задача выбора решения компанией сводится таким образом к определению длины цикла N, которая минимизирует общие ожидаемые затраты за один месяц ECPM(N), т.е. величину

N-1

ECPM(N) = EC(N)/N = (1000 + 4000  pi) / N

i=1

Минимизацию функции ECPM(N) нельзя выполнить в явной форме. Вместо этого используется табличная форма нахождения решения.

N

PN

 pi

ECPM(N)

1

0.05

0

1000

2

0.07

0.05

600

3

0.10

0.12

493.33

4

0.13

0.22

470

5

0.18

0.35

480

6

0.23

0.53

520

Оптимальное N 4

Вычисления показывают, что ECPM(N) достигает своего минимума при N = 4. Следовательно, профилактический ремонт автомобилей нужно выполнять каждые четыре месяца.

Рассмотрим три модификации критерия ожидаемого значения. Первая состоит в определении апостериорных вероятностей на основе эксперимента над исследуемой системой, вторая - в полезности реальной стоимости денег, а третья модифицирует критерий ожидаемого значения таким образом, что он может быть использован для ПР при краткосрочном планировании.

Распределения вероятностей, которые используются при формулировке критерия ожидаемого значения, получаются, как правило, из накопленной ранее информации. В некоторых случаях оказывается возможным модифицировать эти вероятности с помощью текущей и/или полученной ранее информации, которая обычно основывается на исследовании выборочных (или экспериментальных) данных. Получаемые при этом вероятности называют апостериорными (или Байесовскими), в отличие от априорных, полученных из исходной информации.

Следующий условный пример показывает, как рассмотренный выше критерий ожидаемого значения можно модифицировать так, чтобы воспользоваться новой информацией, содержащейся в апостериорных вероятностях.

Пример 3.

В примере 1 априорные вероятности 0.6 и 0.4 повышения и понижения котировок акций на бирже были определены из наличных публикаций финансового характера. Предположим, вместо того чтобы полностью полагаться на эти публикации, вы решили провести исследование путем консультаций с экспертом, который хорошо разбирается в вопросах, касающихся фондовой биржи. Эксперт высказывает общее мнение “за” или “против” инвестиций. Это мнение в дальнейшем определяется количественно следующим образом. При повышении котировок его мнение с 90% вероятностью будет “за”, при снижении котировок вероятность его мнения “за” уменьшится до 50%. Каким образом можно извлечь пользу из этой дополнительной информации?

Мнение эксперта фактически представляет условные вероятности “за - против” при заданных состояниях природы в виде повышения и понижения котировок. Введем следующие обозначения:

v1- мнение “за”;

v2- мнение “против”;

m1- повышение котировок;

m2- понижение котировок.

Мнение эксперта можно записать в виде вероятностных соотношений следующим образом:

P{v1| m1} = 0.9; P{v1| m2} = 0.1.

P{v2| m1} = 0.5; P{v2| m2} = 0.5.

С помощью этой дополнительной информации задачу выбора решения можно сформулировать следующим образом.

1. Если мнение эксперта “за”, акции какой компании следует покупать - А или В

2. Если мнение эксперта “против”, то, опять-таки, - акции какой компании следует покупать - А или В

Рассматриваемую задачу можно представить в виде дерева решений, показанного на рис 40. Узлу 1 здесь соответствует случайное событие, мнение эксперта, с соответствующими вероятностями “за” или “против”. Узлы 2 и 3 представляют выбор между компаниями А и В при известном мнении эксперта “за” или “против” соответственно. Узлы 4-7 соответствуют случайным событиям, связанным с повышением и понижением котировок.

Для оценки различных альтернатив, показанных на рис.40, необходимо вычислить апостериорные вероятности P{mi| vj}, указанные на соответствующих ветвях, выходящих из узлов 4-7. Эти апостериорные вероятности вычисляются с учетом дополнительной информации, содержащейся в рекомендациях эксперта, с помощью следующих действий.

Шаг 1.Условные вероятности P{mi | vj} для данной задачи запишем следующим образом:

v1v2

P{mi| vj} = m10.9 0.1

m20.5 0.5

Шаг 2. Вычисляем вероятности совместного появления событий.

P{mi, vj} = P{vj| mi}P{mi} для всех i и j.

При заданных априорных вероятностях P{m1}=0.6 и P{m2} = 0.4 вероятности совместного появления событий определяются умножением первой и второй строк таблицы, полученной на шаге 1, на 0.6 и 0.4 соответственно. В результате получаем:

v1v2

P{mi,vj} =m10.54 0.06

m20.20 0.20

Сумма всех элементов этой таблицы равна 1.

Рис.40

Шаг 3.Вычисляем абсолютные вероятности.

P{vj} =P{mi, vj}, для всех j.

все i

Эти вероятности получаются путем суммирования элементов соответствующих столбцов таблицы, полученной на шаге 2. В итоге имеем следующее

P{v1} P{v2}

0.74 0.26

Шаг 4.Определяем искомые апостериорные вероятности по формуле

P{mi| vj} = P{mi| vj}/P{vj}.

Эти вероятности вычисляются в результате деления каждого столбца таблицы, полученной на шаге 2, на элемент соответствующего столбца таблицы, вычисленной на шаге 3, что приводит к следующим результатам (округленным до трех десятичных знаков).

v1v2

P{mi| vj} = m1 0.73 0.231

m20.27 0.769

Это те вероятности, которые показаны на рис. 4. Они отличаются от исходных априорных вероятностей P{m1} = 0.6 и P{m2} = 0.4. Теперь можно оценить альтернативные решения, основанные на ожидаемых платежах для узлов 4 - 7.

Мнение “за”

Доход от акций компании А в узле 4 = 50000.73 + (-2000)0.27 = 3110 долл.

Доход от акций компании В в узле 5 = 15000.73 + 5000.27 = 1230 долл.

Решение: инвестировать в акции компании А.

Мнение “против”

Доход от акций компании А в узле 6 = 50000.231 + (-2000)0.769 = -383 долл.

Доход от акций компании В в узле 7 = 15000.231 + 5000.769 = 731 долл.

Решение: инвестировать в акции компании В.

Заметим, что предыдущие решения эквивалентны утверждению, что ожидаемые платы в узлах 2 и 3 равны 3110 и 731 долл. соответственно (рис.40). Следовательно, при известных вероятностях P{v1} = 0.74 и P{v2} = 0.26, вычисленных на шаге 3, можно вычислить ожидаемую плату для всего дерева решений.

В предыдущих примерах критерий ожидаемого значения применялся лишь в тех ситуациях, где платежи выражались в виде реальных денег. Имеются многочисленные случаи, когда при анализе следует использовать скорее полезность, чем реальную величину платежей. Для демонстрации этого предположим, что имеется шанс 50 на 50, что инвестиция в 20000 долл. или принесет прибыль в 40000 долл., или будет полностью потеряна. Соответствующая ожидаемая прибыль равна 400000.5 - 200000.5 = 10000долл. Хотя здесь ожидается прибыль в виде чистого дохода, разные люди могут по-разному интерпретировать полученный результат. Инвестор, который идет на риск, может сделать инвестицию, чтобы с вероятностью 50% получить прибыль в 40000 долл. Наоборот, осторожный инвестор может не выразить желания рисковать потерей 20000 долл. С этой точки зрения очевидно, что разные индивидуумы проявляют разное отношение к риску, т.е. они проявляют разную полезность по отношению к риску. Определение полезности является субъективным. Оно зависит от нашего отношения к риску. В этом разделе представим систематизированную процедуру числовой оценки отношения к риску ЛПР. Конечным результатом является функция полезности, которая занимает место реальных денег.

В примере, приведенном выше, наилучший платеж равен 40000 долл., а наихудший – -20000 долл. Следовательно, устанавливаем произвольную, но логическую шкалу полезности U, изменяющуюся от 0 до 100, где 0 соответствует полезности -20000 долл., а 100 - 40000 долл., т.е. U(-20000) = 0 и U(40000) = 100. Далее определяем полезность в точках между -20000 долл. и 40000 долл. для определения общего вида функции полезности.

Если отношение ЛПР беспристрастно к риску, то результирующая функция полезности является прямой линией, соединяющей точки (0, -20000) и (100, 40000). В этом случае, как реальные деньги, так и их полезность дают совпадающие решения. В более реальных ситуациях функция полезности может принимать другой вид, отражающий отношение к риску ЛПР. Рис.41 иллюстрирует вид функции полезности для трех индивидуумов X, Y, Z. Индивидуум X не расположен к риску (осторожен), т.к. проявляет большую чувствительность к потере, чем к прибыли. Индивидуум Z - противоположность в этом отношении индивидууму X; он настроен на риск. Это следует из того, что для индивидуума X при изменении в 10000 долл. вправо и влево от точки, соответствующей 0 долл., увеличение прибыли изменяет полезность на величину ab, которая меньше изменения полезности bc, обусловленной потерями такой же величины, т.е. ab < bc. В то же время такие же изменения в 10000 долл., относящиеся к индивидууму Z, обнаруживают противоположное поведение; здесь de > ef. Далее, индивидуум Y является нейтральным к риску, т.к. упомянутые изменения порождают одинаковые изменения полезности. В общем случае индивидуум может быть как не расположен к риску, так и настроен на риск, в зависимости от суммы риска. В этом случае соответствующая кривая полезности будет иметь вид удлиненной буквы S.

Кривые полезности, изображенные на рис. 41, определены с помощью количественного показателя, характеризующего отношение к риску ЛПР для различных значений уровня реальных денег в пределах установленного интервала. В рассмотренном примере установленным интервалом является (-20000, 40000), соответствующая полезность изменяется в интервале (0, 100). Необходимо определить полезность, соответствующую таким промежуточным значениям, например, как -10000 долл., 0 долл., 10000 долл., 20000 долл. или 30000 долл. Соответствующая процедура построения функции полезности начинается с того, что организовывается лотерея для определения суммы реальных денег x, для которой ожидаемое значение полезности будет вычислено по формуле:

U(x) = pU(-20000) + (1 - p)U(40000) = 0p + 100(1 - p) = 100 - 100p, 0  p  1.

Для определения значения U(x) просят ЛПР сообщить свое предпочтение между гарантированной наличной суммой x и возможностью сыграть в лотерею, в которой с

Рис.41.

вероятностью p реализуется проигрыш в сумме 20000 долл. и с вероятностью 1 - p имеет место выигрыш в 40000. При этом под предпочтением понимается выбор значения “нейтральной” вероятности p, при котором с точки зрения ЛПР возможности сыграть в лотерею и получить гарантированную сумму x являются одинаково привлекательными. Например, если x = 20000 долл., ЛПР может заявить, что гарантированные 20000 долл. наличными и лотерея одинаково привлекательны при p = 0.8. В этом случае вычисляется полезность для x = 20000 по формуле:

U(20000) = 100 - 1000.8 = 20.

Эта процедура продолжается до тех пор, пока не будет получено достаточное количество точек (x, U(x)) для определения формы функции полезности. Затем можно определить искомую функцию полезности путем регрессионного анализа или просто линейной интерполяции между полученными точками.

Хотя здесь применяется количественная процедура для определения функции полезности, сам подход далек от того, чтобы быть научно обоснованным. То, что процедура полностью определяется мнением ЛПР, порождает сомнения относительно надежности описанного процесса. Процедура, в частности, неявно предполагает, что ЛПР является рационально мыслящим - требование, которое не всегда может быть согласовано с вариациями в поведении и настроении, что является типичным для человеческой личности. В этом отношении ЛПР должно придерживаться концепции полезности в широком смысле, в соответствии с которой денежные величины не должны быть единственным решающим фактором в теории ПР.

ПР в условиях неопределенности, как и в условиях риска, требует определения альтернативных действий, которым соответствуют платежи, зависящие от (случайных) состояний природы. Матрицу платежей в задаче принятия решений с m возможными действиями и n состояниями природы можно представить следующим образом

s1

s2

...

sn

a1

v(a1,s1)

v(a1,s2)

...

v(a1,sn)

a2

v(a2,s1)

v(a2,s2)

...

v(a2,sn)

...

...

...

...

...

am

v(am,s1)

v(am,s2)

...

v(am,sn)

Элемент aiпредставляет i-е возможное решение, а элемент sj- j-е состояние природы. Плата (или доход), связанная с решением aiи состоянием sj, равна v(ai,sj).

Отличие между принятием решений в условиях риска и принятием решений в условиях неопределенности состоит в том, что в условиях неопределенности вероятностное распределение, соответствующее состояниям sj, j=1,...,n, либо неизвестно, либо не может быть определено. Этот недостаток информации обусловил развитие следующих критериев для анализа ситуации, связанной с ПР: критерий Лапласа, минимаксный критерий, критерий Сэвиджа, критерий Гурвица.

Эти критерии отличаются по степени консерватизма, который проявляет индивидуум, принимающий решение, перед лицом неопределенности.

Критерий Лапласа опирается на принцип недостаточного основания, который гласит, что поскольку распределение вероятностей состояний P(sj) неизвестно, нет причин считать их различными. Следовательно, используется оптимистическое предположение, что вероятности всех состояний природы равны между собой, т.е. P(s1) = P(s2) = ... = P(sn) = 1/n. Если при этом v(ai,sj) представляет собой получаемую прибыль, то наилучшим решением является то, которое обеспечивает

n

max {1/n  v(ai,sj)}

ai j=1

Если величина v(ai, sj) представляет собой расходы ЛПР, то оператор “max” заменяется на ”min”.

Максиминный (минимаксный) критерий основан на консервативном осторожном поведении ЛПР, и сводится к выбору наилучшей альтернативы из наихудших. Если величина v(ai, sj) представляет получаемую прибыль, то в соответствии с максиминным критерием в качестве оптимального выбирается решение, обеспечивающее

max {min v(ai, sj)}

ai sj

Если величина v(ai, sj) представляет потери, используется минимаксный критерий, который определяется следующим соотношением

min{max v(ai, sj)}

ai sj

Критерий Сэвиджа стремится смягчить консерватизм минимаксного (максиминного) критерия путем замены матрицы платежей (выигрышей или проигрышей) v(ai, sj) матрицей потерь r(ai, sj), которая определяется следующим образом

max {v(ak, sj)} - v(ai, sj), если v - доход,

r(ai,sj) =ak

v(ai, sj) - min{v(ak, sj)}, если v - потери.

ak

Чтобы показать, как критерий Сэвиджа “смягчает” минимаксный (макиминный) критерий, рассмотрим следующую матрицу платежей v(ai, sj):

x1x2Максимум строк

a111000 90 11000

a210000 10000 10000Минимакс

Применение минимаксного критерия приводит к тому, что решение а2с фиксированными потерями в 10000 долл. является предпочтительным. Однако можно выбрать а1, т.к. в этом случае имеется возможность потерять лишь 90 долл., если реализуется состояние s2.

Посмотрим, какой результат получится, если в минимаксном критерии вместо матрицы платежей v(ai, sj) используем матрицу потерь r(ai, sj).

s1s2Максимум строк

a11000 0 1000Минимакс

a20 9910

Как видим, минимаксный критерий, применяемый к матрице потерь, приводит к выбору решения а1в качестве предпочтительного.

Рассмотрим теперь критерий Гурвица. Этот критерий охватывает ряд различных подходов к ПР - от наиболее оптимистичного до наиболее пессимистичного (консервативного). Пусть 0 1 и величины v(ai, sj) представляют доходы. Тогда решению, выбранному по критерию Гурвица, соответствует

max{maxv(ai,sj) + (1 -)minv(ai,sj)}.

ai sj sj

Параметр - показатель оптимизма. Если= 0, критерий Гурвица становится консервативным, т.к. его применение эквивалентно применению обычного минимаксного критерия. Если= 1, критерий Гурвица становится слишком оптимистичным, т.к. рассчитывает на наилучшие из наилучших условий. Можем конкретизировать степень оптимизма (или пессимизма) надлежащим выбором величиныиз интервала [0, 1]. При отсутствии ярко выраженной склонности к оптимизму или пессимизму выбор= 0.5 представляется наиболее разумным.

Если величины v(ai, sj) представляют потери, то критерий принимает следующий вид:

min{ min v(ai, sj) + (1 - ) max v(ai, sj)}.

ai sj sj

Рассмотрим пример, показывающий сравнительную эффективность использования различных критериев.

Пример 4

Компания, реализующая проект производства новой продукции, подбирает место для строительства предприятия. В компании считают, что объем выпуска продукции может быть 200, 250, 300 или 350 единиц. Стоимость предприятия будет минимальной, поскольку оно строится для удовлетворения только точно определенных небольших потребностей. Отклонения в сторону уменьшения или увеличения относительно идеальных уровней потребностей влекут за собой дополнительные затраты, обусловленные строительством избыточных (неиспользуемых) мощностей или потерей возможности получить прибыль в случае, когда некоторые потребности не удовлетворяются. Пусть переменные а1- а4представляют собой возможные размеры предприятия (на 200, 250, 300 или 350 единиц), а переменные s1- s4- соответствующее число участников производства. Следующая таблица содержит матрицу стоимостей (в тыс. долл.), относящуюся к описанной ситуации.

s1

s2

s3

s4

a1

a2

a3

a4

5

8

21

30

10

7

18

22

18

12

12

19

25

23

21

15

Описанная ситуация анализируется с точки зрения четырех рассмотренных выше критериев.

Критерий Лапласа. При заданных вероятностях P{sj} = 1/4, j =1,...,4, ожидаемые значения затрат для различных возможных решений вычисляются следующим образом.

M{a1} = 1/4(5+10+18+25) = 14500$

M{a2} = 1/4(8+7+12+23) = 12500$оптимум

M{a3} = 1/4(21+18+12+21) = 18000$

M{a4} = 1/4(30+22+19+15) = 21500$

Минимаксный критерий. Этот критерий использует исходную матрицу стоимостей.

s1

s2

s3

s4

Максимум строк

a1

5

10

18

25

25

a2

8

7

12

23

23

a3

21

18

12

21

21 минимакс

a4

30

22

19

15

30

Критерий Сэвиджа. Матрица потерь определяется посредством вычитания чисел 5, 7, 12 и 15 из элементов столбцов от первого до четвертого соответственно. Следовательно,

s1

s2

s3

s4

Максимум строк

a1

0

3

6

10

10

a2

3

0

0

8

8  минимакс

a3

16

11

0

6

16

a4

25

15

7

0

25

Критерий Гурвица. Результаты вычислений содержатся в таблице.

Альтернатива

Минимум строк

Максимум строк

(минимум строки) +

(1-)(максимум строки)

а1

5

25

25-20

а2

7

23

23-16

а3

12

21

21-9

а4

15

30

30-15

Используя подходящее значение для , можно определить оптимальную альтернативу. Например, при= 0.5 оптимальными являются либо альтернатива а1, либо а2, тогда как при= 0.25 оптимальным является решение а3.

В теории игр рассматриваются ситуации, связанные с ПР, в которых два разумных противника имеют конфликтующие цели. К числу типичных примеров относится рекламирование конкурирующих товаров и планирование военных стратегий противоборствующих армий. Эти ситуации ПР отличаются от рассмотренных ранее, где природа не рассматривается в роли недоброжелателя.

Контрольные вопросы по главе