НОУ ИНТУИТ | Практикум по методам построения алгоритмов. Лекция 10: Сопоставление с образцом

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 08.04.2009 | Уровень: для всех | Доступ: платный

|

Вам нравится? Нравится 24 студентам

| Поделиться |

Поддержать программу

10.3. Вспомогательные утверждения

Для произвольного слова рассмотрим все его начала, одновременно являющиеся его концами, и выберем из них самое длинное. (Не считая, конечно, самого слова .) Будем обозначать его l(X) .

Примеры: l({aba})={a} , l({abab})={ab} , l({ababa})={aba} , $l({abc}) = \text{пустое слово}$

10.3.1. Доказать, что все слова l(X) , l(l(X)) , l(l(l(X))) и т.д. являются началами слова .

Решение. Каждое из них (согласно определению) является началом предыдущего.

По той же причине все они являются концами слова .

10.3.2. Доказать, что последовательность предыдущей задачи обрывается (на пустом слове).

Решение. Каждое слово короче предыдущего.

10.3.3. Доказать, что любое слово, одновременно являющееся началом и концом слова (кроме самого ) входит в последовательность $l(X), l(l(X)),\ldots$

Решение. Пусть слово есть одновременно начало и конец . Слово l(X) - самое длинное из таких слов, так что не длиннее l(X) . Оба эти слова являются началами , поэтому более короткое из них является началом более длинного: есть начало l(X) . Аналогично, есть конец l(X) . Рассуждая по индукции, можно предполагать, что утверждение задачи верно для всех слов короче , в частности, для слова l(X) . Так что слово , являющееся концом и началом l(X) , либо равно l(X) , либо входит в последовательность $l(l(X)), l(l(l(X))),\dots$ , что и требовалось доказать.

10.4. Алгоритм Кнута-Морриса-Пратта

Алгоритм Кнута-Морриса-Пратта (КМП) получает на вход слово

${X}= {x[1]x[2]}\ldots{x[n]}$

и просматривает его слева направо буква за буквой, заполняя при этом массив натуральных чисел ${l[1]}\ldots{l[n]}$ , где

${l[i]} = \text{длина слова }l({x[1]}\ldots{x[i]})$

(функция

определена в предыдущем пункте). Словами: l[i] есть длина наибольшего начала слова ${x[1]}\ldots{x[i]}$ , одновременно являющегося его концом.

10.4.1. Какое отношение все это имеет к поиску подслова? Другими словами, как использовать алгоритм КМП для определения того, является ли слово A подсловом слова B?

Решение. Применим алгоритм КМП к слову A\#B, где \# - специальная буква, не встречающаяся ни в A, ни в B. Слово A является подсловом слова B тогда и только тогда, когда среди чисел в массиве l будет число, равное длине слова A.

10.4.2. Описать алгоритм заполнения таблицы ${l[1]}\ldots{l[n]}$ .

Решение. Предположим, что первые i значений ${l[1]}\ldots{l[i]}$ уже найдены. Мы читаем очередную букву слова (т.е. x[i+1] ) и должны вычислить l[i+1].

Другими словами, нас интересуют начала слова ${x[1]}\ldots{x[i+1]}$ , одновременно являющиеся его концами - из них нам надо выбрать самое длинное. Откуда берутся эти начала? Каждое из них (не считая пустого) получается из некоторого слова приписыванием буквы x[i+1]. Слово является началом и концом слова ${x[1]}\ldots{x[i]}$ . Однако не любое слово, являющееся началом и концом слова ${x[1]}\ldots{x[i]}$ , годится - надо, чтобы за ним следовала буква x[i+1].

Получаем такой рецепт отыскания слова . Рассмотрим все начала слова ${x[1]}\ldots{x[i]}$ , являющиеся одновременно его концами. Из них выберем подходящие - те, за которыми идет буква {x[i+1]} . Из подходящих выберем самое длинное. Приписав в его конец x[i+1], получим искомое слово .

Теперь пора воспользоваться сделанными нами приготовлениями и вспомнить, что все слова, являющиеся одновременно началами и концами данного слова, можно получить повторными применениями к нему функции из предыдущего раздела. Вот что получается:

i:=1; l[1]:= 0;
{таблица l[1]..l[i] заполнена правильно}
while i <> n do begin
| len := l[i]
| {len - длина начала слова x[1]..x[i], которое является
|    его концом; все более длинные начала оказались
|    неподходящими}
| while (x[len+1] <> x[i+1]) and (len > 0) do begin
| | {начало не подходит, применяем к нему функцию l}
| | len := l[len];
| end;
| {нашли подходящее или убедились в отсутствии}
| if x[len+1] = x[i+1] do begin
| | {x[1]..x[len] - самое длинное подходящее начало}
| | l[i+1] := len+1;
| end else begin
| | {подходящих нет}
| | l[i+1] := 0;
| end;
| i := i+1;
end;

10.4.3. Доказать, что число действий в приведенном только что алгоритме не превосходит C{n} для некоторой константы .

Решение. Это не вполне очевидно: обработка каждой очередной буквы может потребовать многих итераций во внутреннем цикле. Однако каждая такая итерация уменьшает len по крайней мере на 1, и в этом случае l[i+1] окажется заметно меньше l[i]. С другой стороны, при увеличении i на единицу величина l[i] может возрасти не более чем на 1, так что часто и сильно убывать она не может - иначе убывание не будет скомпенсировано возрастанием.

Более точно, можно записать неравенство

${l[i+1]} \le {l[i]} - \hbox{(число итераций на {i}-м шаге)} + {1}$

или

$\hbox{(число итераций на {i}-м шаге)}\le{l[i]}-{l[i+1]} + {1}.$

Остается сложить эти неравенства по всем i и получить оценку сверху для общего числа итераций.

10.4.4. Будем использовать этот алгоритм, чтобы выяснить, является ли слово X длины n подсловом слова Y длины m. (Как это делать с помощью специального разделителя \#, описано выше.) При этом число действий будет не более C({n}+{m}) , и используемая память тоже. Придумать, как обойтись памятью не более C{n} (что может быть существенно меньше, если искомый образец короткий, а слово, в котором его ищут - длинное).

Решение. Применяем алгоритм КМП к слову {A#B} . При этом вычисление значений ${l[1]},\ldots,{l[n]}$ проводим для слова X длины n и запоминаем эти значения. Дальше мы помним только значение l[i] для текущего i - кроме него и кроме таблицы ${l[1]}\ldots{l[n]}$ , нам для вычислений ничего не нужно.

На практике слова X и Y могут не находиться подряд, поэтому просмотр слова X и затем слова Y удобно оформить в виде разных циклов. Это избавляет также от хлопот с разделителем.

10.4.5. Написать соответствующий алгоритм (проверяющий, является ли слово ${X}={x[1]}\ldots{x[n]}$ подсловом слова ${Y}={y[1]}\ldots{y[m]}$ ).

Решение. Сначала вычисляем таблицу ${l[1]}\ldots{l[n]}$ как раньше. Затем пишем такую программу:

j:=0; len:=0;
{len - длина максимального начала слова X, одновременно
       являющегося концом слова y[1]..y[j]}
while (len <> n) and (j <> m) do begin
| while (x[len+1] <> y[j+1]) and (len > 0) do begin
| | {начало не подходит, применяем к нему функцию l}
| | len := l[len];
| end;
| {нашли подходящее или убедились в отсутствии}
| if x[len+1] = y[j+1] do begin
| | {x[1]..x[len] - самое длинное подходящее начало}
| | len := len+1;
| end else begin
| | {подходящих нет}
| | len := 0;
| end;
| j := j+1;
end;
{если len=n, слово X встретилось; иначе мы дошли до конца
   слова Y, так и не встретив X}

Дальше >>

Практикум по методам построения алгоритмов

Практикум по методам построения алгоритмов

Сопоставление с образцом

10.3. Вспомогательные утверждения

10.4. Алгоритм Кнута-Морриса-Пратта

Вопросы и ответы

Студенты

Авторизоваться

Практикум по методам построения алгоритмов

Практикум по методам построения алгоритмов

Сопоставление с образцом

10.3. Вспомогательные утверждения

10.4. Алгоритм Кнута-Морриса-Пратта

Вопросы и ответы

Студенты