1. Trang chủ
  2. » Giáo Dục - Đào Tạo

CHUỖI VÀ CÁC BÀI TOÁN TRÊN CHUỖI part 1 pps

11 213 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 268,79 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

CHUỖI VÀ CÁC BÀI TOÁN TRÊN CHUỖI Chuỗi string là một loại dữ liệu cơ bản thường được sử dụng trong rất nhiều các hệ thống và là thành phần cơ bản trong các hệ thống xử lý văn bản word-pr

Trang 1

CHUỖI VÀ CÁC BÀI TOÁN TRÊN CHUỖI

Chuỗi (string) là một loại dữ liệu cơ bản thường được sử dụng trong rất nhiều các hệ thống và là thành phần cơ bản trong các hệ thống xử lý văn bản (word-processing-system), các hệ thống này cung cấp cho ta rất nhiều khả năng để xử

lý văn bản Ngoài ra một vài các hệ thống đồ hoạ trên máy tính (computer graphics system) biểu diễn các hình ảnh như là các chuỗi nhị phân

Các thao tác trên chuỗi chúng ta thường gặp một số các phép toán cơ bản như:

- Phép tìm kiếm một chuỗi con trong một chuỗi

- Phép thay thế một chuỗi con của một chuỗi bởi một chuỗi khác

- Phép chen chuỗi con vào một chuỗi

- Phép loại bỏ một chuỗi con của một chuỗi

Trong các phép toán nêu trên thì phép tìm kiếm trên chuỗi là phép toán quan trọng và thường gặp , vì vậy ta chỉ tìm hiểu các giải thuật liên quan đến phép toán này đó là :

1 Giải thuật Brute-Force

2 Giải thuật Knuth-Morris-Pratt

3 Giải thuật Boyer-Moore

$1 Các khái niện cơ bản về chuỗi

1.1 Chuỗi và phân chia chuỗi

a Định nghĩa chuỗi

Chuỗi là một dãy các ký tự được chứa trong một vùng liên tục của bộ nhớ Các

ký tự này có thể là ký tự chữ, ký tự số hoặc ký tự đặc biệt

Chuỗi ký tự (text string) có thể được xem như là dãy các chữ, các số và các ký

tự đặc biệt

Một loại chuỗi khác là chuỗi nhị phân (binary string), đó là một dãy các kí tự 0

và 1

Trang 2

b Độ dài chuỗi Số ký tự của chuỗi được gọi là chiều dài của chuỗi Mỗi ký tự

chiếm 1 byte

Một chuỗi có thể có chiều dài bằng 0 gọi là chuỗi rỗng(null string ), ký hiệu là “ Một chuỗi có thể được chia làm nhiều phần, mỗi phần là một chuỗi con (sub string ) Các chuỗi con có thể có chiều dài bằng nhau hoặc khác nhau

1.2 Cách phân chia chuỗi

a Dùng ký tự đặc biệt Dùng ký tự trống ( blank) để phân chia chuỗi con Khi đó

các chuỗi con có thể khác nhau Để truy xuất một chuỗi con trong chuỗi thì ta phải tìm kiếm từ đầu chuỗi Do đó tốc độ truy xuất của phương pháp này chậm

b Dùng chiều dài cố định Ta chia các chuỗi con thành các phần bằng nhau Để

truy xuất một chuỗi con trong một chuỗi thì ta dùng công thức tính địa chỉ Do

đó tốc độ truy xuất của phương pháp này rất nhanh

c Dùng chỉ điểm (pointer)

- Dùng chỉ điểm đầu: Chỉ điểm đầu chỉ vào ký tự đầu tiên của chuỗi con

Ta sử dụng biến Last để cho biết địa chỉ của ký tự cuối cùng của chuỗi

Gọi:

n- số chuỗi con ai-địa chỉ của ký tự đầu tiên của chuỗi con thứ i bi- địa chỉ của ký tự cuối cùng của chuỗi con thứ i

Ta có :

ai = pointer[i]

bi = pointer[i+1]-1 , nếu i<n

= last , nếu i=n

- Dùng chỉ điểm cuối : Chỉ điểm cuối chỉ vào ký tự cuối cùng của chuỗi

con Ta sử dụng biến First để cho biết địa chỉ của ký tự đầu tiên của chuỗi

Ta có :

ai = First , nếu i=1

Trang 3

= pointer[i-1] ,nếu i>1

bi = pointer[i]

$2.Các giải thuật tìm kiếm trên chuỗi

Bài toán: Tìm kiếm chuỗi p có chiều dài là m trong chuỗi a có chiều dài n

Có hai trường hợp xảy ra sau khi tìm kiếm đó là:

- Nếu không tìm thấy chuỗi p trong chuỗi a thì kết quả là 0

- Nếu tìm thấy chuỗi p trong chuỗi a thì kết quả là vị trí của ký tự đầu tiên của lần tìm thấy đầu tiên

Sau đây chúng ta lần lượt đi vào phân tích từng giải thuật cụ thể :

2.1 Giải thuật Brute- Force

a Nội dung của giải thuật

- Đối với vị trí kí tự thứ i của chuỗi a (i=1,2,…,n-m+1) ta so sánh các ký tự tương ứng từ trái qua phải:

p[1] với a[i]

p[2] với a[i+1]

…………

p[m] với a[i+m+1]

- Gọi:

i - chỉ số của chuỗi a

j - chỉ số của chuỗi p

Nếu a[i] = p[j] thì ta tăng chỉ số i và j lên 1(xét đến ký tự tiếp theo)

Nếu a[i]<>p[j] thì ta cho j chỉ về đầu chuỗi p (j=1) và i chỉ về vị trí ký tự

kế tiếp khi bắt đầu tìm kiếm lần cuối cùng (i = i-j+2)

Giải thuật kết thúc khi j>m hoặc i>n

- Ta khai báo :

Type

St =string[255];

Trang 4

Index = 1 255;

c Giải thuật:

Chương trình thực hiện giải thuật này như sau:

program Brute_Force;

uses crt;

type

st=string[50];

var a,p:st; {a chứa chuỗi nguồn , p là chuỗi đích, n độ dài chuỗi a ,m là độ dài chuỗi p}

procedure init;

var i,j:integer;

begin

writeln('Nhập chuỗi a:');

readln(a);

writeln('Nhập chuỗi p:');

readln(p);

end;

procedure Result;

begin

writeln('Chuỗi cần tìm là:',p)

end;

Function Brutesearch(p,a:st):integer;

var i,j,m,n:integer;

begin

m:=length(p);

n:=length(a);

i:=1;

j:=1;

repeat

if a[i]=p[j] then

begin

i:=i+1;

j:=j+1;

Trang 5

end

else

begin

i:=i-j+2;

j:=1;

end;

until(j>m)or (i>n);

if j>m then Brutesearch:=i-m;

else Brutesearch:=0;

end;

begin

clrscr;

Init;

Brutesearch(a,p);

write('Vị trí của ký tự đầu của chuỗi p trong a là:',Brutesearch(p,a):2);

writeln;

Result;

readln;

end.

Ví dụ: Ta xét một ví dụ cụ thể sau:

Cho chuỗi a=’ 0101101001110011101011100’ n=27, chuỗi p=’ 010011’ m=6

stt So sánh 2 giá trị Chí số mới của i và j Chú thích

Trang 6

9 a[4]<>p[1] i=5;j=1 -

j>m

Đến đây giải thuật kết thúc giá trị trả về ở đây là 6 của lần tìm thấy đầu tiên

a=’ 0101101001110011101011100’

p=’ 010011’

d Phân tích giải thuật

Trường hợp xấu nhất của giải thuật này là trường hợp cả hai chuỗi p và a đều gồm các số 0 và kết thúc là số 1 Khi đó với n-m +1 lần tìm kiếm ta phải so sánh

m ký tự của chuỗi p với các ký tự tương ứng của chuỗi a

Số lần so sánh :

Cmax=m*(n-m+1)

Ta có thể cải tiến giải thuật này bằng giải thuật Knuth- Morris-Pratt

2.2 Giải thuật Knuth- Morris- Pratt

a Nội dung của giải thuật

- Trong giải thuật Brute-Force ta nhận thấy khi so sánh đến ký tự p[j]<>a[i] thì

ta đã có j -1 kí tự đầu tiên của chuỗi p bằng với các j-1 ký tự cuối cùng trước a[i] của chuỗi a

Ví dụ :

Trang 7

chuỗi a là :’1010100111’

chuỗi p là :’10100111‘

- Ta nhận thấy a[5] và p[5] khỏc nhau Khi đú ta khụng cần cho j=1 nữa mà cho

j về 3 để so sỏnh vỡ ta nhận thấy 3 ký tự đầu tiờn của chuỗi p bằng với 3 ký tự đang xột cuối cựng của của chuỗi a Do đú ta khụng cần cho i quay về vị trớ trước nữa mà vẫn tiếp tục cho i tăng Ta sử dụng mảng next[1…m] để để ghi nhận giỏ trị j quay về Phần tử next[j] sẽ cho giỏ trị mới của j khi phỏt hiện hai

ký tự khỏc nhau Mảng next[1…m] được xỏc định như sau :

- Sử dụng chuỗi p1 hoàn toàn giống p

Cho chuỗi p1 di chuyển từ trỏi qua phải đồng thời so sỏnh với chuỗi p và dừng lại khi cỏc kớ tự đầu tiờn của chuỗi p1 trựng với cỏc kớ tự của chuỗi p Cỏc kớ tự trựng này sẽ xỏc định giỏ trị của next

- Nếu sự khỏc nhau này được phỏt hiện ở p[j] thỡ next[j] :=1+số ký tự trựng nhau +.với j=1 next[j]=0

+.với j>1 next[j] := là số lớn nhất k<j sao cho k-1 ký tự đầu tiên của p1 trùng với k-1 ký tự cuối cùng của j-1 (tại thời điểm đang xét) ký tự đầu tiên của p

- Khi xác định next [j] việc di chuyên p1 qua phải dừng lại khi phát hiện các ký tự

đi trước của chuỗi p1 trùng với các ký tự của chuỗi p hoặc khi p1[1]=p[j]

- Khi xỏc định next[j] việc di chuyển chuỗi p1 qua phải sẽ dừng lại khi phỏt hiện cỏc kớ tự đi trước của chuỗi p1 bằng với cỏc kớ tự của chuỗi p hoặc khi p1[1] gặp p[j]

b Giải thuật :

program Knuth_Morris_Pratt;

uses crt;

type

st=string[50];

Index=1 50;

var a,p:st;{a chứa chuỗi nguồn, p là chuỗi đớch;n là độ dài của a;m la độ dài của p}

Trang 8

procedure init;

var i,j:integer;

begin

writeln('Nhập chuỗi a:');

readln(a);

writeln('Nhập chuỗi p:');

readln(p);

end;

procedure Result;

begin

writeln('Chuỗi cần tìm là:',p);

end;

Function Kmsearch(p,a:st):integer;

var i,j,m,n:integer;

next:array[index]of integer;

procedure Initnext;

begin

i:=1;

j:=0;

next[1]:=0;

repeat

if(j=0)or(p[i]=p[j])then

begin

i:=i+1;

j:=j+1;

next[i]:=j;

end;

else

j:=next[j];

Trang 9

until i=m;

end;

begin

m:=length(p);

n:=length(a);

{Tạo mảng next}

Initnext;

i:=1;

j:=1;

repeat

if (j=0) or (a[i]=p[j]) then

begin

i:=i+1;

j:=j+1;

end;

else

begin

j:=next[j];

end;

until(j>m)or (i>n);

if j>m then Kmsearch:=i-m

else Kmsearch:=0;

end;

begin

clrscr;

Init;

Kmsearch(a,p);

write('Vị trí của ký tự đầu của chuỗi p trong a là:',Kmsearch(p,a):2);

writeln;

Trang 10

Result;

readln;

end

c Ví dụ cụ thể

Cho chuỗi a : 101'01.0'011'1 i =10

p : 101'00.1'11 j =8

Các bước sẽ được thể hiện trong bảng sau :

101’001’11 (p1)

101’001’11

101’001’11

1 01’001’11

1 01’001’11

1 01’001’11

101’001’11

Trang 11

Số lần so sánh Cmax=n+m Ta thấy số lần so sánh đã giảm đi nhiều lần

2.3 Giải thuật Boyer –Moore

a Nội dung giải thuật:

- Giải thuật Boyer-Moore tương tự với giải thuật Knuth-Morris-Pratt Đối với giải thuật Boyer, ta xét chuỗi p1 từ phải qua trái trong khi ta so sánh chuỗi p với chuỗi a

Cách xây dựng mảng next của giải thuật Boyer-Moore là phần tử next[j] là số vị trí kí tự mà chuỗi p sẽ di chuyển qua phải đối với chuỗi p1 để có được vị trí khác nhau ở kí tự thứ j kể từ phải qua trái của chuỗi p

b Giải thuật:

Để xác định vị trí mới của j khi có sự so sánh trùng nhau ta dùng mảng skip Hàm Function Ord(c:char):integer trả về số thứ tự của ký tự c trong bộ ký tự (đánh số từ 1)

Khi đó skip[c]=m nếu c không phải là một ký tự của chuỗi p

skip[c]=m-j nếu c là kí tự thứ j của chuỗi p

Ta có giải thuật :

Program Boyer-Moore;

Use crt;

Type

St=string[50];

Const

Charno=255;

procedure init;

begin

writeln(‘ hay nhap chuoi a:’);

readln(a);

writeln(‘nhap chuoi p:’);

readln(p);

end;

procedure result;

Ngày đăng: 13/07/2014, 07:20

w