Bài giảng Tin sinh học đại cương - Chương 3: Bắt cặp trình tự (Sequence Alignment) - Trần Văn Lăng
Tóm tắt Bài giảng Tin sinh học đại cương - Chương 3: Bắt cặp trình tự (Sequence Alignment) - Trần Văn Lăng: ...,Sk’ sẽ nhận được S1, S2, , S2 tương ứng PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Ví dụ MSA • Thông thường, bắt cặp đa trình tự được sử dụng khi cần tìm kiếm một trình tự đại diện trong tập hợp nhiều trình tự sinh học. PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KH...G T 0 -2 -4 -6 -8 -10 A -2 -1 0 -2 -4 -6 C -4 0 -2 -1 -3 -5 G -6 -2 -1 -3 1 -1 C -8 -4 -3 -2 -1 0 T -10 -6 -5 G -12 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74 C A T G T 0 -2 -4 -6 -8 -10 A -2 -1 0 -2 -4 -6 C -4 0 -2 -1 -3 -5 G -6 -2 -1 -3 1 -1 C -...o length(U) M(i,0) ← d*i for j=0 to length(V) M(0,j) ← d*j for i=1 to length(U) for j=1 to length(V){ Match ← M(i-1,j-1) + σ(i,j) Delete ← M(i-1,j) + d Insert ← M(i,j-1) + d M(i,j) ← max(Match, Insert, Delete) } PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Alignme...
Y OF SCIENCE AND TECHNOLOGY 62
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2
C -8
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1
C -8
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3
C -8
T -10
G -12
17
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1
C -8
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3
T -10
G -12
18
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6
G -12
19
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3
G -12
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12
20
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 79
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 80
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3 1
21
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3 1 -1
• Bước 2: Tìm vết dựa trên kết quả tính các giá trị
của ma trận trước đó. Xuất phát từ Mnm nếu:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82
− Mi−1, j−1 =Mij −σ ij , theo duong chéo, (i,j)→ (i-1,j-1)
− Mi−1, j =Mij −d , dich chuyen lên trên, (i,j)→ (i-1,j)
− Mi , j−1 =Mij −d , dich chuyen lui, (i,j)→ (i,j-1)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 83
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3 1 -1
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 84
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3 1 -1
22
• Bước 3: Bắt cặp trình tự
– Xuất phát từ phần tử Mnm
– Nếu phần tử kế nằm trên đường chéo: hai ký tự được
bắt cặp với nhau
– Nếu phần tử kế nằm bên trái: thêm gap cho trình tự
thứ hai (ở dưới)
– Ngược lại, nếu phần tử kế nằm ở trên: thêm gap cho
trình tự thứ nhất
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 85
-CA-TGT
ACGCTG-
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3 1 -1
• Điểm đánh giá = 3x2 + 1x(-1) + 3(-2) = -1
CATG-T-
-ACGCTG
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 87
C A T G T
0 -2 -4 -6 -8 -10
A -2 -1 0 -2 -4 -6
C -4 0 -2 -1 -3 -5
G -6 -2 -1 -3 1 -1
C -8 -4 -3 -2 -1 0
T -10 -6 -5 -1 -3 1
G -12 -8 -7 -3 1 -1
• Điểm: 3x2 + 1(-1) + 3(-2) = -1
Xem xét ví dụ khác
• Xét 2 trình tự peptide như sau:
– U = AlaCysGlyCysAspGly
– V = CysAlaAspGlyAsp
• Gồm các amino acid: Alanin (A), Cystein (C),
Glycine (G), Aspartic acid (D)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
23
• Có thể biểu diễn
– U = “ACGCDG”
– V = “CADGD”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Tạo ma trận đánh giá theo quy tắc:
– M00 = 0
– Mi0 = Mi-1,0 + d
– M0j = M0,j-1 + d
– Mij = Max {Mi-1,j-1 + σij, Mi,j-1 + d, Mi-1,j + d}
– d = -1
• Trong đó
– σij = +2 nếu Ui và Vj giống nhau
– σij = -1 nếu Ui và Vj khác nhau
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
C A D G D
0 -1 -2 -3 -4 -5
A -1 -1 1 0 -1 -2
C -2 1 0 0 -1 -2
G -3 0 0 -1 2 1
C -4 -1 -1 -1 1 1
D -5 -2 -2 1 0 3
G -6 -3 -3 0 3 2
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Tìm vết bằng cách dùng d = -1 và ma trận σ để
so sánh trên 2 trình tự:
• Xuất phát từ M65, nếu:
– Mij = Mi-1,j-1 + σij thì vết (i,j) → (i-1,j-1) đi theo đường
chéo
– Mij = Mi,j-1 + d thì vết (i,j) → (i,j-1) đi lui
– Mij = Mi-1,j + d thì vết (i,j) → (i-1,j) đi lên
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
24
• Trong trường hợp này, có nhiều vết được tạo ra
(màu red, blue, green)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
C A D G D
0 -1 -2 -3 -4 -5
A -1 -1 1 0 -1 -2
C -2 1 0 0 -1 -2
G -3 0 0 -1 2 1
C -4 -1 -1 -1 1 1
D -5 -2 -2 1 0 3
G -6 -3 -3 0 3 2
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
C A D G D
0 -1 -2 -3 -4 -5
A -1 -1 1 0 -1 -2
C -2 1 0 0 -1 -2
G -3 0 0 -1 2 1
C -4 -1 -1 -1 1 1
D -5 -2 -2 1 0 3
G -6 -3 -3 0 3 2
C A D G D
0 -1 -2 -3 -4 -5
A -1 -1 1 0 -1 -2
C -2 1 0 0 -1 -2
G -3 0 0 -1 2 1
C -4 -1 -1 -1 1 1
D -5 -2 -2 1 0 3
G -6 -3 -3 0 3 2
• Sử dụng kỹ thuật lưu vết theo quy tắc:
– (i,j) →(i-1,j-1): Ui và Vj được ghi vào
– (i,j) →(i-1,j): “-” và Vj được ghi và
– (i,j) →(i,j-1): Ui và “-” được ghi vào
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Vết Red: 3(2) + 1(-1) + 3(-1) = 2
CADG-D-
-ACGCDG
• Vết Blue: 3(2) + 1(-1) + 3(-1) = 2
-CA-DGD
ACGCDG-
• Vết Green: 3(2) + 1(-1) + 3(-1) = 2
-C-ADGC
ACGCDG-
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
25
Một ví dụ khác
• Cho 2 trình tự DNA:
GGATCGA
GAATTCAGTTA
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
G A A T T C A G T T A
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11
G -1 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8
G -2 1 1 0 -1 -2 -3 -4 -2 -3 -4 -5
A -3 0 3 3 2 1 0 -1 -2 -3 -4 -2
T -4 -1 2 2 5 4 3 2 1 0 -1 -2
C -5 -2 1 1 4 4 6 5 4 3 2 1
G -6 -3 0 0 3 3 5 5 7 6 5 4
A -7 -4 -1 2 2 2 4 7 6 6 5 7
• Bắt cặp 2 trình tự này là:
GGA-TC-G--A
| | || | |
GAATTCAGTTA
• Kết quả: 6(2) + 4(-1) + 1(-1) = 7
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Bài tập
• (P1) Tính toán các giá trị của ma trận với trường
hợp tương tự, nhưng:
– M00 = 0
– Mi0 = Mi-1,0 + d
– M0j = M0,j-1 + d
– d = -2
• Rút ra nhận xét
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
26
TG Needleman – Wunsch nguyên thủy
for i=0 to length(U)
M(i,0) ← d*i
for j=0 to length(V)
M(0,j) ← d*j
for i=1 to length(U)
for j=1 to length(V){
Match ← M(i-1,j-1) + σ(i,j)
Delete ← M(i-1,j) + d
Insert ← M(i,j-1) + d
M(i,j) ← max(Match, Insert, Delete)
}
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
AlignmentU ← ""
AlignmentV ← ""
i ← length(U)
j ← length(V)
while (i > 0 and j > 0){
Score ← M(i,j)
ScoreDiag ← M(i - 1, j - 1)
ScoreUp ← M(i, j - 1)
ScoreLeft ← M(i - 1, j)
if (Score == ScoreDiag + σ(i,j)){
AlignmentU ← Ui + AlignmentU
AlignmentV ← Vj + AlignmentV
i ← i - 1
j ← j - 1
}
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
else if (Score == ScoreLeft + d){
AlignmentU ← Ui + AlignmentU
AlignmentV ← "-" + AlignmentV
i ← i - 1
}
otherwise (Score == ScoreUp + d){
AlignmentU ← "-" + AlignmentU
AlignmentV ← Vj + AlignmentV
j ← j - 1
}
}
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
while (i > 0){
AlignmentU ← Ui + AlignmentU
AlignmentV ← "-" + AlignmentV
i ← i - 1
}
while (j > 0){
AlignmentU ← "-" + AlignmentU
AlignmentV ← Vj + AlignmentV
j ← j - 1
}
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Coi thêm NeedWun.java
27
SMITH - WATERMAN
Thuật toán
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Do Temple F. Smith và
Michael S. Waterman đưa ra
vào 1981
• Khác biệt so với thuật toán Needleman –
Wunsch là chỉ sử dụng để bắt cặp 2 trình tự
trong một đoạn của trình tự (bắt cặp cục bộ -
Local Alignment)
• Các bước tính toán hoàn toàn tương tự, chỉ khác
một số bước như sau:
– Cách thức tính ma trận:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
H
i0 =0, ∀i=0,n, H0 j =0, ∀j=0,m
H
ij
=max 0,H
i−1,j−1 +σ ij ,Hi−1,j +d,Hi,j−1 +d}{ ,
∀i=1,n; j=1,m
σ
ij
=
match
mismatch
#
$
%
, d=gap
• Do chỉ bắt cặp cục bộ, nên vết được xác định
không phải bắt đầu từ giá trị cuối (Hnm), mà từ giá
trị tốt nhất (điểm cao nhất của ma trận)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
28
Ví dụ
• Với U = “ACA”, V = “AGCA”, với d = -1 ta có các
phần tử của ma trận H như sau:
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
H11 =max{0,H00 +σ11 ,H01 −1,H10 −1}=max{0,0+2,0−1,0−1}=2
H12 =max{0,H01 +σ12 ,H02 −1,H11 −1}=max{0,0−1,0−1,2−1}=1
H13 =max{0,H02 +σ13 ,H03 −1,H12 −1}=max{0,0+2,0−1,1−1}=2
A C A
0 0 0 0
A 0 H11 H12 H13
G 0 H21 H22 H23
C 0 H31 H32 H33
A 0 H41 H42 H43
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
H21 =max{0,H10 +σ 21 ,H11 −1,H20 −1}
=max{0,0−1,2−1,0−1}=1
H22 =max{0,H11 +σ 22 ,H12 −1,H21 −1}
=max{0,2−1,1−1,2−1}=1
H23 =max{0,H12 +σ 23 ,H13 −1,H22 −1}
=max{0,1−1,2−1,1−1}=1
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
H31 =max{0,H20 +σ 31 ,H21 −1,H30 −1}
=max{0,0−1,1−1,0−1}=0
H32 =max{0,H21 +σ 32 ,H22 −1,H31 −1}
=max{0,1+2,1−1,0−1}=3
H33 =max{0,H22 +σ 33 ,H23 −1,H32 −1}
=max{0,1−1,1−1,3−1}=2
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
H41 =max{0,H30 +σ 41 ,H31 −1,H40 −1}
=max{0,0+2,0−1,0−1}=2
H42 =max{0,H31 +σ 42 ,H32 −1,H41 −1}
=max{0,0−1,3−1,2−1}=2
H43 =max{0,H32 +σ 43 ,H33 −1,H42 −1}
=max{0,3+2,2−1,2−1}=5
29
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
A C A
0 0 0 0
A 0 2 1 2
G 0 1 1 1
C 0 0 3 2
A 0 2 2 5
Tạo vết
• Xuất phát từ Hnmax,mmax, nếu:
– Hij = Hi-1,j-1 + σij thì vết (i,j) → (i-1,j-1) theo đường chéo
– Hij = Hi,j-1 + d thì vết (i,j) → (i,j-1) đi lui
– Hij = Hi-1,j + d thì vết (i,j) → (i-1,j) đi lên
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
A C A
0 0 0 0
A 0 2 1 2
G 0 1 1 1
C 0 0 3 2
A 0 2 2 5
Tìm kết quả
• Nếu
– (i,j) →(i-1,j-1): theo đường chéo
Ui và Vj được ghi vào
– (i,j) →(i-1,j): đi lên
“-” và Vj được ghi vào
– (i,j) →(i,j-1): đi lui
Ui và “-” được ghi vào
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
30
• Kết quả bắt cặp
– U’ = “A-CA”
– V’ = “AGCA”
• Độ đánh giá: 3(2) + 1(-1) + 0(-1) = 5
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ví dụ
• Với trình tự dài hơn, chẳng hạn:
U = “ATATGCTAAG”
V = “ACTACTTAG”
• Chọn d = -1, Match = 2 và Mismatch = -1 cho sự
tương đồng và không tương đồng của 2 phân tử
trong 2 trình tự.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
A T A T G C T A A G
0 0 0 0 0 0 0 0 0 0 0
A 0 2 1 2 1 0 0 0 2 2 1
C 0 1 1 1 1 0 2 1 1 1 1
T 0 0 3 2 3 2 1 4 3 2 1
A 0 2 2 5 4 3 2 3 6 5 4
C 0 1 1 4 4 3 5 4 5 5 4
T 0 0 3 3 6 5 4 7 6 5 4
T 0 0 2 2 5 5 4 6 6 5 4
A 0 2 1 4 4 4 4 5 8 7 7
G 0 1 1 3 3 6 5 4 7 6 10
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Với kỹ thuật lưu vết như trên
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
A T A T G C T A A G
0 0 0 0 0 0 0 0 0 0 0
A 0 2 1 2 1 0 0 0 2 2 1
C 0 1 1 1 1 0 2 1 1 1 1
T 0 0 3 2 3 2 1 4 3 2 1
A 0 2 2 5 4 3 2 3 6 5 4
C 0 1 1 4 4 3 5 4 5 5 4
T 0 0 3 3 6 5 4 7 6 5 4
T 0 0 2 2 5 5 4 6 6 5 4
A 0 2 1 4 4 4 4 5 8 8 7
G 0 1 1 3 3 6 5 4 7 7 10
31
• Cũng bằng cách ghi kết quả theo vết, 2 trình tự
được bắt cặp:
– U’ = “ACTA--CTAAG”
– V’ = “A-TATGCTAAG”
• Kết quả: 8(2) + 3(-1) + 0(-1) = 13
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ví dụ
• Với 2 trình tự như hình, có thể tính được
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Kết quả trên ứng với match = 2, mismatch = -3
và gap = -2
• Khi đó, 8 là giá trị lớn nhất, nên bắt đầu từ vị trị
này để xác định vết.
• Từ đó, kết quả bắt cặp cục bộ của 2 đoạn trình
tự:
ATCC
ATCC
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
32
CLUSTAL
Thuật toán
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Thuật toán ClustalW
• Dùng cho việc bắt cặp nhiều trình tự (giải
bài toán MSA)
• Lấy ý tưởng từ thuật toán lũy tiến
(Progessive Algorithm)
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Thuật toán lũy tiến như sau:
– Bước 1: giải bài toán PSA trên 2 trình tự bất kỳ được
chọn.
– Bước 2: chọn một trình tự khác rồi sắp hàng với nhóm
đã thực hiện.
– Bước 3: lặp lại Bước 2 cho trình tự khác
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Thuật toán Clustal W
• Bước 1:
– Dùng PSA cho tất cả các trình tự
– Xác định mức độ tương đồng mỗi cặp
– Xây dựng ma trận khoảng cách tương đồng giữa các
trình tự.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
33
• Bước 2:
– Xây dựng cây cây tương đồng (similarity tree) hay cây
hướng dẫn (guide tree) bằng cách dùng thuật toán
gom nhóm Neighbor – Joining.
– Cây hướng dẫn hể hiện mối quan hệ tương đồng giữa
các trình tự với nhau
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Bước 3: Thực hiện quá trình lũy tiến
– Căn cứ vào cây hướng dẫn xác định những nhánh có
cặp trình tự tương đồng lớn nhất
– Thực hiện PSA trên từng cặp
– Kết hợp những cặp đó lại thu được kết quả đa trình tự.
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Minh họa
• Xét 5 trình tự:
– S1 = “ARDFGI”
– S2 = “AKHGL”
– S3 = “ADFIKF”
– S4 = “ARFGLI”
– S5 = “AKDILM”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Lần lượt bắt cặp:
– S1’ = “ARDFGI”
– S2’ = “A-KHGL”
– S1’ = “ARDFGI--”
– S3’ = “A-DF-IKF”
– S1’ = “ARDFG-I”
– S4’ = “AR-FGLI”
– S1’ = “ARDFGI--”
– S5’ = “AKD--ILM”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
34
– S2’ = “A---KHGL”
– S3’ = “ADFIK--F”
– S2’ = “AKHGL-”
– S4’ = “ARFGLI”
– S2’ = “AKHGL-”
– S5’ = “AKDILM”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
– S3’ = “ADF--IKF”
– S4’ = “ARFGLI--”
– S3’ = “A-DFIKF”
– S5’ = “AKD-ILM”
– S4’ = “ARFGLI”
– S5’ = “AKDILM”
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Khoảng cách D(S1’,S2’) giữa 2 trình tự bằng tỷ số
giữa m và n. Trong đó
– m = số mismatch giữa 2 trình tự (không tính gap)
– n = số cặp không phải là gap giữa 2 trình tự
• Ví dụ:
– S1’ = “ARDFGI”
– S2’ = “A-KHGL”
Có m = 3, n = 5. Suy ra D(S1’,S2’) = 3/5 = 0,6
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Ví dụ:
– S1’ = “ARDFGI--”
– S3’ = “A-DF-IKF”
Có m = 0, n = 4. Suy ra D(S1’,S3’) = 0/4 = 0
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
35
• Ví dụ:
– S1’ = “ARDFGI--”
– S5’ = “AKD--ILM”
Có m = 1, n = 4. Suy ra D(S1’,S5’) = 1/4 = 0.25
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ma trận khoảng cách
S1 S2 S3 S4 S5
S1 -
S2 0,60 -
S3 0 0,33 -
S4 0 0,40 0,25 -
S5 0,25 0,60 0,40 0,66 -
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Theo ma trận khoảng cách, có thể S1 và S3 là
nhỏ nhất, nên mức độ gần nhau là nhiều nhất.
• Hoặc S1 và S4
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
S13 S2 S4 S5
S13
S2 (0,6+0,33)/2 =
0.465
S4 (0+0,25)/2 =
0.125
0,4
S5 (0,25+0,4)/2 =
0.325
0,6 0,66
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
36
• Tiếp tục, khoảng cách giữa S13 và S4 là nhỏ
nhất.
• Nên S13 và S4 là gần nhau nhất
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
S13,4 S2 S5
S13,4
S2 (0,465+0,4)/2 =
0,4325
S5 (0,325+0,66)/2
= 0,4925
0,6
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Tiếp tục, còn S134 và S2 là nhỏ nhất
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
S134,2 S5
S134,2
S5 (0,4925+0,6)/2 =
0,54625
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
S1
S3
S4
S2
S5
ARDFGI
ADFIKF
ARFGLI
AKHGL
AKDILM
ARDFGI--
A-DF-IKF
ARDFG-I--
A-DF--IKF
AR-FGLI--ARDFG-I--
A-DF--IKF
AR-FGLI--
A-KHGL---
ARDFG-I--
A-DF--IKF
AR-FGLI--
A-KHGL---
AKD---ILM
37
• Ở đây kết quả có được bằng cách gióng từng
cặp:
– S1, S3
– Lấy kết quả S1 có được để bắt cặp với S4
– Tương tự, với S2
– Rồi với S5
PGS.TS. Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
File đính kèm:
bai_giang_tin_sinh_hoc_dai_cuong_chuong_3_bat_cap_trinh_tu_s.pdf



