Bài giảng Tin sinh học đại cương - Chương 4: Phân tích trình tự DNA - Trần Văn Lăng
Tóm tắt Bài giảng Tin sinh học đại cương - Chương 4: Phân tích trình tự DNA - Trần Văn Lăng: ...tAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa Biểu tượng motif (motif logo) Assoc. Prof. Tran Van ...OF SCIENCE AND TECHNOLOGY 53 • Suy đoán 53++!305))6*the26)h+.)h+)te06*the! e`60))e5t]e*:+*e!e3(ee)5*!t h6(tee*96*?te)*+(the5)t5*!2:*+ (th956*2(5*h)e`e*th0692e5)t)6!e )h++t1(+9the0e1te:e+1the!e5th)he5! 52ee06*e1(+9thet(eeth(+?3ht he)h+t161t:1eet+?t • “thet(ee” most likely means “...a các trình tự Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74 Đánh giá motif • Trước hết, ta có các tham số – t - số mẫu trình tự DNA – n - chiều dài mỗi trình tự DNA – DNA –mẫu DNA (mảng t x n) – l - chiều dài của motif (l-mer) – si - vị trí bắt ...
ã thông điệp được mã hóa này
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44
12
• Các gợi ý như sau:
– Thông điệp được mã hóa
bằng tiếng Anh
– Mỗi ký hiệu tương ứng với
một chữ cái trong bảng chữ
cái tiếng Anh
– Không có dấu chấm câu
được mã hóa
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45
Cách giải quyết
• Đếm tần số xuất hiện
của mỗi ký hiệu trong
thông điệp được mã hóa
• Tìm tần số của mỗi ký tự
trong bảng chữ cái của
văn bản tiếng Anh
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46
• So sánh các tần số của
các bước trước đó, cố
gắng tìm một mối tương
quan và ánh xạ các ký
hiệu với một ký tự trong
bảng chữ cái
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47
• Tần số theo thông điệp của Gold Bug
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48
• Tần số theo bảng chữ cái tiếng Anh
e t a o i n s r h l d c u m f p g w y b v k x j q z
Tần số cao tần số thấp
Symbol 8 ; 4 ) + * 5 6 ( ! 1 0 2 9 3 : ? ` - ] .
Frequency 34 25 19 16 15 14 12 11 9 8 7 6 5 5 4 4 3 2 1 1 1
13
• Bằng cách ánh xạ đơn giản các ký hiệu có
tần số cao nhất đến các ký tự có tần số cao
nhất tương ứng trong bảng chữ cái.
• Giải mã 4 mãnh trong thông điệp bí mật
sfiilfcsoorntaeuroaikoaiotecrntaeleyr
cooestvenpinelefheeosnlt
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49
arhteenmrnwteonihtaesotsnlupnihtamsrn
uhsnbaoeyentacrmuesotorl
eoaiitdhimtaecedtepeidtaelestaoaeslsu
eecrnedhimtaetheetahiwfa
taeoaitdrdtpdeetiwt
• Kết quả không có ý nghĩa gì cả
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50
Cách tiếp cận tốt hơn
• Đánh giá tần số của l-tuples như tổ hợo
của 2 ký hiệu, 3 ký hiệu, v.v Chẳng hạn,
– “The” là 3-tupe có tần số cao nhất trong tiếng
Anh; “;48” là 3-tuple có tần số cao nhất trong
thông điệp mã hóa
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51
• Suy ra tương tự cho
các ký hiệu chưa biết
trong văn bản mã hóa
dựa trên tần số của
các l-tuple.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52
14
• Ánh xạ “the” đến “;48” và thay thế tất cả
các ký hiệu xuất hiện:
53++!305))6*the26)h+.)h+)te06*the!
e`60))e5t]e*:+*e!e3(ee)5*!t
h6(tee*96*?te)*+(the5)t5*!2:*+
(th956*2(5*h)e`e*th0692e5)t)6!e
)h++t1(+9the0e1te:e+1the!e5th)he5!
52ee06*e1(+9thet(eeth(+?3ht
he)h+t161t:1eet+?t
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53
• Suy đoán
53++!305))6*the26)h+.)h+)te06*the!
e`60))e5t]e*:+*e!e3(ee)5*!t
h6(tee*96*?te)*+(the5)t5*!2:*+
(th956*2(5*h)e`e*th0692e5)t)6!e
)h++t1(+9the0e1te:e+1the!e5th)he5!
52ee06*e1(+9thet(eeth(+?3ht
he)h+t161t:1eet+?t
• “thet(ee” most likely means “the tree”
– Suy ra Infer “(“ = “r”
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54
• Khi đó, “th(+?3h” trở thành “thr+?3h”
– Sau đó có thể đề xuất “+”, “?” được mã hóa
ra sao.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55
• Sau khi tìm ra tất cả các ánh xạ, thông điệp
có thể giải mã như sau:
AGOODGLASSINTHEBISHOPSHOSTELINTHEDEVILSSEATWEN
YONEDEGREESANDTHIRTEENMINUTESNORTHEASTANDBYNOR
THMAINBRANCHSEVENTHLIMBEASTSIDESHOOTFROMTHELEF
TEYEOFTHEDEATHSHEADABEELINEFROMTHETREETHROUGHT
HESHOTFIFTYFEETOUT
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56
15
• Sử dụng dấu chấm câu, thông điệp có thể là:
A GOOD GLASS IN THE BISHOP’S HOSTEL IN THE
DEVIL’S SEA,
TWENY ONE DEGREES AND THIRTEEN MINUTES
NORTHEAST AND BY NORTH,
MAIN BRANCH SEVENTH LIMB, EAST SIDE, SHOOT
FROM THE LEFT EYE OF
THE DEATH’S HEAD A BEE LINE FROM THE TREE
THROUGH THE SHOT,
FIFTY FEET OUT.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57
Giải bài toán Gold Bug
• Những điều kiện tiên quyết để giải bài toán:
– Cần phải biết tần số tương đối của các chữ cái,
và sự kết hợp của hai và ba chữ cái trong tiếng
Anh
– Kiến thức về tất cả các từ trong từ điển tiếng Anh
là mong muốn cao để có những kết luận chính
xác
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58
Sự tương tự giữa 2 bài toán
• Những nucleotide trong một
motif mã hóa là ngôn ngữ của
di truyền, tương tự như ký hiệu
mã hóa trong “The Gold Bug”
của một thông điệp (message)
bằng tiếng Anh
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59
• Để giải mã, cần phân tích tần số của các
mẫu thông điệp DNA/Gold Bug
• Kiến thức của các motif điều chỉnh được thiết
lập làm cơ sở cho việc tìm motif; cũng như
kiến thức về các từ trong từ điển Tiếng Anh
làm cơ sở cho việc giải bài táon Gold Bug
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60
16
• Bài toán Motif Finding:
– Phân tích tần suất xuất hiện các
mẫu (pattern) trong những trình
tự nucleotide
• Bài toán Gold Bug Problem
– Phân tích tần suất xuất hiện các
mẫu trong văn bản được viết
bằng Tiếng Anh
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61
• Motif Finding:
– Kiến thức về các motif được thiết lập làm giảm
độ phức tạp của bài toán
• Gold Bug Problem:
– Kiến thức về các từ trong từ điển Tiếng Anh là
hết sức mong đợi
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62
• Bài toán Motif Finding khó hơn bài toán Gold
Bug:
– Không có từ điển đầy đủ về motif
– Ngôn ngữ di truyền học không có văn phạm
chuẩn
– Chỉ một phần nhỏ trình tự nucleotide mã hóa cho
motif, trong khi đó kích thước dữ liệu lại rất lớn
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63
Minh họa bài toán Motif Finding
• Cho một mẫu ngẫu nhiên các trình tự DNA
cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat
agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc
• Tìm mẫu được ghép vào mỗi trình tự riêng,
gọi là motif
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64
17
• Thông tin thêm:
– Mỗi trình tự che dấu có
chiều dài 8
– Các mẫu không hoàn toàn
giống nhau bởi điểm đột
biến là ngẫu nhiên xẩy ra
trong các trình tự
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65
• Các mẫu cho thấy không có đột biến
cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat
agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66
acgtacgt
Chuỗi liên ứng (Consensus String)
• Mẫu với 2 đột biến:
cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat
agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc
• Liệu có thể tìm được motif với 2 đột biến
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67
aGgtacTt
CcAtacgt
acgtTAgt
acgtCcAt
CcgtacgG
Mẫu với 2 đột biến
acgtacgt
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68
18
Phân loại bài toán tìm motif
• Có 2 dạng bài toán tìm motif:
– Không đột biến: Cho trước t trình tự, hãy xác định
các đoạn trình tự có chiều dài l (l-mer) trên mỗi
trình tự sao cho đoạn này bắt cặp giống nhau.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69
– Dạng đột biến: Cho trước t trình
tự, hãy xác định các đoạn trình
tự có chiều dài l sao cho các
đoạn này gần giống nhau trên
các trình tự cho phép đột biến
(sai lệch) d vị trí
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70
Định nghĩa Motif
• Để định nghĩa một motif, cần biết vị trí bắt
đầu của motif trong trình tự.
• Vị trí này có thể biểu diễn bởi s = (s1,s2,s3,
,st)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71
Profiles và Consensus
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72
a G g t a c T t
C c A t a c g t
Alignment a c g t T A g t
a c g t C c A t
C c g t a c g G
A 3 0 1 0 3 1 1 0
Profile C 2 4 0 0 1 4 0 0
G 0 1 4 0 0 0 3 1
T 0 0 0 5 1 0 1 4
Consensus A C G T A C G T
• Sắp hàng các mẫu theo
vị trí bắt đầu của nó
s = (s1, s2, , st)
• Xây dựng ma trận profile
với tần suất xuất hiện của
mỗi nucleotide theo cột
• Consensus nucleotide là
nucleotide có điểm cao
nhất trong cột
19
Consensus
• Consensus (trình tự liên ứng) ở đây được
hiểu như là một motif tổ tiên mà từ đó các
motif đột biến xuất hiện
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73
Khoảng cách giữa các trình tự
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74
Đánh giá motif
• Trước hết, ta có các tham số
– t - số mẫu trình tự DNA
– n - chiều dài mỗi trình tự DNA
– DNA –mẫu DNA (mảng t x n)
– l - chiều dài của motif (l-mer)
– si - vị trí bắt đầu của motif trong trình tự i
– s=(s1, s2, st) - mảng chứa các vị trí bắt đầu của
motif
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75
Ví dụ về các tham số
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76
cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat
agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc
l = 8
s1 = 26 s2 = 21 s3= 3 s4 = 56 s5 = 60 s
DNA
n = 69
20
Tính điểm để đánh giá
• Cho s = (s1, st) và DNA:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77
a G g t a c T t
C c A t a c g t
a c g t T A g t
a c g t C c A t
C c g t a c g G
_________________
A 3 0 1 0 3 1 1 0
C 2 4 0 0 1 4 0 0
G 0 1 4 0 0 0 3 1
T 0 0 0 5 1 0 1 4
_________________
Consensus a c g t a c g t
Score 3+4+4+5+3+4+3+4=30
score(s,DNA) =
k∈{A,T ,C,G}
max count(k, i)
i=1
l
∑
– Với count(k,i) là số
nucleotide thứ k ở vị trí thứ
i của l-motif
l
t
• Nếu các vị trí bằt đầu s=(s1, s2, st) cho
trước, việc tìm consensus dễ dàng ngay cả
khi có đột biến trong các trình tự.
– Bởi khi đó ta có thể xây dựng ma trận profile, từ
đó tìm motif (consensus)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78
• Nhưng, khi s không cho trước, làm thế nào
để tìm ma trận profile tốt nhất.
– Bài toán đặt ra:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 79
Bài toán
• Mục tiêu: Cho mẫu DNA, tìm tập l-mers từ
các trình tự sao cho điểm consensus là cực
đại
• Nhập: A t x n mảng các mẫu DNA, và chiều
lài l của pattern muốn tìm
• Xuất: Mảng t vị trí s = (s1, s2, st) mà
Score(s,DNA) đạt cực đại
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 80
21
Thuật toán Brute Force
• Tính score của một tổ hợp với vị trí bắt đầu s
• Điểm tốt nhất được xác định bởi profile tốt
nhất.
• Tìm Score(s,DNA) lớn nhất bằng cách thay
đổi vị trí bắt đầu si, với i từ 1 đến n-l+1
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81
BruteForceMotifSearch(DNA, t, n, l)
bestScoe ß 0
for s=(s1,s2 , . . ., st) from (1,1 . . . 1) to
(n-l+1, . . ., n-l+1)
if (Score(s,DNA) > bestScore)
bestScore ß score(s, DNA)
bestMotif ß (s1,s2 , . . . , st)
return bestMotif
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82
Nhận xét
• Thay đổi (n - l + 1) vị trí trong t trình tự, cần
(n - l + 1)t tập hợp các vị trí bắt đầu
• Đối với mỗi tập hợp vị trí bắt đầu, score
được tính dựa trên l phép toán, vì vậy độ
phức tạp tính toán là l x (n – l + 1)t = O(lnt)
• Với t = 8, n = 1000, l = 10 phải thực hiện
xấp xỉ 1032 tính toán.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 83
Bài toán Median String
• Với lý do trên, nên vấn đề đặt ra là tìm một
thuật toán nhanh hơn để giải quyết.
• Bài toán Motif Finding được đưa về bài toán
Median String (chuỗi trung bình)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 84
22
• Bài toán Median String:
– Cho mẫu t trình tự DNA tìm pattern xuất hiện
trong tất cả t trình tự với số đột biến ít nhất
– Pattern này chính là motif
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 85
Khoảng cách Hamming
• Khoảng cách Hamming:
– dH(v,w) là số cặp nucleotide mismatch (do not
match) khi sắp hàng v và w. Chẳng hạn
dH(AAAAAA,ACAAAC) = 2
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86
Ví dụ
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 87
• Cho v = “acgtacgt” và mẫu DNA
acgtacgt
cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat
acgtacgt
agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
acgtacgt
aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
acgtacgt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca
acgtacgt
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc
dH(v, x) = 0
dH(v, x) = 0
dH(v, x) = 0
dH(v, x) = 0 dH(v, x) = 0
TotalDistance(v,DNA) = 0
Ví dụ
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 88
• Cho v = “acgtacgt” và mẫu DNA
acgtacgt
cctgatagacgctatctggctatccacgtacAtaggtcctctgtgcgaatctatgcgtttccaaccat
acgtacgt
agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
acgtacgt
aaaAgtCcgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
acgtacgt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca
acgtacgt
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtaGgtc
dH(v, x) = 1
dH(v, x) = 0
dH(v, x) = 0
dH(v, x) = 1 dH(v, x) = 2
TotalDistance(v,DNA) = 1 + 0 + 2 + 0 + 1 = 4
23
• Với trình tự DNA thứ i, tính tất cả dH(v, x), ở đó x là
l-mer với vị trí bắt đầu si
(1 < si < n – l + 1)
• Tìm cực tiểu dH(v, x) của tất cả các l-mers trong
trình tự i
• TotalDistance(v,DNA) tổng của các khoảng cách
Hamming tối thiểu cho trình tự DNA thứ i
• TotalDistance(v,DNA) = mins dH(v, s), ở đó s là
tập hợp các vị trí bắt đầu s1, s2, st
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 89
Thuật toán
• Mục tiêu: cho mẫu các trình tự DNA, tìm
chuỗi trung bình
• Nhập: Ma trận DNA t x n, chiều dài l của
mẫu cần tìm.
• Xuất: chuỗi v gồm l nucleotides mà
TotalDistance(v,DNA) đạt cực tiểu đối với tất
cả các chuỗi có cùng chiều dài.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 90
MedianStringSearch (DNA, t, n, l)
bestWord ß AAAA
bestDistance ß ∞
for each l-mer s from AAAA to TTTT
if TotalDistance(s,DNA) < bestDistance
bestDistanceßTotalDistance(s,DNA)
bestWord ß s
return bestWord
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 91
• Motif Finding Problem == Median String
Problem
– Motif Finding là bài toán cực đại, trong khi
Median String là bài toán cực tiểu
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 92
24
• Tuy nhiên, đây là 2 bài toán tương đương
– TotalDistance đạt cực tiểu tương đương Score
đạt cực đại
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 93
Sự giống nhau
Ta có:
Scorei + TotalDistancei = t với các
cột
Suy ra:
l x (Scorej + TotalDistancej)= l x t
Hay Score = l x t – TotalDistance
Mà l x t là hằng, nên vế phải đạt cực
tiểu tương đương vế trái đạt cực đại
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 94
a G g t a c T t
C c A t a c g t
Alignment a c g t T A g t
a c g t C c A t
C c g t a c g G
_________________
A 3 0 1 0 3 1 1 0
Profile C 2 4 0 0 1 4 0 0
G 0 1 4 0 0 0 3 1
T 0 0 0 5 1 0 1 4
_________________
Consensus a c g t a c g t
Score 3+4+4+5+3+4+3+4
TotalDistance 2+2+2+2+2 = 10 =
2+1+1+0+2+1+2+1
Sum 5 5 5 5 5 5 5 5
• Tại sao lại quan tâm đến chuyện thay bài
toán Motif Finding bằng Median String
– Motif Finding Problem cần tính toán với tất cả các
tổ hợp của s. Đó là (n - l + 1)t tổ hợp.
– Median String Problem cần tính toán 4l tổ hợp
của v. Con số này tương đối nhỏ hơn.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 95
Các bước tìm motif
• Cho một trình tự v có chiều dài l (gọi là l-mer)
• Và cho t trình tự có chiều dài n
• Tính các khoảng cách Hamming dH(v,x),
trong đó x là l-mer có vị trí bắt đầu lần lượt từ
1 đến n-l+1 trong trình tự thứ i
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 96
25
• Từ đây suy ra dH(v,xi) là khoảng cách cực
tiển trong các khoảng cách này của trình tự i.
• Tính TotalDistance là tổng các dH(v,xi) với i
từ 1 đến t.
• Khi đó các xi là các motif tìm được trên cơ sở
trình tự v cho trước.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 97
• Nhận xét:
– Trong trường hợp v chưa biết trước, số lượng
motif xi cần tìm là quá ít so với tập hợp tìm kiếm.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 98
KÝ HIỆU PROTEIN MOTIF
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 99
Ký hiệu protein motif
• x: được dùng để chỉ vị trí mà bất cứ amino
acide nào cũng được chấp nhận
• []: tại vị trí này có thể là một trong các amino
acide được liệt kê
• {}: tại vị trí này có thế bất kỳ amino acide nào
ngoại trừ phân tử được liệt kê
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 100
26
• Ví dụ:
– [AC]xVx(2){GV}
– Là motif gồm: Alanine hoặc Cysteine - amino
acide – Valine - amino acide -amino acide -Ngoại
trừ Glutamate và Valine
• x(2): có 2 amino acide bất kỳ
• x(0,3): có từ 0 đến 3 amino acide bất kỳ
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 101
• <: cho biết motif nằm ở đầu trình tự protein
• >: cho biết motif nằm ở cuối trình tự protein
• Ví dụ: < Ax[ST](2)x(0,1)V
– Motif nằm ở đầu trình tự gồm: Alanine – amino
acide - Serine hoặc Threonine - Serine hoặc
Threonine – có amino acide hoặc không – Valine
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 102
• Ví dụ:
– Với l = 10, n = 1000, t = 8
– Số mẫu l-mer cần tìm trong mổi trình tự là
1000-10+1 = 991
– Trong t trình tự có 8 x 991 = 7928 mẫu
– Như vậy: chỉ tìm 8 mẫu (8 motif) trong 7928 mẫu
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 103
Motif
Trình tự sinh học
dài
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 104
File đính kèm:
bai_giang_tin_sinh_hoc_dai_cuong_chuong_4_phan_tich_trinh_tu.pdf



