Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu - Trần Văn Lăng

Tóm tắt Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu - Trần Văn Lăng: ...ENCE AND TECHNOLOGY 23 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24 7EMBL ( • EMBL là Phòng Thí nghiệm sinh học phân tử của Châu Âu, European Molecular Biology Laboratory Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25 Assoc. Pr... toàn bộ dữ liệu từ các ngân hàng này bằng cách dùng giao thức ftp để truyền tập tin. • Cụ thể – ftp://ftp.ddbj.nig.ac.jp – ftp://ftp.ebi.ac.uk – ftp://ftp.ncbi.nih.gov Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43 CƠ SỞ DỮ LIỆU CẤU TRÚC PDB Assoc. Prof. T... khác. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57 • Table PRO_CAVEAT: Cảnh báo các lỗi phục vụ trong một cấu trúc, một mẫu tin sẽ xác định cấu trúc bị rút ra khỏi tập hợp cấu trúc công bố. • Table PRO_COMPND: Mẫu tin compnd mô tả nội dung của cấu trúc. Mỗi...

pdf20 trang | Chia sẻ: havih72 | Lượt xem: 206 | Lượt tải: 0download
Nội dung tài liệu Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu - Trần Văn Lăng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1TIN SINH HỌC ĐẠI CƯƠNG
(Introduction to Bioinformatics)
PGS.TS. Trần Văn Lăng
Email: langtv@vast.vn
Assoc. Prof. Tran Van Lang, PhD, 
VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 
TÀI LIỆU HỌC TẬP
• Trần Văn Lăng, Ứng dụng 
Tin học trong việc giải 
quyết một số bài toán của 
Sinh học phân tử. Nxb. 
Giáo dục, 2008, 230tr.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2
TÌM KIẾM TRÌNH TỰ TƯƠNG ĐỒNG 
TRÊN NGÂN HÀNG DỮ LIỆU 
Chương 2:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 3
NỘI DUNG
• Một số ngân hàng dữ liệu trình tự
• Cơ sở dữ liệu cấu trúc PDB
• BLAST trong việc tìm kiếm tương đồng
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 4
2MỘT SỐ NGÂN HÀNG DỮ LIỆU TRÌNH 
TỰ GENE
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5
1. Một số ngân hàng dữ liệu
• GenBank
• EMBL
• DDBJ
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6
GenBank
• GenBank là cơ sở dữ liệu trình tự gen của NIH 
(National Institutes of Health)
• Nhằm tập hợp các trình tự DNA được công bố 
kèm theo lời chú thích
• 
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 7
• 20/9/2012: có 126.551.501.141 bases, từ 
135.440.924 sequences.
• 15/8/2013: có 154.192.921.011 bases, từ 
167.295.840 sequences.
• 15/8/2014: có 165.722.980.375 bases, từ 
174.108.750 sequences
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 8
3• 15/8/2015: có 199.823.644.287 bases, từ 
187.066.846 sequences
• 15/8/2016: có 217.971.437.647 bases, từ 
196.120.831 sequences
(Xem ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9
• Ví dụ, cần tìm giống 
lúa Việt Nam
– Vào trang 
h.gov
– Nhập vào dòng tìm 
kiếm tương ứng, 
chẳng hạn “Vietnam 
Rice”
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 11
• Kết quả đưa ra một danh sách liên quan đến 
“Vietnam Rice”
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 12
4• Chọn “Southern rice black-streaked dwarf virus 
isolate Son La major capsid protein gene, 
complete cds”, liên quan đến virus lúa
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14
• Để nhận kết quả, chọn 
nút “Send” ở góc trên bên 
phải.
• Chẳng hạn, chọn như 
hình bên để ghi ra file với 
đầy đủ thông tin theo 
GenBank
• Khi đó, trên default 
download folder có tập 
tin sequence.gb
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 15
• Ban đầu GenBank được xây dựng ở Phòng thí 
nghiệm quốc gia Los Alamos, Hoa Kỳ (LANL -
Los Alamos National Laboratory). 
• Sau đó, vào năm 1990, được đưa về Trung tâm 
quốc gia Thông tin Công nghệ sinh học (NCBI -
National Center for Biotechnology Information). 
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 16
5• Để cung cấp nguồn tài nguyên về các thông tin 
sinh học phân tử. 
• Thông qua GenBank, NCBI hỗ trợ và phân phối 
nhiều cơ sở dữ liệu thông tin sinh học khác nhau 
cho cộng đồng.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18
GenBank là một bộ phận của International 
Nucleotic Sequence Database Collaboration
• The International Nucleotic 
Sequence Databases Collaboration 
phát triển và duy trì sự hợp tác giữa 
DDBJ, EMBL và GenBank được 22 
năm nay (2016)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 19
Sự hợp tác giữa 3 ngân hàng
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 20
6• Người ta có thể gửi các trình tự sinh học lên 
GenBank nhờ công cụ:
– Sequin (
• Khi đó người dùng có thể chú giải nhiều thông tin 
cho trình tự khám phá của mình
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 21 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 22
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 23
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 24
7EMBL (
• EMBL là Phòng Thí nghiệm sinh học phân tử của 
Châu Âu, European Molecular Biology 
Laboratory
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26
• EMBL thành lập năm 7/1974 với sự tài trợ và 
giúp đỡ của 17 thành viên thuộc các nước Châu 
Âu và Israel. 
• Cơ sở vật chất của EMBL bao gồm phòng thí 
nghiệm chính ở Heidelberg (Đức), các trạm ở 
Hamburg (Đức), Grenoble (Pháp) và Hinxton 
(Anh), cùng với một chương trình nghiên cứu đặt 
tại Monterotondo (Ý).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 27
• Trong EMBL có European Bioinformatics 
Institute (EBI) 
– là một viện nghiên cứu học thuật về tin sinh học đặt ở 
Wellcome Trust Genome Campus ở Hinxton gần 
Cambridge, 
– được thành lập năm 1994.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 28
8Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29
• Ngân hàng EMBL chứa 247.335.689 trình tự bao 
gồm 429.512.389.024 nucleotide (20 Sep 2012).
• Việc truy cập cũng tiện lợi giống như sử dụng 
GenBank của NCBI
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30
• Chẳng hạn, Genome đầy đủ của virus dạ dày 
người C117 (Human enterovirus C117 strain 
LIT22) được công bố ngày 14 Sep 2012
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 31 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 32
9Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 35 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 36
10
DDBJ (
• DNA Data Bank of Japan bắt đầu các hoạt động 
lưu trữ ngân hàng dữ liệu DNA từ năm 1986 
• Đặt tại Viện Di truyền quốc gia Nhật Bản - NIG 
(National Institute of Genetics).
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 37 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38
• Việc tìm kiếm trên DDBJ cũng đơn giản và tương 
tự như trên EMBL hay GenBank.
• Chẳng hạn, chúng ta có ID của bộ gen đầy đủ về 
Human enterovirus C117 là JX262382
• Việc tìm kiếm như sau:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 39
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 40
11
Kết quả tìm kiếm
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42
• Cũng có thể lấy toàn bộ dữ liệu từ các ngân hàng 
này bằng cách dùng giao thức ftp để truyền tập 
tin.
• Cụ thể
– ftp://ftp.ddbj.nig.ac.jp 
– ftp://ftp.ebi.ac.uk
– ftp://ftp.ncbi.nih.gov
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43
CƠ SỞ DỮ LIỆU CẤU TRÚC PDB
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44
12
2. Cơ sở dữ liệu PDB
• PDB (Protein Data Bank) là một trong những cơ 
sở dữ liệu sinh học phân tử đầu tiên trên thế giới 
được thành lập trước cả những cơ sở dữ liệu 
DNA. 
• Kể từ khi cấu trúc protein đầu tiên được công bố 
năm 1950 thì mãi đến những năm 1970 thế giới 
vẫn không có một sự biến động nào đáng kể về 
số lượng cấu trúc protein. 
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45
• Năm 1971, PDB được thành lập ở Brookhaven 
National Laboratory.
• Từ 1998, PDB được chuyển đến cho Research 
Collaboratory for Structural Bioinformatics 
(RCSB)
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48
13
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49
• Trong ngân hàng PDB, 
– có 84.645 dữ liệu cấu trúc (20/9/2012).
– 10/9/2013, có 93.788 cấu trúc
– 23/9/2014, có 103.557 cấu trúc
– 09/9/2015, có 111.956 cấu trúc
– 15/9/2016, có 122.583 cấu trúc
• Chẳng hạn, có thể tìm cấu trúc của “Human 
Enterovirus”
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51
Protein ID: 3N6L
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52
14
• Để coi cấu trúc của protein có trong PDB, có thể 
sử dụng trực tiếp từ trang web của PDB.
• Hoặc có thể coi từ các phần mềm khác. Chẳng 
hạn, với Jmol viết bằng Java
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54
Mô hình CSDL Protein
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55
Ý nghĩa của các table
• Table PROTEIN: Lưu trữ tên protein, đây là bảng 
chính trong cơ sở dữ liệu protein
• Table PRO_HEADER: Mỗi mẫu tin trong bảng 
dữ liệu là mẫu tin duy nhất định nghĩa một tập tin 
PDB thông qua khoá chính. Mẫu tin này cung 
cấp thông tin phân loại thực thể. Cuối cùng là 
thông tin về ngày mà nó được lưu trữ ở PDB.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56
15
• Table PRO_OBSLTE: Xuất hiện khi cấu trúc của 
protein bị loại. 
• Table PRO_TITLE: Chứa tiêu đề mô tả nội dung 
của cấu trúc và bất kỳ thủ tục hoặc điều kiện để 
phân biệt cấu trúc này với cấu trúc khác.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57
• Table PRO_CAVEAT: Cảnh báo các lỗi phục vụ 
trong một cấu trúc, một mẫu tin sẽ xác định cấu 
trúc bị rút ra khỏi tập hợp cấu trúc công bố.
• Table PRO_COMPND: Mẫu tin compnd mô tả 
nội dung của cấu trúc. Mỗi đại phân tử tìm thấy 
trong cấu trúc được mô tả trong một tập hợp 
token: giá trị cặp và được tham chiếu đến thành 
phần mẫu tin compnd khác.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58
• Table PRO_SOURCE: Mẫu tin chỉ định loại tài 
nguyên sinh học hoặc hoá học của mỗi phần tử 
sinh học trong cấu trúc. 
• Table PRO_KEYWDS: Lưu trữ một tập hợp 
những khoá thích hợp đến cấu trúc. Các khoá 
trong bảng KEYWDS cung cấp một ý nghĩa để 
phân loại cấu trúc.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59
• Table PRO_EXPDTA: Đại diện thông tin về thực 
nghiệm. Mẫu tin này bắt buộc và xuất hiện trong 
tất cả cấu trúc
• Table PRO_AUTHOR: Lưu tên của những người 
tìm ra cấu trúc.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60
16
• Table PRO_REVDAT: Lưu lại lịch sử sửa đổi của 
cấu trúc từ khi được công bố.
• Table PRO_SPRSDE: Chứa danh sách mã ID 
của các cấu trúc bị lạc hậu, bị rút ra khỏi tập dữ 
liệu đã công bố.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61
• Table PRO_JRNL: Lưu trữ những bài báo mô tả 
quá trình thực nghiệm tìm ra kết quả. Một cấu 
trúc có ít nhất một tham chiếu JRNL. 
• Table PRO_REMARK1: Lưu trữ chi tiết thực 
nghiệm, giải thích, ghi chú và thông tin không 
nằm trong những mẫu tin khác. 
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62
• Có thể tìm trong tài liệu về 
cấu trúc của CSDL DNA 
và Protein
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63
TÌM KIẾM TƯƠNG ĐỒNG TRONG NGÂN 
HÀNG DỮ LIỆU
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64
17
BLAST
• BLAST (Basic Local Alignment Search Tool) là 
công cụ tìm các vị trí tương đồng cục bộ giữa các 
trình tự sinh học DNA và Protein.
• Được phát triển bởi NCBI.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65
• BLAST tìm kiếm giữa chuỗi truy vấn với chuỗi có 
trong CSDL bằng:
– Phương pháp heurictic
– Giải thuật Smith-Waterman
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66
• Mặc dù không chính xác bằng thuật giải Smith-
Waterman, nhưng phương pháp heurictic vẫn 
được chọn lựa bởi cho tốc độ tìm kiếm nhanh gấp 
nhiều lần khi phải truy vấn trong ngân hàng dữ 
liệu lớn
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67
• Có 5 chương trình BLAST chính:
– nucleotide blast
– protein blast
– Blastx
– tblastn
– tblastx
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68
18
• nucleotide blast: để tìm một trình tự nulcleotide từ 
CSDL nucleotide
• Thuật toán sử dụng:
– blastn, megablast, discontiguous megablast
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69
• protein blast: tìm một trình tự peptide, hoặc 
polypeptide từ CSDL protein.
• Thuật toán: 
– blastp, psi-blast, phi-blast, delta-blast
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70
• blastx: tìm một trình tự nucleotide đã biên dịch từ 
CSDL protein
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71
• tblastn: tìm một trình tự protein từ CSDL 
nucleotide đã biên dịch 
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72
19
• tblastx: tìm một trình tự nucleotide đã biên dịch từ 
CSDL nucleotide đã biên dịch.
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73
BLAST (
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74
Ví dụ
• Tạo DNA ngẫu nhiên từ 
dna.html
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75
• Sau đó chuyển vào trang dùng Nucleotide 
BLAST
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76
20
• Kết quả tìm kiếm được:
Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

File đính kèm:

  • pdfbai_giang_tin_sinh_hoc_dai_cuong_chuong_2_tim_kiem_trinh_tu.pdf