Các độ đo thông tin tương hỗ đa biến có điều kiện
Tóm tắt Các độ đo thông tin tương hỗ đa biến có điều kiện: ... bình thông tin tương hỗ của hai biến trên biến thứ ba được gọi là thông tin tương hỗ có điều kiện (CMI) và được định nghĩa như sau: MI(X,Y | Z) = ∑ z∈Z p(z) ∑ x∈X ∑ y∈Y p(x, y | z) log p(x, y | z) p(x | z).p(y | z) (2.3) = ∑ z∈Z p(z)MI(X,Y | Z = z) (2.4) Trong đó, p(x | z) là hàm p...n} = D1 ⊕ . . .⊕Dk. Trong trường hợp ba biến, chúng ta có các độ đo thông tin tương hỗ như sau: MI(X,Y, Z) = TC(X,Y, Z) = H(X) +H(Y ) +H(Z)−H(X,Y, Z) (3.6) MI(X, [Y,Z]) = H(X) +H(Y,Z)−H(X,Y, Z) (3.7) MI(Y, [Z,X]) = H(Y ) +H(Z,X)−H(X,Y, Z) (3.8) MI(Z, [X,Y ]) = H(Z) +H(X,Y )−H(X,Y, Z) (3.9) Tuy...4]: H(X) = log [ (2pie)n/2 | C |1/2 ] = 1 2 log(2pie)n | C | (3.16) Do đó, MI và CMI cũng được ước lượng như sau: MI(X,Y ) = 1 2 log | C(X) | . | C(Y ) | | C(X,Y ) | (3.17) 124 NGUYỄN QUỲNH DIỆP1, PHẠM THỌ HOÀN1, HỒ TÚ BẢO2 MI(X,Y | Z) = 1 2 log | C(X,Z) | . | C(Y,Z) | | C(Z) | . |...
nh giá các độ đo này với phương pháp sử dụng hệ số tương quan và hệ số tương quan bộ phận trong việc phát hiện mối quan hệ giữa hai biến. Phần 3 giới thiệu các đề xuất mở rộng độ đo thông tin tương hỗ và thông tin tương hỗ có điều kiện trong trường hợp đa biến. Một số ví dụ được trình bày trong phần này nhằm kiểm chứng khả năng phát hiện các quan hệ đa biến là trực tiếp hay gián tiếp của thông tin tương hỗ có điều kiện. Cuối cùng là một ứng dụng các độ đo chúng tôi đề xuất trong việc phát hiện quan hệ gián tiếp trong mạng trao đổi chất ở người. 2. THÔNG TIN TƯƠNG HỖ CỦA HAI BIẾN, THÔNG TIN TƯƠNG HỖ CÓ ĐIỀU KIỆN CỦA HAI BIẾN 2.1. Thông tin tương hỗ của hai biến Thông tin tương hỗ (MI) của hai biến ngẫu nhiên X và Y là độ đo trong Lý thuyết thông tin phản ánh quan hệ giữa chúng. Khi X và Y là các biến ngẫu nhiên rời rạc, MI được định CÁC ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐA BIẾN CÓ ĐIỀU KIỆN 119 nghĩa như sau [2]: MI(X,Y ) = ∑ x∈X ∑ y∈Y p(x, y) log p(x, y) p(x).p(y) (2.1) Trong đó, p(x) và p(y) lần lượt là hàm phân phối biên duyên của X và của Y ; p(x, y) là hàm phân phối xác suất đồng thời của hai biến X và Y . Khi các biến X và Y là liên tục, phép tính tổng trong công thức trên được thay bởi phép tính tích phân trên miền giá trị của X và Y . Chúng ta có thể biểu diễn thông tin tương hỗ qua entropy như sau: MI(X,Y ) = H(X) +H(Y )−H(X,Y ) (2.2) Trong đó, H(X), H(Y ) và H(X,Y ) lần lượt là entropy của biến X, biến Y và (X,Y ). Thông tin tương hỗ đã được xác nhận là độ đo hữu ích trong việc phát hiện sự tồn tại quan hệ giữa hai biến [8, 10, 11]. Tuy nhiên, độ đo này không thể phân biệt được đó là quan hệ trực tiếp giữa hai biến hay là quan hệ gián tiếp thông qua một hoặc nhiều biến trung gian. Ở đây, hai biến được gọi là có quan hệ trực tiếp nếu chúng cùng tham gia vào một sự kiện (phản ứng hoặc cơ chế điều hòa gien) và gọi là có quan hệ gián tiếp nếu chúng quan hệ với nhau thông qua một hoặc một dãy biến trung gian. 2.2. Thông tin tương hỗ có điều kiện của hai biến Khi các biến X và Y không trực tiếp quan hệ với nhau nhưng có mối quan hệ gián tiếp thông qua biến thứ ba, MI sẽ phát hiện sự tồn tại quan hệ giữa X và Y . Nếu quan sát thêm được biến Z, ta có thể biết thêm thông tin về mối quan hệ này. Bằng cách lấy trung bình thông tin tương hỗ của hai biến X và Y trên biến Z, ta có thể biết được X và Y có quan hệ gián tiếp thông qua Z (ký hiệu, X ↔ Z ↔ Y ) hay không. Độ đo trung bình thông tin tương hỗ của hai biến trên biến thứ ba được gọi là thông tin tương hỗ có điều kiện (CMI) và được định nghĩa như sau: MI(X,Y | Z) = ∑ z∈Z p(z) ∑ x∈X ∑ y∈Y p(x, y | z) log p(x, y | z) p(x | z).p(y | z) (2.3) = ∑ z∈Z p(z)MI(X,Y | Z = z) (2.4) Trong đó, p(x | z) là hàm phân phối xác suất của biến X với điều kiện Z; p(x, y | z) là hàm phân phối xác suất đồng thời của hai biến X và Y với điều kiện Z. MI của hai biến có thể tăng lên hoặc giảm đi khi có sự xuất hiện của biến thứ ba. Trong khi MI(X,Y | Z) đo mức độ tương hỗ trung bình giữa hai biến X và Y trên các giá trị của Z thì MI(X,Y ) đo mức độ tương hỗ trên không gian dữ liệu của hai biến X và Y . Có thể MI(X,Y ) lớn nhưng MI(X,Y | Z) nhỏ vì khi quan sát trên hai biến X và Y ta chỉ nhìn được hình chiếu của dữ liệu trên không gian hai chiều X và Y . Nhưng khi quan sát cả ba biến X,Y, Z, mối quan hệ giữa X và Y có sự chi phối của Z, khi đó ta có thể biết được sự phụ thuộc gián tiếp X ↔ Z ↔ Y . Ví dụ 2.1. Lặp 10 lần quá trình sinh ba biến rời rạc X,Y, Z theo xích Markov X → Z → Y . Cụ thể, trong ví dụ này, chúng tôi sử dụng Matlab để sinh ba biến theo qui tắc sau: Z = 120 NGUYỄN QUỲNH DIỆP1, PHẠM THỌ HOÀN1, HỒ TÚ BẢO2 X + noise1 và Y = Z + noise2. Kết quả tính toán các giá trị MI và CMI được trình bày trong Bảng 1. Bảng 1. Quan hệ gián tiếp X ↔ Z ↔ Y với dữ liệu rời rạc n MI(X,Y) MI(Y,Z) MI(Z,X) MI(Y,Z|X) MI(Z,X|Y) MI(X,Y|Z) 1 0.7179 0.8678 0.8022 0.1505 0.0850 0.0007 2 0.4602 0.6628 0.6636 0.2085 0.2093 0.0059 3 0.5031 0.6391 0.7599 0.1389 0.2598 0.0030 4 0.5626 0.7552 0.7132 0.1957 0.1536 0.0030 5 0.4400 0.7116 0.5954 0.2779 0.1618 0.0063 6 0.5395 0.6766 0.7622 0.1401 0.2257 0.0031 7 0.6343 0.6845 0.9256 0.0518 0.2929 0.0016 8 0.5460 0.7706 0.6640 0.2275 0.1209 0.0029 9 0.5695 0.7574 0.7261 0.1909 0.1596 0.0030 10 0.5811 0.7261 0.6758 0.1658 0.1154 0.0027 Quan sát các giá trị trong cột MI(X,Y | Z) của Bảng 1, ta thấy chúng rất nhỏ so với các giá trị CMI khác. Hơn nữa, sự chênh lệch giữa MI(X,Y ) và MI(X,Y | Z) rất lớn so với các cặp (Y, Z) và (Z,X). Trong trường hợp ba biến X,Y, Z là liên tục, ta cũng có kết quả tương tự như trường hợp rời rạc (xem Bảng 2). Bảng 2. Quan hệ gián tiếp X ↔ Z ↔ Y với dữ liệu liên tục n MI(X,Y) MI(Y,Z) MI(Z,X) MI(Y,Z|X) MI(Z,X|Y) MI(X,Y|Z) 1 1.1160 1.2275 1.6746 0.1168 0.5639 0.0053 2 1.0465 1.2705 1.5215 0.2240 0.4751 0.0000 3 1.1301 1.3662 1.6871 0.2395 0.5603 0.0033 4 1.0948 1.2949 1.4992 0.2034 0.4076 0.0032 5 1.1314 1.2995 1.6412 0.1693 0.5111 0.0013 6 1.0682 1.3292 1.6274 0.2687 0.5669 0.0077 7 0.9284 1.0772 1.6978 0.1531 0.7737 0.0043 8 1.1725 1.3710 1.6396 0.1993 0.4679 0.0008 9 1.1974 1.4622 1.7728 0.2740 0.5846 0.0092 10 1.0436 1.1358 1.6151 0.0998 0.5791 0.0075 2.3. Ứng dụng thông tin tương hỗ có điều kiện của hai biến để phát hiện tương tác gián tiếp Trong một nghiên cứu trước đây [14], Zhang và cộng sự đã đề xuất thuật toán Path Consistency (PC) để phát hiện quan hệ giữa hai biến. Trong thuật toán đó, tác giả dùng MI của hai biến để phát hiện quan hệ giữa chúng, sau đó sử dụng CMI để loại bỏ quan hệ gián CÁC ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐA BIẾN CÓ ĐIỀU KIỆN 121 tiếp. Tuy nhiên, thuật toán PC chỉ xét đến trường hợp MI(X,Y ) lớn hơn ngưỡng nào đó, còn trường hợp MI(X,Y ) nhỏ hơn ngưỡng thì tác giả coi như giữa X và Y không tồn tại quan hệ. Như vậy, phương pháp PC có thể đã bỏ sót các quan hệ gián tiếp X ↔ Z ↔ Y . Ngoài việc sử dụng cặp MI và CMI để tìm các tương tác thực sự giữa các biến và loại bỏ các tương tác gián tiếp như trong bài báo trên, một ý tưởng tương tự đó là dùng hệ số tương quan và hệ số tương quan bộ phận để phát hiện tương tác giữa các biến [7]. Trong nghiên cứu này, tác giả đã sử dụng hệ số tương quan để phát hiện các tương tác giữa hai biến và dùng hệ số tương quan bộ phận (tức là hệ số tương quan giữa hai biến sau khi loại bỏ tương quan gián tiếp thông qua một biến thứ ba) để phát hiện tương quan giữa hai biến có là gián tiếp không. Nhược điểm của phương pháp này là hệ số tương quan và hệ số tương quan bộ phận chỉ có thể phát hiện được các kiểu quan hệ tuyến tính [4]. Chẳng hạn, khi hai biến có quan hệ phi tuyến, y = x2, thì hệ số tương quan giữa chúng bằng 0. Như vậy, hệ số tương quan không thể phát hiện được sự phụ thuộc phi tuyến, trong khi thông tin tương hỗ lại làm được điều này. 3. THÔNG TIN TƯƠNG HỖ ĐA BIẾN, THÔNG TIN TƯƠNG HỖ ĐA BIẾN CÓ ĐIỀU KIỆN 3.1. Thông tin tương hỗ đa biến Trong trường hợp đa biến, ngoài mối quan hệ tương tác giữa hai biến, còn có thêm mối quan hệ đồng thời giữa ba biến (gọi là quan hệ tổng hợp) và mối quan hệ giữa một biến với cặp hai biến còn lại (gọi là quan hệ bộ phận). Từ các phân tích đó, chúng tôi đã đề xuất công thức MI tổng quát trong trường hợp đa biến như sau [11]: Định nghĩa 3.1. Thông tin tương hỗ của n biến {X1, . . . , Xn} với phân hoạch {D1, . . . , Dk} được định nghĩa: MI{D1,...,Dk}(X1, . . . , Xn) = H(D1) + . . .+H(Dk)−H(X1, . . . , Xn) (3.5) trong đó, {X1, . . . , Xn} = D1 ⊕ . . .⊕Dk. Trong trường hợp ba biến, chúng ta có các độ đo thông tin tương hỗ như sau: MI(X,Y, Z) = TC(X,Y, Z) = H(X) +H(Y ) +H(Z)−H(X,Y, Z) (3.6) MI(X, [Y,Z]) = H(X) +H(Y,Z)−H(X,Y, Z) (3.7) MI(Y, [Z,X]) = H(Y ) +H(Z,X)−H(X,Y, Z) (3.8) MI(Z, [X,Y ]) = H(Z) +H(X,Y )−H(X,Y, Z) (3.9) Tuy nhiên, như phân tích trong phần 2.2, độ đo thông tin tương hỗ đa biến không thể cho ta biết mối quan hệ giữa các biến là quan hệ trực tiếp hay gián tiếp thông qua các biến trung gian. Vì vậy, trong phần tiếp theo, chúng tôi đề xuất các công thức mở rộng thông tin tương hỗ có điều kiện trong trường hợp đa biến. 122 NGUYỄN QUỲNH DIỆP1, PHẠM THỌ HOÀN1, HỒ TÚ BẢO2 3.2. Thông tin tương hỗ đa biến có điều kiện Từ định nghĩa CMI trong trường hợp hai biến, chúng tôi đề xuất một mở rộng của độ đo CMI là độ đo thông tin tương hỗ đa biến có điều kiện như sau: Định nghĩa 3.2. Thông tin tương hỗ có điều kiện của n biến {X1, . . . , Xn} với phân hoạch {D1, . . . , Dk} trên điều kiện C được định nghĩa: MI{D1,...,Dk}(X1, . . . , Xn | C) = H(D1 | C) + . . .+H(Dk | C)− − H(X1, . . . , Xn | C) (3.10) trong đó, {X1, . . . , Xn} = D1 ⊕ . . .⊕Dk. Trong trường hợp ba biến X,Y, Z, ta có các phân hoạch sau: a. D1 = {X}, D2 = {Y }, D3 = {Z} b. D1 = {X}, D2 = {Y,Z} c. D1 = {Y }, D2 = {Z,X} d. D1 = {Z}, D2 = {X,Y } Do đó, tương ứng với 4 kiểu phân hoạch trên, theo công thức (3.10) ta có các độ đo thông tin tương hỗ có điều kiện của ba biến X,Y, Z trên biến thứ tư T như sau: • Thông tin tương hỗ tổng hợp của ba biến X,Y, Z trên điều kiện T MI(X,Y, Z | T ) = H(X | T ) +H(Y | T ) +H(Z | T )−H(X,Y, Z | T ) (3.11) • Thông tin tương hỗ bộ phận giữa một biến với cặp hai biến trên điều kiện T MI(X, [Y,Z] | T ) = H(X | T ) +H(Y, Z | T )−H(X,Y, Z | T ) (3.12) MI(Y, [Z,X] | T ) = H(Y | T ) +H(Z,X | T )−H(X,Y, Z | T ) (3.13) MI(Z, [X,Y ] | T ) = H(Z | T ) +H(X,Y | T )−H(X,Y, Z | T ) (3.14) Giống như CMI của hai biến, các CMI đa biến cũng có khả năng phát hiện các tương tác đa biến gián tiếp. Ví dụ 3.1. Trong ví dụ này, chúng tôi sử dụng Matlab lặp 10 lần quá trình sinh bốn biến X,Y, Z, T theo qui tắc sau: hai biến liên tục Y, Z độc lập; biến T phụ thuộc vào Y và Z, giả sử T = Y + Z + noise3; biến X phụ thuộc vào biến T , giả sử X = T + noise4. Sau khi tính toán các giá trị CMI trên tất cả các biến điều kiện, ta có kết quả được trình bày trong Bảng 3. Cột MI(Y,Z) cho ta thấy hai biến Y và Z độc lập. Giá trị trong cột MI(X, [Y,Z]|T ) rất nhỏ so với các giá trị CMI trên các điều kiện biến X,Y, Z. Như phân tích trong Ví dụ 2.1, điều đó có nghĩa rằng, giữa X và (Y, Z) có mối quan hệ gián tiếp thông qua biến T (kiểu X ↔ T ↔ [Y, Z]). Như vậy, dựa vào thông tin tương hỗ đa biến và thông tin tương hỗ đa biến có điều kiện, không những chúng ta có thể biết được mối quan hệ tồn tại giữa các biến mà còn có thể biết được mối quan hệ đó là quan hệ trực tiếp hay gián tiếp. CÁC ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐA BIẾN CÓ ĐIỀU KIỆN 123 Bảng 3. Quan hệ gián tiếp X ↔ T ↔ [Y,Z] với dữ liệu liên tục n MI(Y,Z) MI(T,[Y,Z]) MI(X,[Y,Z]) MI(T,[Y,Z]|X) MI(X,[Y,Z]|T) 1 0.0019 2.6680 1.4355 1.2326 0.0001 2 0.0002 2.6469 1.5718 1.0890 0.0138 3 0.0020 2.6661 1.4642 1.2159 0.0140 4 0.0040 2.7685 1.5094 1.2775 0.0184 5 0.0012 2.6481 1.6885 0.9748 0.0152 6 0.0003 2.6646 1.3962 1.2699 0.0015 7 0.0020 2.7581 1.4426 1.3253 0.0097 8 0.0054 2.5400 1.2922 1.2746 0.0269 9 0.0051 2.6122 1.4902 1.1236 0.0017 10 0.0002 2.7149 1.6008 1.1272 0.0130 3.3. Ước lượng entropy, MI và CMI Từ các công thức tính MI và CMI, ta thấy các độ đo này được định lượng dựa trên entropy, entropy được định lượng dựa trên hàm mật độ. Nếu dữ liệu là rời rạc, ta có thể dễ dàng ước lượng hàm mật độ dựa trên thống kê tần suất. Trong trường hợp dữ liệu liên tục, bài toán trở nên khó khăn hơn. Các phương pháp ước lượng được chia thành hai loại [6, 12]: ước lượng tham số (Bayesian, Maximum Likelihood, Edgeworth,. . . ) và ước lượng phi tham số (Histogram, B-spline, Kernel density, k-nearest neighbours,. . . ). Đối với các phương pháp tham số, tư tưởng chính của phương pháp này là giả định hàm mật độ thuộc một họ hàm nhất định với một tập các tham số kèm theo. Mục đích của phương pháp là tìm các giá trị thích hợp cho các tham số để phù hợp với dữ liệu đầu vào. Trong khi đó, phương pháp phi tham số lại không cần giả định hàm mật độ phải thuộc một họ hàm nhất định. Hiện nay, các phương pháp ước lượng phi tham số được sử dụng rộng rãi vì phương pháp này mang tính tự nhiên hơn. Thật khó để biết trước dữ liệu có phân bố thuộc dạng nào trong khi ta đang cần ước lượng phân bố đó. Trong nghiên cứu này, chúng tôi sử dụng phương pháp ước lượng entropy, MI và CMI theo phân bố xác suất Gaussian được mô tả trong [1]: P (Xi) = 1 N N∑ j=1 1 (2pi)n/2 | C |n/2 exp (− 1 2 (Xj −Xi)TC−1(Xj −Xi) ) (3.15) Trong đó, C là ma trận hiệp phương sai của biến X; N là số lượng mẫu; n là số lượng biến trong C. Với ước lượng xác suất trong công thức (3.15), ta có entropy được biểu diễn như sau [14]: H(X) = log [ (2pie)n/2 | C |1/2 ] = 1 2 log(2pie)n | C | (3.16) Do đó, MI và CMI cũng được ước lượng như sau: MI(X,Y ) = 1 2 log | C(X) | . | C(Y ) | | C(X,Y ) | (3.17) 124 NGUYỄN QUỲNH DIỆP1, PHẠM THỌ HOÀN1, HỒ TÚ BẢO2 MI(X,Y | Z) = 1 2 log | C(X,Z) | . | C(Y,Z) | | C(Z) | . | C(X,Y, Z) | (3.18) Tương tự, các công thức chúng tôi đề xuất (3.6)-(3.9) và (3.11)-(3.14) cũng được biểu diễn như sau: MI(X,Y, Z) = 1 2 log | C(X) | . | C(Y ) | . | C(Z) | | C(X,Y, Z) | (3.19) MI(X, [Y,Z]) = 1 2 log | C(X) | . | C(Y, Z) | | C(X, [Y,Z]) | (3.20) MI(X,Y, Z | T ) = 1 2 log | C(X,T ) | . | C(Y, T ) | . | C(Z, T ) | | C(T ) |2 . | C(X,Y, Z) | (3.21) MI(X, [Y, Z] | T ) = 1 2 log | C(X,T ) | . | C([Y,Z], T ) | | C(T ) | . | C(X, [Y,Z], T ) | (3.22) 3.4. Ứng dụng thông tin tương hỗ đa biến có điều kiện để phát hiện tương tác gián tiếp Trong phần này, chúng tôi sẽ trình bày một ứng dụng của các độ đo đề xuất trong việc phát hiện các quan hệ tương tác gián tiếp. Chúng tôi áp dụng phương pháp đề xuất lên dữ liệu trao đổi chất in silico về sự chuyển hóa trong tế bào hồng cầu RBC [5, 9]. Đây là dữ liệu biểu diễn dưới dạng một ma trận 1000× 39 mô tả nồng độ của 39 chất chuyển hóa tại 1000 điểm thời gian. Dữ liệu này được tải về tại địa chỉ ∼ilya/wiki/index.php/RBC _Metabolic_Network. Mô hình RBC bao gồm 39 chất chuyển hóa và 44 phản ứng. Chúng tôi đã lập trình trên Matlab, sử dụng các công thức ước lượng đã trình bày trong phần 3.3 để tính toán các giá trị MI. Sau khi đã phát hiện được mối quan hệ tương tác giữa các cặp bốn chất nhờ vào độ đo MI đa biến đã đề xuất, chúng tôi sử dụng độ đo CMI đa biến để phát hiện mối quan hệ tương tác gián tiếp giữa chúng. Chẳng hạn, với cặp bốn biến có giá trị thông tin tương hỗ lớn là (4,5,6,13) tương ứng với các chất (DHAP,GAP,DPG13, NADH) liên quan đến hai phản ứng tpi và gapdh; (15,18,19,20) tương ứng với các chất (GO6P,RU5P,R5P,X5P ) liên quan đến phản ứng gl6pdh, ru5pi và xu5pe, ta có các giá trị CMI được trình bày trong Bảng 4. Bảng 4. Phát hiện các tương tác gián tiếp sử dụng CMI đề xuất Cặp (4,5,6,13) Cặp (15,18,19,20) MI(4,[6,13]|5)=0.01 MI(15,[19,20]|18)=0.006 MI(6,[13,4]|5)=0.10 MI(19,[20,15]|18)=0.018 MI(13,[4,6]|5)=0.11 MI(20,[15,19]|18)=0.034 MI(4,[5,13]|6)=6.52 MI(18,[19,20]|15)=4.952 MI(4,[5,6]|13)=6.93 MI(18,[20,15]|19)=1.143 Quan sát các giá trị trong Bảng 4, ta có nhận xét: giá trị MI(4, [6, 13]|5) nhỏ nhất, điều đó có nghĩa là giữa (DHAP,GAP,DPG13, NADH) có mối quan hệ tương tác gián tiếp kiểu CÁC ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐA BIẾN CÓ ĐIỀU KIỆN 125 DHAP ↔ GAP ↔ [DPG13, NADH]. Tương tự, giữa (GO6P,RU5P,R5P,X5P ) có mối quan hệ gián tiếp GO6P ↔ RU5P ↔ [R5P,X5P ]. Đối chiếu với mô hình RBC đã cho trong [5], ta thấy các quan hệ vừa tìm được hoàn toàn trùng khớp với các phản ứng được mô tả trong Hình 3.1(a) và Hình 3.1(b) của mô hình RBC. Hình 3.1. Mô hìnhRBC tương ứng với: (a) phản ứng tpi và gapdh. (b) phản ứng gl6pdh, ru5pi và xu5pe. Trong đó, hình elip biểu diễn các chất, hình chữ nhật biểu diễn các phản ứng. 4. KẾT LUẬN Trong nghiên cứu này, chúng tôi đã đề xuất các độ đo thông tin tương hỗ đa biến có điều kiện. Bằng các ví dụ minh họa, chúng tôi đã chỉ ra rằng các độ đo thông tin tương hỗ đa biến có điều kiện là hữu ích trong việc xác định quan hệ đa biến gián tiếp thông qua biến trung gian. Khi số biến tăng lên, các loại quan hệ giữa các biến cũng đa dạng, việc xác định các loại quan hệ đa biến là gián tiếp thông qua các biến khác là vấn đề hết sức phức tạp. Cũng trong nghiên cứu này, chúng tôi đã áp dụng độ đo thông tin tương hỗ đa biến có điều kiện trên dữ liệu trao đổi chất về sự chuyển hóa trong tế bào hồng cầu của người. Kết quả cho thấy, độ đo mà chúng tôi đề xuất có khả năng phát hiện chính xác các quan hệ tương tác gián tiếp mà các phương pháp trước đây có thể đã bỏ sót. Tuy nhiên, trong nghiên cứu này, chúng tôi mới chỉ kiểm chứng mối liên hệ giữa độ đo thông tin tương hỗ đa biến có điều kiện với tương tác gián tiếp chứ chưa chứng minh chặt chẽ về mặt mặt toán học là độ đo này có thể phát hiện tương tác gián tiếp. Đây là vấn đề chúng tôi sẽ còn tiếp tục nghiên cứu. LỜI CẢM ƠN Nghiên cứu này được tài trợ bởi Quỹ Khoa học và Công nghệ Quốc gia (NAFOSTED), mã số đề tài 102.01-2001.05. TÀI LIỆU THAM KHẢO [1]. K. Basso, A. Margolin, G. Stolovitzky, U. Klein, R. Dalla-Favera and A. Califano, "Reverse engineering of regulatory networks in human B cells", Nature Genetics, 37 (2005), 382-390. [2]. T. Cover and J. Thomas, "Elements of Information Theory", Molecular Systems Biology, Wiley-Interscience, A John Wiley & Sons, Inc., Publication, (2006). 126 NGUYỄN QUỲNH DIỆP1, PHẠM THỌ HOÀN1, HỒ TÚ BẢO2 [3]. R. Fano, "A Statistical Theory of Communication", MIT Press, Cambridge, Massachussets, 1961. [4]. F. He, R. Balling and A.P. Zeng, "Reverse engineering and verification of gene networks: Prin- ciples, assumptions, and limitations of present method and future perspectives", Journal of Biotechnology, 144 (2009), 190-203. [5]. K.J. Kauffman, J.D. Pajerowski, N. Jamshidi, B.O. Palsson and J.S. Edwards, "Description and Analysis of Metabolic Connectivity and Dynamics in the Human Red Blood Cell", Biophysical, 83 (2002), 646-662. [6]. Liam Paninski, "Estimation of Entropy and Mutual Information", Neural Computation, 15 (2003), 1191–1253. [7]. P.M. Magwene and J. Kim, "Estimating genomic coexpression networks using first-order condi- tional independence", Genome Biololy, 5:R100 (2004), DOI:10.1186/gb-2004-5-12-r100. [8]. P. Meyer, F. Lafitte and G. Bontempi, "A R/Bioconducto Package for Inferring Large Transcriptional Networks Using Mutual Information", BMC Bioinformatics, 9 (2008), DOI:10.1186/1471-2105-9-461. [9]. I. Nemenman, G.S. Escola, W.S. Hlavacek, P.J. Unkefer, C.J. Unkefer and M.E. Wall, "Re- construction of Metabolic Networks from High-throughput Metabolite Profiling Data: in sil- ico Analysis of Red Blood Cell Metabolism", Ann N. Y. Acad Sci., 1115 (2007), 102-115, DOI:10.1196/annals.1407.013. [10]. Q.D. Nguyen, T.H. Pham, T.B. Ho, V.H. Nguyen and D.H. Tran, "Reconstruction of Triple-wise Relationships in Biological Networks from Profiling Data", The 9th International Conference on Computing and Information Technology-IC2IT , Thailand, May.09-10, 2013, 205-215, DOI:10.1007/978-3-642-37371-8_24. [11]. T.H. Pham, T.B. Ho, Q.D. Nguyen, D.H. Tran and V.H. Nguyen, "Multivariate Mutual Infor- mation Measures for Discovering Biological Networks", The 9th IEEE - RIVF International Conference on Computing and Comunication Technologies Research, Ho Chi Minh city, Vietnam, Feb.27-Mar.01, 2012, 103-108, DOI:10.1109/rivf.2012.6169834. [12]. A.F. Villaverde, J. Ross and J.R. Banga, "Reverse Engineering Cellular Networks with Infor- mation Theoretic Methods", Cells, 2 (2013), 306-329, DOI:10.3390/cells2020306. [13]. K. Wang, M. Saito, B. Bisikirska, M. Alvarez, W. Lim, P. Rajbhandari, Q. Shen, I. Nemenman, K. Basso, A. Margolin, U. Klein, R. Favera and A. Califano, "Genome-wide identification of post- translational modulators of transcription factor activity in human B cells", Nat. Biotechnol, 27 (2009), 829-839. [14]. X. Zhang, X. Zhao, K. He, L. Lu, Y. Cao, J. Liu, J.K. Hao, Z.P. Liu and L. Chan, "Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information", Bioinformatics, 28 (2012), 98-104. Ngày nhận bàu 01 - 10 - 2013 Nhận lại sau sửa ngày 12 - 03 - 2014
File đính kèm:
- cac_do_do_thong_tin_tuong_ho_da_bien_co_dieu_kien.pdf