Dự báo chuỗi thời gian dựa trên Matrix profile

Tóm tắt Dự báo chuỗi thời gian dựa trên Matrix profile: ...m và Tj,m + μi là giá trị trung bình của Ti,m + μj là giá trị trung bình của Tj,m + σi là độ lệch chuẩn của Ti,m + σj là độ lệch chuẩn của Tj,m Trong bài toán này, chuỗi thời gian T sẽ dùng một cửa sổ trượt lần lượt các điểm với chiều dài m (m chính là chiều dài chuỗi con) và sẽ thực hi...on là m 3 for i RandPerm(1: s : (n-m+1)) do 4 seqTi,m 5 d=MASS (T, seq) 6 P,I ElementWiseMin(D, P, i) 7 Pi, Ii min(D) 8 jIi 9 qCalculateDotProduct(Pi, µi, σi, µj, σj), q’=q 10 for k 1 to min(s-1, n-m+1-max(i,j)) 11 qq-ti+k-1tj+k-1+ti+k+m-1tj+k+m-1 12 d CalculateDistance(...,66406374 -54,80957154 0,8544922 520 -56,21338016 -54,80957154 1,40380862 521 -56,21338016 -54,62646607 1,58691409 522 -56,18286258 -54,65698365 1,52587893 523 -56,24389774 -55,26733522 0,97656252 524 -56,48803837 -55,38940554 1,09863283 525 -56,42700321 -55,48095828 0,94604493 526 -56...

pdf11 trang | Chia sẻ: Tài Phú | Ngày: 19/02/2024 | Lượt xem: 101 | Lượt tải: 0download
Nội dung tài liệu Dự báo chuỗi thời gian dựa trên Matrix profile, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
phương pháp mới trong dự đoán chuỗi thời gian sử dụng matrix profile, là một vector 
khoảng cách của các cặp là motif hay những cặp lân cận với nhau. Với việc áp dụng 
thuộc tính Consecutive Neighborhood Preserving (CNP), kết quả thực nghiệm cho 
thấy phương pháp đề xuất có độ chính xác cao hơn và thời gian tính toán nhanh hơn 
các phương pháp trước đó. 
Từ khóa: chuỗi thời gian, motif, dự báo chuỗi thời gian, Consecutive Neighborhood 
Preserving; 
1. ĐẶT VẤN ĐỀ 
Dự báo chuỗi thời gian là một nhu cầu không thể thiếu cho những hoạt động của 
con người trong bối cảnh bùng nổ thông tin. Việc dự báo sẽ cung cấp những cơ sở cần 
thiết cho các hoạch định và có thể nói rằng, nếu không có khoa học dự báo thì những 
dự định tương lai của con người vạch ra sẽ không có sự thuyết phục đáng kể. Các ứng 
dụng của dự báo chuỗi thời gian được sử dụng trong các lĩnh vực: tài chính để dự báo 
giá chứng khoán [1], dự báo kinh doanh xăng dầu [2], dự báo tuyển sinh đại học [3], 
dự báo dân số [3]. 
Đã có nhiều phương pháp dự báo chuỗi thời gian được các nhà nghiên cứu đề 
xuất những năm gần đây. Năm 2009, Jiang đề xuất phương pháp dự báo chuỗi thời 
gian chứng khoán dựa vào thông tin motif [4]. Năm 2007, Lora sử dụng kỹ thuật lân 
cận gần nhất có trong số để dự báo dữ liệu [5]. Năm 2015, cách tiếp cận mới dựa trên 
đại số gia tử theo ngữ nghĩa trong bài toán dự báo chuỗi thời gian mờ đã được Hiếu 
cùng các cộng sự giới thiệu [6]. Năm 2016, Tùng và các cộng sự đã sử dụng chuỗi thời 
gian mờ theo tiếp cận đại số gia tử để dự báo chuỗi thời gian [7]. 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-681- 
Phương pháp dự báo bằng matrix profile là một phương pháp mới áp dụng cho 
chuỗi thời gian. Đây là phương pháp tìm lân cận gần nhất của mỗi chuỗi con trong 
chuỗi thời gian. Dựa vào đặc tính lân cận gần nhất, ta có thể đưa ra dự đoán về các giá 
trị tiếp diễn trong chuỗi thời gian. Phương pháp được thử nghiệm trên tập dữ liệu 
neuroscience cho kết quả tốt hơn về độ chính xác và thời gian. 
2. PHƯƠNG PHÁP DỰ ĐOÁN CHUỖI THỜI GIAN 
6.1. Nền tảng lý thuyết 
2.1.1. Chuỗi thời gian: Nếu T là một chuỗi thời gian thì T=(t1, t2,,tn) gồm tập hợp n 
số có giá trị thực theo thời gian [8]. 
2.1.2. Chuỗi con: Cho một chuỗi thời gian T = (t1, t2, tn), một chuỗi con có chiều dài n của T là một 
chuỗi Ti, n = (ti, ti+1,, ti+n-1) với 1≤ i ≤ m-n+1 [8]. 
2.1.3. Các định nghĩa về matrix profile 
Định nghĩa 1: Một Matrix distances Di tương ứng với chuỗi con Ti, m và chuỗi 
thời gian T là một vectơ của khoảng cách Euclide giữa một chuỗi con đã cho Ti, m và 
mỗi chuỗi con trong chuỗi thời gian T. Hoặc Di = [di, 1, di, 2,..., di, n-m + 1], trong đó di, j 
(1≤ j ≤ n - m + 1) là khoảng cách giữa Ti, m và Tj, m [9]. 
Định nghĩa 2: Một Matrix profile P của chuỗi thời gian T là một vector của 
khoảng các Euclide giữa mỗi chuỗi con của T và lân cận gần nhất trong T, khái niệm 
lân cận gần nhất có nghĩa là hai cặp chuỗi con có khoảng cách nhỏ nhất so với các 
chuỗi con khác. Hay, 
P = [min(D1), min(D2),,min(Dn-m+1)], trong đó Di (1 ≤ i ≤ n-m+1) là Matrix 
distances Di tương ứng với truy vấn Ti,m và chuỗi thời gian T [9]. 
Trong Hình 1 thể hiện mối quan hệ giữa khoảng cách ma trận, Matrix distances 
và Matrix profile. Mỗi thành phần của ma trận khoảng cách di,j là khoảng cách giữa 
Ti,m và Tj,m (1 ≤ i, j ≤ n-m+1) trong chuỗi thời gian T. 
Hình 1. Mối quan hệ giữa khoảng cách ma trận, Matrix distances và Matrix profile ([9]). 
Chỉ số i trong Matrix profile P nói chúng ta khoảng cách Euclide giữa chuỗi con 
Ti, m với lân cận gần nhất trong chuỗi thời gian T. Tuy nhiên, nó không nói lên vị trí 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-682- 
của các lân cận gần nhất, vì vậy khái niệm chỉ số Matrix profile được đưa ra: 
Định nghĩa 3: Matrix profile index I của chuỗi thời gian T là một vector các số 
nguyên: I= [I1, I2,  In-m+1], trong đó Ii=j nếu di,j = min(Di) [9]. 
Hình 2. Ví dụ về Matrix profile index của môt chuỗi thời gian ([9]). 
Vị trí giá trị tối thiểu trong mỗi cột được lưu trữ cùng với Matrix profile index. 
6.2. Thuật toán 
Thuật toán SCRIMP++ là thuật toán được kết hợp 2 thuật toán: PreSCRIMP và 
SCRIMP. Thuật toán PreSCRIMP là thuật toán thuộc phương pháp tìm kiếm motif gần 
đúng, nó có độ phức tạp là O(n2logn/s). Thuật toán SCRIMP là thuật toán thuộc 
phương pháp tìm kiếm chính xác và nó có độ phức tạp O(n2). Thuật toán SCRIMP sử 
dụng thuật toán PreSCRIMP làm tiền xử lý chuỗi thời gian, nó có khả năng phát hiện 
motif trong chuỗi thời gian và nó chỉ tìm ra được Matrix Profile gần đúng. Từ Matrix 
Profile gần đúng đó sẽ làm input cho thuật toán SCRIMP để tìm ra được Matrix 
Profile chính xác. Đó chính là ý tưởng của thuật toán SCRIMP++ [9]. Đối với những 
bài toán có dữ liệu xử lí lớn thì giải thuật SCRIMP++ vẫn có thể thực hiện được, ta có 
thể dừng bất kì thời điểm nào để tìm ra motif mà không nhất thiết phải duyệt hết chuỗi 
thời gian. 
6.2.1. Thuật toán SCRIMP: Trước khi đi vào thuật toán SCRIMP ta xem lại công 
thức chuẩn hóa z trong khoảng cách distance di,j của hai chuỗi con Ti,m và Tj,m với công 
thức sau đây: 
 di,j= (1) 
Trong đó: 
+ m là độ dài chuỗi con 
+ Qi,j là chập các điểm trong Ti,m và Tj,m 
+ μi là giá trị trung bình của Ti,m 
+ μj là giá trị trung bình của Tj,m 
+ σi là độ lệch chuẩn của Ti,m 
+ σj là độ lệch chuẩn của Tj,m 
Trong bài toán này, chuỗi thời gian T sẽ dùng một cửa sổ trượt lần lượt các điểm 
với chiều dài m (m chính là chiều dài chuỗi con) và sẽ thực hiện chuẩn hóa mỗi lần 
trượt. Việc chuẩn hóa ngay trong bước trượt lấy chuỗi con sẽ giúp tiết kiệm thời gian 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-683- 
hơn, vì ta bỏ được một vòng lặp đề cắt ra chuỗi con, lưu trữ xuống và chuẩn hóa từng 
chuỗi con. 
Thuật toán SCRIMP được trình bày như trong Bảng 1 dưới đây: 
Bảng 1. Thuật toán SCRIMP[9]. 
Thuật toán SCRIMP 
Input: Một chuỗi thời gian T và một độ dài chuỗi con m 
Output: Matrix profile P và matrix profile index I của chuỗi thời gian T 
1 n  độ dài chuỗi thời gian T 
2 Tính µ, σ của chuỗi thời gian T với độ dài chuỗi con là m 
3 Khởi tạo giá trị ban đầu: P infs, I ones 
4 Orders RandPerm(m/4+1:n-m+1) // đánh giá giá trị order ngẫu nhiên 
5 for k in Orders 
6 for i 1 to n-m+2-k 
7 if i=1 do q DotProduct(T1,m , Tk,m) 
8 else q q-ti-1ti+k-2 + ti+m-1ti+k+m-2 
9 end if 
10 d CalculateDistance(q, µi, σi, µi+k-1, σi+k-1) 
11 if d<Pi do Pi d, Ii i+k-1 end if 
12 if d<Pi+k-1 do Pi+k-1d, Ii+k-1 i end if 
13 end for 
14 end for 
15 return P,I 
Ở dòng 2 tính tính toán các giá trị trung bình và độ lệch chuẩn của tất cả các 
chuỗi con trong T. Matrix profile P và Matrix profile index I được khởi tạo giá tri ban 
đầu tại dòng 3. Từ dòng 5-14, sử dụng 2 vòng lặp lồng nhau để đánh giá đường chéo 
của Distance matrix một cách ngẫu nhiên, việc tính toán theo đường chéo một cách 
ngẫu nhiên sẽ khắc phục trường hợp nếu như motif cần tìm nằm ở các vị trí cuối của 
chuỗi thời gian, thì cần phải chạy xong hết thuật toán mới tìm ra motif (Như trong 
thuật toán STOMP [10]). Còn thuật toán SCRIMP đánh giá ngẫu nhiên theo đường 
chéo thì ở những lần chạy đầu tiên, ta có thể tìm ra được motif cần tìm, nó phù hợp với 
những bài toán dữ liệu quá nhiều và ta không muốn mất nhiều thời gian để duyệt hết 
chuỗi thời gian mà vẫn có thể tìm ra motif. 
2.2.2. Thuật toán preSCRIMP 
Nhìn lại Hình 2 là một ví dụ về một index profile index. Chỉ số Index = [1,2,3,..., 
n-m+1] là vị trí các chuỗi con trong chuỗi thời gian T, I là matrix profile index. Ta có 
dễ dàng nhận thấy matrix index có các khoảng có giá trị liên tiếp nhau. Tương ứng các 
giá trị liên tiếp trong index là các giá trị liên tiếp trong I và đó cũng là các lân cận gần 
nó nhất, đó chính là Consecutive Neighborhood Preserving (CNP). Theo như CNP, 
nếu i và j là lân cận của nhau thì khả năng cao i+1 cũng là lân cận của j+1. Trong Hình 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-684- 
3 các chuỗi con thứ 11, 12, 13, 14 tương ứng với các chuỗi con là lân cận gần nhất của 
nó với các chuỗi thứ 136, 137, 138, 139. 
Hình 3. Thuộc tính Consecutive Neighborhood Preserving (CNP) ([9]). 
Dựa vào thuộc tính CNP, ý tưởng đề ra thuật toán tiền xử lý preSCRIMP để tìm 
ra một matrix profile xấp xỉ với thời gian chạy nhanh hơn rất nhiều so với thuật toán 
SCRIMP. Đối với mỗi lần lấy mẫu, ta tìm lân cận gần nhất của mẫu. Giả sử Ti,m là một 
chuỗi con được lấy mẫu và Tj,m là lân cận gần nhất của chuỗi con Ti,m. Theo như CNP 
thì chuỗi Ti+k,m có thể có lân cận gần với nó là chuỗi con Tj+k,m ( k= -s+1, -s+2, ..., -2, -
1, 1, 2, ..., s-2, s-1) và s là khoảng thời gian lấy mẫu. 
Trong thuật toán preSCRIMP [9] để tìm ra được matrix profile và matrix profile 
index, nó sử dụng thuật toán để tính distance profile đó là thuật toán MASS (Mueen’s 
ultra-fast Algorithm for Similarity Search). Thuật toán MASS không chỉ trả về khoảng 
cách của các chuỗi con gần nó nhất mà còn trả về khoảng cách của mọi chuỗi con. 
Bảng 2. Thuật toán preSCRIMP [9]. 
Thuật toán PreSCRIMP 
Input: Một chuỗi thời gian T, một độ dài chuỗi con m và một khoảng lấy mẫu s 
Output: Matrix profile P và matrix profile index I của chuỗi thời gian T 
1 n  độ dài chuỗi thời gian T, P infs, I ones 
2 Tính µ, σ của chuỗi thời gian T với độ dài chuỗi con là m 
3 for i RandPerm(1: s : (n-m+1)) do 
4 seqTi,m 
5 d=MASS (T, seq) 
6 P,I ElementWiseMin(D, P, i) 
7 Pi, Ii min(D) 
8 jIi 
9 qCalculateDotProduct(Pi, µi, σi, µj, σj), q’=q 
10 for k 1 to min(s-1, n-m+1-max(i,j)) 
11 qq-ti+k-1tj+k-1+ti+k+m-1tj+k+m-1 
12 d CalculateDistance(q, µi+k, σi+k, µj+k, σj+k) 
13 if d<Pi+k do Pi+kd, Ii+kj+k end if 
14 if d<Pj+k do Pj+kd, Ij+ki+k end if 
15 end for 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-685- 
16 q q’ 
17 for k 1 to min(s-1, i-1, j-1) do 
18 q q-ti-k+mtj-k+m+ti-ktj-k 
19 d CalculateDistance(q, µi-k, σi-k, µj-k, σj-k) 
20 if d<Pi-k do Pi-kd, Ii-kj-k end if 
21 if d<Pj-k do Pj-kd, Ij-ki-k end if 
22 end for 
23 end for 
24 return P,I 
Tại dòng 4-7 tính distance profile tương ứng với chuỗi con mẫu Ti,m hiện tại bằng 
thuật toán MASS, sau đó cập nhật matrix profile và matrix profile index đang chạy nếu 
tìm được giá trị khoảng cách nhỏ hơn. 
Tại dòng 8-22, tinh chỉnh matrix profile và matrix profile index đang chạy gần 
chỉ mục thứ i bằng thuộc tính CNP (Consecutive Neighborhood Preserving (CNP) 
Property). Bắt đầu từ chuỗi con mẫu Ti,m hiện tại, tiến hành đánh giá khoảng cách từng 
đôi một giữa (Ti+1,m, Tj+1,m), (Ti+2,m, Tj+2,m), , cho đến khi đạt được vị trí lấy mẫu 
tiếp theo hoặc kết thúc chuỗi thời gian (tại dòng 10-15). Sau đó đi ngược từ Ti,m và 
Tj,m để tính toán khoảng cách từng đôi một giữa (Ti-1,m, Tj-1,m), (Ti-2,m, Tj-2,m), , cho 
đến khi đạt được vị trí lấy mẫu trước đó hoặc vị trí bắt đầu chuỗi thời gian (dòng 17-
22). Matrix profile và matrix profile index được cập nhật tương ứng khi tìm được một 
giá trị khoảng cách nhỏ hơn. 
Sau khi chạy thuật toán preSCRIMP, tiếp tục tinh chỉnh matrix profile bằng thuật 
toán SCRIMP, cho đến khi thuật toán cho một kết quả chính xác. Trong quá trình chạy 
thuật toán SCRIMP++, ta có thể dừng bất cứ lúc nào chứ không nhất thiết phải đợi 
thuật toán chạy xong hoàn toàn và kết quả cho ra sẽ là một Matrix profile xấp xỉ và có 
tìm được motif của chuỗi thời gian này. 
6.3. Phương pháp đề xuất 
Dựa vào kết quả của thuật toán SCRIMP++, ta có thể dùng matrix profile để thực 
hiện bài toán dự đoán. Khi biết được Matrix profile, ta có thể biết được các cặp chuỗi 
giống nhau nhất. Sau đó dựa vào thuộc tính CNP được giới thiệu trong thuật toán 
preSCRIMP, ta có thể dự đoán chuỗi xuất hiện phía sau chuỗi cuối cùng trong chuỗi 
thời gian, đó cũng chính là chuỗi thời gian cần dự đoán. 
Tuy nhiên, do các chuỗi con có các biên độ khác nhau ở các vị trí. Vì vậy, để đưa 
ra chuỗi dự đoán ta cần đưa chuỗi dự đoán có biên độ gần sát với biên độ chuỗi thực 
tế. Để thực hiện việc chuẩn hóa biên độ ta thực hiện như sau: Lấy giá trị điểm sau cùng 
của chuỗi lân cận tìm được trừ cho điểm sau cùng của chuỗi cuối cùng trong chuỗi thời 
gian, khi đó ta sẽ có một giá trị độ lệch của 2 điểm này. Tiếp tục ta tiến hành tìm chuỗi 
dự đoán và chuẩn hóa biên độ bằng cách: Lấy từng điểm của chuỗi sau chuỗi lân cận 
cộng với độ lệch để tìm ra chuỗi dự đoán. 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-686- 
7. THỬ NGHIỆM 
Bộ dữ liệu Neuroscience là bộ dữ liệu về khoa học thần kinh của con người. 
Được các nhà khoa học nghiên cứu và giới thiệu trên nhiều nguồn tài liệu như: sách, 
báo, website. Bộ dữ liệu Neuroscience được ứng dụng nhiều trong lĩnh vực y khoa 
như: dự báo chấn thương sọ não, phát hiện ung thư não,... . Đã có một số nghiên cứu 
về việc xử lý và phân tích dữ liệu này để ứng dụng trong thực tế một cách hiệu quả 
hơn [11]. 
Chạy thực nghiệm trên dữ liệu Neuroscience ở các trường hợp cho kết quả như 
các hình dưới đây: 
+ Trường hợp 1: Độ dài chuỗi thời gian: 512 điểm, độ dài chuỗi con: 80 điểm, độ 
dài chuỗi dự đoán: 20 điểm. 
Bảng 3. Kết quả thực nghiệm trường hợp 1. 
Điểm Giá trị thật Giá trị dự đoán Chênh lệch 
513 -55,66406374 -55,32837038 0,33569336 
514 -55,69458132 -55,02319459 0,67138673 
515 -55,66406374 -54,80957154 0,8544922 
516 -55,84716922 -54,68750123 1,15966799 
517 -55,93872195 -54,56543091 1,37329104 
518 -55,69458132 -54,59594849 1,09863283 
519 -55,66406374 -54,80957154 0,8544922 
520 -56,21338016 -54,80957154 1,40380862 
521 -56,21338016 -54,62646607 1,58691409 
522 -56,18286258 -54,65698365 1,52587893 
523 -56,24389774 -55,26733522 0,97656252 
524 -56,48803837 -55,38940554 1,09863283 
525 -56,42700321 -55,48095828 0,94604493 
526 -56,42700321 -55,41992312 1,00708009 
527 -56,51855595 -55,48095828 1,03759767 
528 -56,70166142 -55,57251101 1,12915041 
529 -56,64062627 -55,78613406 0,85449221 
530 -56,70166142 -56,12182743 0,57983399 
531 -56,97631963 -56,42700322 0,54931641 
532 -57,22046026 -56,51855596 0,7019043 
Theo như kết quả trong Bảng 3, sự chênh lệch giá trị giữa chuỗi dự đoán và chuỗi 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-687- 
thật không quá lớn. Chênh lệch lớn nhất trong trường hợp này xấp xỉ 1,5. Theo dõi 
biểu đồ được thể hiện trong Hình 4 dưới đây để quan sát sự chênh lệch (Chuỗi màu 
xanh là chuỗi thực tế và chuỗi màu đỏ là chuỗi dự đoán). 
Hình 4. Kết quả chuỗi dự đoán thực nghiệm trong trường hợp 1. 
+ Trường hợp 2: Độ dài chuỗi thời gian: 1024 điểm, độ dài chuỗi con: 100 điểm, 
độ dài chuỗi dự đoán: 25 điểm. 
Bảng 4: Kết quả thực nghiệm trường hợp 2 
Điểm Giá trị thật Giá trị dự đoán Chênh lệch 
1025 -55,7556 -56,0913 0,335693 
1026 -55,4504 -55,8472 0,396729 
1027 -55,2979 -55,4504 0,152588 
1028 -55,1453 -55,2368 0,091553 
1029 -55,0232 -54,9011 0,12207 
1030 -54,8706 -54,5959 0,274658 
1031 -54,8706 -54,657 0,213623 
1032 -54,7791 -54,5959 0,183105 
1033 -54,5654 -54,4739 0,091553 
1034 -54,5654 -54,4434 0,12207 
1035 -54,7485 -54,6875 0,061035 
1036 -54,5959 -54,718 0,12207 
1037 -54,1992 -54,3518 0,152588 
1038 -54,1687 -54,0161 0,152588 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-688- 
Theo như kết quả trong Bảng 4, chuỗi dự đoán và chuỗi thực tế có sự chênh lệch 
không quá lớn. Sự chênh lệch lớn nhất là 1,15. Biểu đồ trong Hình 5 thể hiện trực quan 
kết quả thực nghiệm. 
Hình 5. Kết quả chuỗi dự đoán thực nghiệm trong trường hợp 2 
+ Trường hợp 3: Độ dài chuỗi thời gian: 2048 điểm, độ dài chuỗi con: 40 điểm, độ 
dài chuỗi dự đoán: 10 điểm. 
Bảng 5. Kết quả thực nghiệm trường hợp 3. 
Điểm Giá trị thật Giá trị dự đoán Chênh lệch 
2049 -57,58667121 -57,5866712 0,00000001 
1039 -53,894 -54,1077 0,213623 
1040 -53,5584 -53,9246 0,366211 
1041 -53,1616 -53,5278 0,366211 
1042 -52,948 -53,6499 0,701904 
1043 -52,9175 -53,7415 0,823975 
1044 -52,7649 -53,894 1,12915 
1045 -52,8564 -53,9856 1,12915 
1046 -53,009 -54,1382 1,12915 
1047 -53,0701 -54,1992 1,12915 
1048 -52,948 -54,2603 1,312256 
1049 -53,1616 -54,3213 1,159668 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-689- 
2050 -57,7392591 -57,7392591 0 
2051 -57,70874152 -57,83081183 0,12207031 
2052 -57,43408332 -57,61718878 0,18310546 
2053 -57,76977668 -57,83081183 0,06103515 
2054 -58,10547005 -58,31909309 0,21362304 
2055 -58,01391731 -58,31909309 0,30517578 
2056 -57,80029426 -58,25805794 0,45776368 
2057 -57,891847 -58,25805794 0,36621094 
2058 -57,80029426 -58,10547004 0,30517578 
Hình 6. Kết quả chuỗi dự đoán thực nghiệm trong trường hợp 3. 
Thực nghiệm ở trường hợp số 3, với độ dài chuỗi dự đoán là 10 điểm thì sự 
chênh lệch giữa chuỗi thực tế và chuỗi dự đoán cũng không có quá nhiều sự khác biệt. 
Kết quả được thể hiện trong Bảng 5 và Hình 6. 
8. KẾT LUẬN 
Qua các trường hợp thực nghiệm cho thấy, kết quả dự đoán cho giá trị gần bằng 
giá trị thực. Các xu hướng tăng giảm trên chuỗi thời gian ở kết quả dự đoán tương tự 
giá trị thật. Từ đó cho thấy, phương pháp tìm motif bằng matrix profile để dự đoán có 
kết quả tương đối tốt và có thể áp dụng được trong thực tế. Hướng phát triển tiếp theo 
có thể là dựa vào các chuỗi con khác nhau để dự đoán chuỗi thời gian chứ không xét 
một chuỗi con. 
Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải 
-690- 
LỜI CẢM ƠN 
Nghiên cứu này được tài trợ bởi Trường đại học Giao thông vận tải và Phân hiệu 
Trường đại học Giao thông vận tải tại thành phố Hồ Chí Minh trong khuôn khổ đề tài 
mã số T2020-PHII-003. 
TÀI LIỆU THAM KHẢO 
[1]. N. M. Dũng, “Dự báo giá chứng khoán bằng phương pháp chuỗi thời gian,” 
Trường đại học Khoa học tự nhiên, Hà Nội, 2014. 
[2]. T. V. T. Em, “Nghiên cứu ứng dụng chuỗi thời gian trong việc dự báo kinh doanh 
xăng dầu”. 
[3]. N. V. Tính and N. C. Điều, “Dự báo chuỗi thời gian mờ dựa trên nhóm quan hệ 
mờ phụ thuộc thời gian và tối ưu bầy đàn,” in Kỷ yếu Hội nghị Khoa học Quốc gia lần 
thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”, Cần Thơ, 
2016. 
[4]. Z. Q. Jiang and W. J. Xie, “ Trading networks, abnormal motifs and stock 
manipulation”, Quantitative Finance Letters, 2013. 
[5]. A. T. Lora, J. M. R. Santos, A. G. Expósito and J. L. M. Ramos, “ Electricity 
Market Price Forecasting Based onWeighted Nearest Neighbors Techniques”, IEEE 
TRANSACTIONS ON POWER SYSTEMS, VOL. 22, NO. 3, AUGUST 2007. 
[6]. N. D. Hiếu, V. N. Lân và N. C. Hồ, “Dự báo chuỗi thời gian mờ dựa trên ngữ 
nghĩa”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng 
Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 
[7]. H. Tùng, N. Đ. Thuân và V. M. Lộc, “Phương pháp dự báo chuỗi thời gian trên 
chuỗi thời gian mờ theo tiếp cận đại số gia tử”, Kỷ yếu Hội nghị Khoa học Quốc gia 
lần thứ IX , Cần Thơ, 2016, 10.1562. 
[8]. A. Mueen, E. Keogh , Q. Zhu, S. Cash and B. Westover, "Exact Discovery of 
Time Series Motifs".University of California. 
[9]. Y. Zhu, C. M. Yeh, Z. Zimmerman, K. Kamgar and E. Keogh, "Matrix Profile XI: 
SCRIMP++: Time Series Motif Discovery at Interactive" in IEEE International 
Conference on Data Mining (ICDM), 2018. 
[10]. Y. Zhu and Z. Zimmerman, "Matrix Profile II: Exploiting a Novel Algorithm and 
GPUs to Break the One Hundred Million Barrier for Time Series Motifs and Joins", 
EEE ICDM, 2016. 
[11]. A. Bhagchandani, D. Bhatt and M. Chopade, “Various Big Data Techniques to 
Process and Analyze Neuroscience Data”, Proceedings of the 12th INDIACom; 
INDIACom-2018; IEEE Conference ID: 42835 2018 5th International Conference on 
“Computing for Sustainable Global Development”, 14th - 16th March, 2018. 

File đính kèm:

  • pdfdu_bao_chuoi_thoi_gian_dua_tren_matrix_profile.pdf