Các mẫu dịch vụ thông tin - Phần 2: Mẫu hợp nhất dữ liệu

Tóm tắt Các mẫu dịch vụ thông tin - Phần 2: Mẫu hợp nhất dữ liệu: ...nh hợp nhất dữ liệu có thể truy cập và có thể tái sử dụng của SOA Trường hợp sử dụng SOA thứ ba: Trường hợp sử dụng SOA thứ ba là một sự kết hợp của hai mẫu: hợp nhất dữ liệu và xuất bản dữ kiện hoặc thay đổi việc bắt giữ dữ liệu, như trong Hình 4. Hình 4. Hợp nhất dữ liệu kết hợp với việc... Sau khi thu gom dữ liệu thông qua các đầu nối, nhiệm vụ chính của máy chủ hợp nhất là xử lý dữ liệu theo đặc tả luồng dữ liệu. Máy chủ hợp nhất phân giải các xung đột giữa các luồng dữ liệu nguồn, nối dữ liệu với nhau hoặc chia tách nó ra thành từng phần, chuyển đổi dữ liệu tương ứng với mô ... được lấy ra trực tiếp từ cơ sở dữ liệu đích. Do đó, chỉ có máy chủ cơ sở dữ liệu đích quyết định các đặc điểm hiệu năng của cách tiếp cận này. Quá trình hợp nhất để di chuyển dữ liệu từ các nguồn đến cơ sở dữ liệu đích được thiết kế để hỗ trợ một khối lượng dữ liệu lớn. Do bản chất tách rời...

pdf20 trang | Chia sẻ: havih72 | Lượt xem: 131 | Lượt tải: 0download
Nội dung tài liệu Các mẫu dịch vụ thông tin - Phần 2: Mẫu hợp nhất dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
DB2 hoặc Oracle -- để thu gom thông 
tin và xử lý các đặc điểm giao diện đặc trưng cho nguồn có hiệu quả nhất. Vì lý do 
đó, các đầu nối hỗ trợ các giao diện khác nhau đối với các nguồn và cung cấp một 
giao diện chung cho máy chủ hợp nhất cốt lõi. 
Sau khi thu gom dữ liệu thông qua các đầu nối, nhiệm vụ chính của máy chủ hợp 
nhất là xử lý dữ liệu theo đặc tả luồng dữ liệu. Máy chủ hợp nhất phân giải các 
xung đột giữa các luồng dữ liệu nguồn, nối dữ liệu với nhau hoặc chia tách nó ra 
thành từng phần, chuyển đổi dữ liệu tương ứng với mô hình đích và có thể xử lý dữ 
liệu bằng cách tra tìm thêm với các nguồn khác. Là một phần của quá trình này, dữ 
liệu được thu gom từ các bnguồn và đang được chuyển đổi có thể cần được duy trì 
tạm thời trong các vùng được gọi là các vùng trung gian. 
Một khi cấu trúc dữ liệu đã xử lý phù hợp với mô hình đích, máy chủ hợp nhất áp 
dụng dữ liệu cho mô hình đích, có thể sử dụng lại một lần nữa các đầu nối đặc 
trưng cho mô hình đích. 
Mặc dù một máy chủ hợp nhất có thể xử lý các bản ghi duy nhất, hầu hết các việc 
thực hiện đều được nhắm vào việc di chuyển một số lượng lớn dữ liệu từ nhiều 
nguồn khác nhau tới một hoặc nhiều mô hình đích. Việc này thường được gọi là di 
chuyển dữ liệu gói. Một số sản phẩm thực hiện mẫu này đã khai thác chế độ song 
song để xử lý dữ liệu hiệu quả hơn. 
Về đầu trang 
Những việc cần xem xét 
Khi áp dụng mẫu hợp nhất dữ liệu, điều quan trọng cần hiểu xem mẫu đó ảnh 
hưởng đến các yêu cầu phi chức năng sau đây như thế nào. 
Bảo mật dữ liệu 
Cấu hình bảo mật trong cơ sở dữ liệu đích -- các dịch vụ được định nghĩa trên đó -- 
là độc lập với các nguồn. Như chúng ta đã đề cập trước đây, mẫu này thường được 
áp dụng để di chuyển dữ liệu trong chế độ theo gói/theo nhóm từ các nguồn tới cơ 
sở dữ liệu đích. Quá trình này thường được áp dụng cho tập hợp dữ liệu đầy đủ 
trong các nguồn -- có nghĩa là, không có các hạn chế nào về bảo mật. Thông 
thường, cơ sở dữ liệu đích được tạo ra khi áp dụng mẫu hợp nhất lần đầu tiên, do 
đó không có sẵn bất kỳ việc kiểm soát quyền truy cập nào và có thể cần định nghĩa 
việc kiểm soát này. Mỗi nguồn dữ liệu có thể có những hạn chế bảo mật của riêng 
mình, có thể cần phải giải quyết những hạn chế đó để cho phép truy cập và lấy ra 
dữ liệu một cách thích hợp. 
Do tính chất không đồng nhất và phân tán của môi trường này, nên có một số thách 
thức liên quan đến việc đăng nhập một lần và kiểm soát truy cập chung có thể phát 
sinh nằm ngoài phạm vi của mẫu hợp nhất dữ liệu. Để giải quyết những thách thức 
đó, các kiến trúc sư sẽ cần kết hợp mẫu hợp nhất dữ liệu với các mẫu liên quan đến 
bảo mật. 
Độ trễ của dữ liệu 
Thông thường, độ trễ của dữ liệu hoặc sự lưu thông của dữ liệu phụ thuộc vào chu 
kỳ làm mới của quá trình hợp nhất dữ liệu. 
Về mặt lịch sử, có thể khởi động quá trình hợp nhất dữ liệu theo một lịch biểu thời 
gian trên cơ sở định kỳ, chẳng hạn như hàng tuần hoặc hàng ngày. Sau khi áp dụng 
dữ liệu hợp nhất cho cơ sở dữ liệu đích, theo truyền thống sẽ không làm mới dữ 
liệu này trước chu kỳ tiếp theo. Gần đây, người ta đã cải thiện vấn đề độ trễ này 
bằng việc sắp xếp giai đoạn hợp nhất với quy trình nghiệp vụ thích hợp. Như thể 
hiện trong Hình 3, một hoạt động trong một quy trình nghiệp vụ hoặc một ứng 
dụng có thể gọi quá trình hợp nhất. Việc này cho phép làm mới dữ liệu hợp nhất 
thông qua một dịch vụ ngay trước khi cần sử dụng dữ liệu đó. 
Việc kết hợp mẫu hợp nhất dữ liệu với mô hình xuất bản sự kiện dữ liệu, như thể 
hiện trong Hình 4, tiếp tục cải thiện sự lưu thông của dữ liệu. Cần bắt giữ các thay 
đổi trong các nguồn khi chúng xảy ra và sau đó ngay lập tức hợp nhất chúng vào 
cơ sở dữ liệu đích. 
Tính dễ thay đổi của dữ liệu nguồn 
Dữ liệu trong các nguồn càng hay thay đổi giữa các chu kỳ làm mới của quá trình 
hợp nhất, thì dữ liệu càng trở nên cũ hơn tại đích. Để tăng tính nhất quán giữa dữ 
liệu nguồn và dữ liệu đích, các thay đổi của nguồn có thể kích hoạt để thực hiện 
giai đoạn hợp nhất thông qua việc xuất bản dữ kiện. Ngoài ra, có thể gọi quá trình 
hợp nhất thông qua một ứng dụng hoặc một hoạt động trong một quy trình nghiệp 
vụ có biết đến các thay đổi nguồn. Tuy nhiên, một chu kỳ làm mới thường xuyên 
hơn có thể có ảnh hưởng tiêu cực đến việc sử dụng tài nguyên. Cụ thể là nếu không 
phối hợp chu kỳ này với các yêu cầu của ứng dụng khách hàng, thì có thể thường 
xuyên làm mới dữ liệu đích trong khi nó vẫn chưa được dùng, dẫn đến việc sử 
dụng tài nguyên kém hiệu quả. 
Tính nhất quán và chất lượng của dữ liệu 
Cách tiếp cận hợp nhất có lợi thế đặc biệt đối với việc cung cấp các cơ cấu mạnh 
mẽ để có thể giải quyết các tình huống trong đó dữ liệu nguồn có chất lượng và 
tính nhất quán dữ liệu ở một mức thấp. Các hoạt động làm sạch, tiêu chuẩn hoá và 
chuyển đổi dữ liệu phức tạp chỉ làm kéo dài thời gian của quá trình hợp nhất, 
nhưng không ảnh hưởng đến thời gian đáp ứng hoặc khả năng mở rộng quy mô của 
yêu cầu dịch vụ với dữ liệu đích. 
Tính sẵn dùng của dữ liệu 
Tính sẵn dùng của dữ liệu tích hợp trong hệ thống đích chỉ phụ thuộc vào tính sẵn 
sàng của hệ thống đích, chẳng hạn như một cơ sở dữ liệu. Quá trình hợp nhất dữ 
liệu và điền nó vào hệ thống đích được tách ra khỏi luồng yêu cầu khi một người 
dùng truy cập dữ liệu trong hệ thống đích. Theo quan điểm của người dùng, việc 
truy cập dữ liệu hợp nhất trong hệ thống đích có các đặc điểm về tính sẵn dùng 
giống như khi truy cập bất kỳ dữ liệu nào khác trong hệ thống này. Vì vậy, có thể 
áp dụng bất kỳ các cách tiếp cận nào để làm tăng tính sẵn dùng của dữ liệu trong 
lúc kết hợp với mẫu hợp nhất dữ liệu. Do sự hợp nhất dữ liệu chỉ có một đích duy 
nhất, nên việc áp dụng công nghệ để cải thiện tính sẵn dùng tương đối dễ dàng -- 
như việc phân cụm chẳng hạn. Mẫu này là một cách tiếp cận được ưa thích nếu bắt 
buộc dữ liệu phải có tính sẵn dùng cao. 
Ảnh hưởng của các thay đổi mô hình đến mô hình tích hợp 
Khi thay đổi bất kỳ trong số các mô hình nguồn nào, đặc tả luồng dữ liệu và có lẽ 
cả mô hình đích sẽ cần được điều chỉnh. Nếu cần sửa đổi mô hình đích, thì dữ liệu 
đích sẽ cần được điều chỉnh cho phù hợp. Tùy thuộc vào các thay đổi cần thiết, 
việc này có thể có ảnh hưởng rất ít hoặc rất nhiều đến tính sẵn sàng của dịch vụ. 
Tần suất thực hiện giao dịch 
Tần suất của các yêu cầu dịch vụ đối với cơ sở dữ liệu đích hợp nhất chỉ được xác 
định bằng khả năng của cơ sở dữ liệu đích và thành phần hỗ trợ dịch vụ thông tin 
để xử lý những yêu cầu đó. Do cơ sở dữ liệu đích được tạo ra chuyên để hỗ trợ 
những yêu cầu dịch vụ đó, nên mẫu này là một cách tiếp cận ưa thích cho các yêu 
cầu thực hiện giao dịch rất thường xuyên. 
Khả năng của chính máy chủ hợp nhất để chạy một giao dịch chuyển dữ liệu ở tốc 
độ cao được xác định bằng tốc độ mà máy chủ hợp nhất có thể truy cập các hệ 
thống nguồn và các hệ thống nguồn có thể đáp ứng để cung cấp dữ liệu. Do cách 
tiếp cận tách rời mà chúng ta đã thảo luận ở trên, điều này không ảnh hưởng đến 
tần suất có thể thực hiện các yêu cầu dịch vụ đối với cơ sở dữ liệu đích. 
Sự tương tranh của giao dịch 
Các đặc điểm hiệu năng của máy chủ cơ sở dữ liệu đích quyết định việc quản lý 
hiệu quả truy cập tương tranh. Điều này là do cách tiếp cận tách rời của mô hình 
này. 
Hiệu năng/Thời gian đáp ứng giao dịch 
Các đặc điểm của máy chủ cơ sở dữ liệu đích quyết định chính đến thời gian đáp 
ứng giao dịch của một yêu cầu dịch vụ đối với cơ sở dữ liệu đích hợp nhất. Điều 
này là do cách tiếp cận tách rời của mô hình này. 
Lược tả Tạo-Đọc-Cập nhật-Xóa 
Mẫu hợp nhất dữ liệu di chuyển dữ liệu chỉ theo một hướng từ các nguồn đến đích. 
Các thay đổi bên ngoài đến kho lưu trữ dữ liệu đích nằm ngoài phạm vi của mẫu 
này. Như vậy mẫu này sẽ không truyền các thay đổi quay trở về nguồn và các thay 
đổi có thể bị ghi đè trong chu kỳ làm mới tiếp theo của cơ sở dữ liệu đích. Vì vậy, 
thường chỉ áp dụng mẫu này trong các tình huống ở đó việc truy cập chỉ đọc đến 
cơ sở dữ liệu đích là đủ. 
Khối lượng dữ liệu cho mỗi giao dịch 
Dữ liệu được trưng ra trong yêu cầu dịch vụ với kho lưu trữ dữ liệu đích hợp nhất 
được lấy ra trực tiếp từ cơ sở dữ liệu đích. Do đó, chỉ có máy chủ cơ sở dữ liệu 
đích quyết định các đặc điểm hiệu năng của cách tiếp cận này. 
Quá trình hợp nhất để di chuyển dữ liệu từ các nguồn đến cơ sở dữ liệu đích được 
thiết kế để hỗ trợ một khối lượng dữ liệu lớn. Do bản chất tách rời của cách tiếp 
cận này, nên có thể xử lý hiệu quả các yêu cầu dịch vụ tới cơ sở dữ liệu đích ngay 
cả với các khối lượng dữ liệu lớn. Điều này cũng đúng cho chính quá trình di 
chuyển dữ liệu. 
Thời gian phân phối giải pháp 
Nhiều việc thực hiện sản phẩm của mẫu hợp nhất dữ liệu thường cung cấp sự hỗ 
trợ công cụ rất tinh vi để xác định các ánh xạ (các luồng dữ liệu) giữa các nguồn và 
đích. Nhiều việc thực hiện trong số các việc thực hiện này đã định nghĩa trước các 
hoạt động (các luồng dữ liệu) để dùng ngay được với các sản phẩm. Điều này cho 
phép người thực hiện áp dụng cách tiếp cận này có hiệu quả trong một khoảng thời 
gian ngắn. 
Tuy nhiên, người ta thường áp dụng mẫu này khi các nguồn dữ liệu có sự khác biệt 
đáng kể về cấu trúc dữ liệu cần được tích hợp. Điều này có thể yêu cầu cải tiến 
nhiều vòng đặc tả luồng dữ liệu và áp dụng đặc tả đó trong các môi trường thử 
nghiệm để chứng minh tính đúng đắn. Các công ty có thể trải nghiệm các chu kỳ 
phát triển tương đối dài khi áp dụng cách tiếp cận này -- không phải do các đặc 
điểm của cách tiếp cận này mà do các đặc điểm của vấn đề. 
Tập hợp kỹ năng và kinh nghiệm 
Hầu hết các việc thực hiện hiện có của mẫu hợp nhất đều có một cách tiếp cận 
dùng công cụ, đòi hỏi phải có kiến thức đặc trưng về sản phẩm khi định nghĩa ánh 
xạ. Các nhà phát triển cần hiểu rõ các cách tiếp cận riêng của sản phẩm này. Họ 
cũng cần có kiến thức về các khái niệm cơ sở dữ liệu hoặc kinh nghiệm của Quản 
trị viên cơ sở dữ liệu (DBA) để hiểu các hậu quả đối với cơ sở dữ liệu nguồn và cơ 
sở dữ liệu đích khi thiết kế giải pháp này. Khi trưng ra thông tin tích hợp như là 
các dịch vụ, các nhà phát triển cũng cần hiểu các khái niệm, các tiêu chuẩn và các 
công nghệ SOA. 
Khả năng tái sử dụng 
Có thể sử dụng lại logic và siêu dữ liệu đã dùng để định nghĩa truy cập và tổng hợp 
dữ liệu trên các dự án khác nhau. 
Chi phí về bảo trì nhiều nguồn dữ liệu 
Sau khi hợp nhất dữ liệu, có thể hoặc giữ nguyên các nguồn dữ liệu ban đầu hoặc 
rút bỏ các nguồn một khi đã di chuyển dữ liệu đến hệ thống đích trong trường hợp 
di trú dữ liệu. Như đã mô tả trong các trường hợp sử dụng (phần Bối cảnh), hệ 
thống đích mới này thường đáp ứng các yêu cầu nghiệp vụ bổ sung như cung cấp 
một phiên bản sự thật duy nhất và sự hiểu biết thêm. Khi sử dụng mẫu này để di trú 
khỏi (có nghĩa là thay thế) các hệ thống di sản hiện có, việc di chuyển -- và có thể 
là việc hợp nhất -- dữ liệu chỉ là một bước trong toàn bộ quá trình di trú. Toàn bộ 
quá trình di trú cũng cần giải quyết việc di trú của logic nghiệp vụ và logic ứng 
dụng, chẳng hạn. Mặc dù mẫu hợp nhất dữ liệu không thể một mình giải quyết vấn 
đề di trú ứng dụng, nhưng nó là một thành phần quan trọng theo nghĩa là nó có thể 
di chuyển dữ liệu từ hệ thống di sản sang nền tảng tương lai. Sau khi đã hoàn thành 
toàn bộ quá trình di trú, gồm dữ liệu, logic và các quy trình, có thể làm giảm chi 
phí bảo trì nhiều nguồn dữ liệu bằng cách loại bỏ (các) hệ thống di sản. 
Nếu một trong những mục tiêu của dự án để thực hiện hoặc sử dụng mô hình này 
là tạo ra một kho lưu trữ dữ liệu mới, thì chi phí tăng thêm có thể gắn với việc quản 
lý kho lưu trữ dữ liệu mới. Tuy nhiên, đó không phải là một tác dụng phụ của việc 
thực hiện mẫu này, mà là kết quả của dự án lớn hơn có thể sử dụng mẫu này. 
Chi phí phát triển 
Các chi phí phát triển phụ thuộc phần lớn vào tính phức tạp của nhiệm vụ tích hợp. 
Các chi phí có thể thấp nếu các nguồn dữ liệu có các mô hình dữ liệu tương tự và 
chỉ cần các hoạt động chuyển đổi đơn giản. Ánh xạ giữa các nguồn và đích càng 
trở nên phức tạp bao nhiêu, thì các chi phí phát triển thực hiện càng cao bấy nhiêu, 
vì nó gắn liền với các chu kỳ phát triển và thử nghiệm nhiều vòng cần thiết để giải 
quyết tính phức tạp. 
Kiểu các mô hình đích 
Mẫu hợp nhất dữ liệu không đòi hỏi một mô hình dữ liệu đích cụ thể. Trong bài 
này, chúng tôi đã tập trung vào mẫu hợp nhất dữ liệu cho dữ liệu có cấu trúc. Hầu 
hết dữ liệu có cấu trúc hiện nay đều được duy trì trong các hệ thống quan hệ. Vì 
vậy, hầu hết các việc triển khai của mẫu này di chuyển dữ liệu đến một cơ sở dữ 
liệu quan hệ đích. 
Đơn vị logic trong công việc / phân phối đảm bảo 
Mặc dù cách tiếp cận hợp nhất không ngăn cấm việc phân phối đảm bảo, nhưng 
hầu hết các việc thực hiện mẫu hợp nhất dữ liệu hiện tại không bảo đảm việc phân 
phối dữ liệu giữa nguồn và đích. Nếu vì một lý do nào đó, quá trình hợp nhất bị 
gián đoạn, chẳng hạn do lỗi của máy chủ, một số dữ liệu có thể đã được di chuyển, 
một đang trong quá trình được di chuyển và một số có thể không được di chuyển. 
Hệ thống sẽ hoặc có khả năng khởi động lại tại điểm có lỗi hoặc có logic bù trừ để 
cho phép xóa bỏ các cập nhật chưa xong. Như trong bất kỳ tình huống lỗi nào, dù 
là SOA hay không, thì việc này không loại bỏ được yêu cầu là các kiến trúc sư, các 
quản trị viên và các nhà phát triển sẽ phải phân tích nguyên nhân gốc rễ và xác 
định quy trình phục hồi trong một số trường hợp. 
Sử dụng tài nguyên 
Máy chủ hợp nhất sử dụng tài nguyên -- đó là, năng lực xử lý trên máy chủ hợp 
nhất, máy chủ nguồn và dung lượng mạng -- khi nó di chuyển dữ liệu từ các nguồn 
đến đích. Sự phức tạp của các chuyển đổi, số lượng các nguồn cần được truy cập 
và khối lượng dữ liệu cần được xử lý sẽ xác định mức sử dụng tài nguyên. 
Các khả năng chuyển đổi 
Việc thực hiện mẫu hợp nhất cần xử lý nhu cầu giải quyết hầu như bất kỳ sự khác 
biệt nào về cấu trúc giữa dữ liệu nguồn và dữ liệu đích. Một kết quả quan trọng của 
các chuyển đổi rất phức tạp là một quá trình di chuyển dữ liệu bị kéo dài do việc 
xử lý chuyển đổi phức tạp. 
Kiểu mô hình nguồn, các giao diện, các giao thức 
Hợp nhất dữ liệu giải quyết vấn đề tích hợp dữ liệu từ các mô hình nguồn không 
đồng nhất và đưa vào các kỹ thuật để ánh xạ các mô hình nguồn khác nhau đó vào 
mô hình chung ở đích. Các việc thực hiện sản phẩm của mẫu hợp nhất dữ liệu thay 
đổi khác nhau tùy theo phạm vi các mô hình nguồn mà chúng có thể tích hợp, 
nhưng chủ yếu là, mẫu hợp nhất dữ liệu loại bỏ sự phức tạp của các mô hình 
nguồn, các giao diện và các giao thức sao cho các nhà phát triển chỉ cần quan tâm 
đến một mô hình, một giao diện và một giao thức mà thôi. 
Phạm vi / kích cỡ của các mô hình nguồn 
Kích cỡ của các mô hình nguồn, số lượng và kiểu của các thuộc tính và sự phức tạp 
của định nghĩa chuyển đổi có thể tốn nhiều thời gian của các nhà phân tích, kiến 
trúc sư và người triển khai thực hiện. Những yếu tố này có thể ảnh hưởng đến thời 
gian cần thiết để thực hiện mẫu này cũng như thời gian và tài nguyên để thực hiện 
hợp nhất. Các hướng dẫn thực hành để định nghĩa và điều chỉnh quy mô của dự án 
tiêu chuẩn cần giải quyết mức độ phức tạp gắn liền với các phép chuyển đổi dữ 
liệu khi đánh giá sự nỗ lực, khoảng thời gian và chi phí liên quan đến thực hiện dự 
án. 
Ảnh hưởng của tải công việc của máy chủ hợp nhất (khối lượng giao dịch) đến các 
nguồn 
Cần thực hiện một phân tích ảnh hưởng trên các hệ thống nguồn để hiểu rõ ảnh 
hưởng của các yêu cầu về các mức dịch vụ mà các nguồn này đã được cam kết 
cung cấp. Đây sẽ là một bước tiêu chuẩn trong phương pháp luận phát triển và 
không phải là duy nhất với việc thực hiện này. Có thể phối hợp quá trình di chuyển 
này sao cho nó có ảnh hưởng tối thiểu đến các nguồn, ví dụ như trong các cửa sổ 
thời gian dành cho bảo trì, để giảm thiểu ảnh hưởng đến các hệ thống nguồn đang 
vận hành. Phải cân bằng nhu cầu này đối với các yêu cầu về thời hạn giao hàng và 
độ trễ đối với dữ liệu đích được hợp nhất. 
Về đầu trang 
Kết luận 
Bài này đã trình bày mẫu hợp nhất dữ liệu như là một cách tiếp cận để thu gom dữ 
liệu từ nhiều nguồn, để xử lý và chuyển đổi dữ liệu này rồi áp dụng nó cho một 
đích duy nhất. Những người dùng dịch vụ trong một SOA thường cần truy cập tới 
thông tin không đồng nhất và đôi khi là thông tin có xung đột. Hợp nhất dữ liệu có 
thể tích hợp dữ liệu và giải quyết các xung đột và do đó có thể tạo ra phiên bản sự 
thật duy nhất cần phải có. Sau đó có thể trưng ra thông tin hợp nhất này thông qua 
một dịch vụ. 
Các vùng trọng tâm để áp dụng mẫu hợp nhất dữ liệu 
 Tích hợp dữ liệu từ nhiều nguồn có mức không đồng nhất cao: Cách tiếp cận 
này có khả năng mạnh mẽ để giải quyết những xung đột và hòa nhập dữ liệu 
với nhau. Người ta thường kết hợp mẫu hợp nhất dữ liệu với mẫu làm sạch 
dữ liệu sao cho có thể giải quyết các vấn đề về chất lượng dữ liệu trong khi 
hợp nhất. 
 Cung cấp thông tin tích hợp cho những người dùng có yêu cầu cao về tính 
sẵn dùng của dữ liệu, truy cập đồng thời ở mức cao, khả năng mở rộng quy 
mô và hiệu năng ở mức cao: Mẫu hợp nhất dữ liệu cụ thể hóa thông tin tích 
hợp trong một bản sao đích để những người dùng có thể truy cập độc lập với 
quá trình chuyển đổi và tích hợp. 
Vùng nhiều rủi ro khi áp dụng mẫu hợp nhất dữ liệu 
Truy cập thời gian thực vào dữ liệu phân tán đang thay đổi thường xuyên: Giải 
quyết kịch bản này với hợp nhất dữ liệu đòi hỏi phải di chuyển và hợp nhất thường 
xuyên dữ liệu nguồn. Nếu người dùng hiếm khi cần truy cập thông tin tích hợp 
này, thì cách tiếp cận này có thể không có hiệu quả kinh tế như các cách tiếp cận 
khác và có thể không phân phối dữ liệu cập nhật như một ứng dụng được trông 
đợi. 
Về đầu trang 
Bản đồ sản phẩm 
Các sản phẩm sau đây của IBM thực hiện mẫu này: 
 Ấn bản doanh nghiệp IBM® WebSphere® DataStage (cũng là một phần của 
sản phẩm trong danh mục WebSphere Data Integration Suite - Bộ tích hợp 
WebSphere và cũng là một phần của sản phẩm trong danh mục IBM 
Information Server - Máy chủ thông tin của IBM) là một nền tảng tích hợp 
dữ liệu khối lượng lớn dùng để làm sạch, chuyển đổi và bố trí lại dữ liệu. 
Luồng dữ liệu phức tạp trong WebSphere DataStage được phát triển bằng 
cách sử dụng một mẫu hình đồ họa hướng-"luồng dữ liệu" để thúc đẩy việc 
tái sử dụng và nâng cao năng suất của nhà phát triển. Các khả năng xử lý 
song song, chẳng hạn như hỗ trợ cho phân vùng lại động, các cơ sở dữ liệu 
song song và các cấu hình lưới, cho phép WebSphere DataStage thao tác số 
lượng lớn dữ liệu trong các khung thời gian ngắn. Các nguồn và các đích 
gồm có các hệ thống quản lý cơ sở dữ liệu quan hệ, các hệ thống ERP, hệ 
thống máy tính lớn kế thừa, XML và các định dạng dữ liệu độc quyền. Nền 
tảng mở rộng dựa vào websphere DataStage chạy trên các môi trường 
UNIX, Windows, Linux và zSeries và nó bao gồm một tầng siêu dữ liệu 
toàn diện để quản lý và kiểm soát các quy tắc nghiệp vụ dùng cho việc quản 
trị dữ liệu nâng cao và theo dõi thực thể. 
 WebSphere Information Services Director - Giám đốc Các dịch vụ thông tin 
WebSphere (cũng là một phần của sản phẩm trong danh mục IBM 
Information Server ) trưng ra các khả năng quản lý thông tin như là các dịch 
vụ. Nó đóng gói thông tin logic tích hợp, các quy tắc làm sạch, truy cập 
thông tin v.v như là các dịch vụ. Điều này cách ly nhà phát triển ra khỏi nhà 
cung cấp bên dưới của chức năng này. Liên quan nhiều nhất với bài viết này 
là sản phẩm này có khả năng trưng ra các tác vụ của WebSphere DataStage 
thông qua một giao diện hướng dịch vụ như EJB, JMS hoặc các dịch vụ 
Web. Sản phẩm này cung cấp cơ sở hạ tầng nền tảng (gồm cân bằng tải và 
khả năng chịu lỗi) cho các dịch vụ thông tin. Nó thực hiện thành phần hỗ trợ 
dịch vụ thông tin như minh họa trong Hình 2, Hình 3 và Hình 4. WebSphere 
Information Services Director được xây dựng trên cơ sở hạ tầng siêu dữ liệu 
mạnh mẽ như WebSphere QualityStage. 

File đính kèm:

  • pdfcac_mau_dich_vu_thong_tin_phan_2_mau_hop_nhat_du_lieu.pdf