NSA là gì? Trước khi tìm hiểu, ta cần
biết qua về NSA. Đây là viết tắt của National Security Agency, cơ quan an ninh
quốc gia của Mỹ. Nghề của NSA là thu thập giải mã và phân tích thông tin tình
báo từ các nước để phục vụ cho chính phủ Mỹ. Như vậy có thể nói NSA là nơi có
nhiều dự án và các cao thủ về 3 món: thu thập, giải mã và phân tích thông tin.
PRISM là gì? Là dự án Big Data của NSA,
với mục tiêu phát hiện khủng bố và khai thác các mô hình/khuôn mẫu khác được sự
cho phép của thẩm phán liên bang làm việc theo Luật giám sát tình báo nước
ngoài. PRISM có nghĩa là Lăng kính, lấy ý tưởng từ việc lăng kính được dùng
trong các sợi cáp quang để truyền thông tin.
PRISM hoạt động như thế nào? Bằng việc
thu thập tất cả các nguồn dữ liệu có thể có: nội dung điện thoại, nội dung
email, các truy cập web, video, hình ảnh, các status trên Facebook, Twitter, địa
chỉ IP, địa chỉ email, số điện thoại…. PRISM sẽ phân tích và đưa ra các cảnh
báo cho chính phủ Mỹ về các dấu hiệu khủng bố có thể có. Để từ đó họ sẽ khoanh
vùng, ngăn chặn các vụ khủng bố. Hoặc khi họ cần thông tin về 1 cá nhân/tổ chức
nào đó, chỉ cần gõ số điện thoại/email, tên… PRISM sẽ trả về tất cả các thông
tin mà nó thu thập và tổng hợp được từ nhiều nguồn. Về cơ bản, chúng ta sẽ
không biết nhiều về PRISM nếu không có Edward Snowden và các tài liệu do anh ta
cung cấp. Hãy cùng tìm hiểu sơ bộ về PRISM qua một số tài liệu này.
Hình trên cho
thấy, PRISM thu thập được 11 loại dữ liệu khác nhau bao gồm: E-mails, instant
messages, videos, photos, stored data (kiểu Google Drive hay MS SkyDrive chăng ?), voice chats, file
transfers, video conferences, log-in times, social network profile details và
loại cuối cùng là “Special Request”. Những dữ liệu này lấy được từ 9 công ty lớn bao gồm có: Microsoft, Google,
Yahoo, Facebook… tham gia vào việc cung cấp dữ liệu cho PRISM (Provider). Bạn
có dùng dịch vụ của các hãng trên không ?
Hình trên cho
thấy thời điểm mà các Provider tham gia vào PRISM cho đến cuối năm 2012.
Microsoft là hãng đầu tiên, tham gia ngày 11/9/2007 và Apple là hãng cuối cùng
tham gia tháng 10/2012.
Tùy từng
Provider, NSA có thể sẽ nhận được 1 thông báo ngay lập tức khi có sự kiện log
in hoặc gửi mail của đối tượng.
Tại thời điểm
ngày 5 tháng 4, 2013 có 117,675 mục tiêu theo dõi nằm trong CSDL chống khủng bố
của PRISM.
PRISM xử lý bao nhiêu dữ liệu? Chưa thấy
thông tin chính thức từ NSA, nhưng cứ hình dung riêng Facebook hoặc Google phải
xử lý đống data của họ đã đủ mệt rồi, đằng này PRISM xử lý của cả Facebook,
Google, MS…. cộng lại. Theo một nghiên cứu đăng tại HighScability thì tác giả dự
tính số lượng dữ liệu mà PRISM xử lý là như sau: Facebook: 500 TB/ngày* 30 =
1.5 PT/tháng (source) Twitter: 8 TB/ngày* 30 = 240 TB/tháng (source)
Email/Other info: 193PT/tháng (source) Mobile traffic/machine¬to¬machine
exchanges/vehicles etc: 117 PB/tháng
(source) Như vậy tổng dữ liệu xử lý là gần 312PB/tháng.
Chúng ta có thể
thấy 1 số các hệ thống sau nằm trong PRISM
·
PRINTAURA
automates the traffic flow
·
SCISSORS
and Protocol Exploitation sort data types for analysis
·
NUCLEON
(voice)
·
PINWALE
(video): http://en.wikipedia.org/wiki/Pinwale
·
MAINWAY
(call records)
·
MARINA
(Internet records)
·
FALLOUT?
·
CONVEYANCE?
Ngoài ra,
trong các tài liệu khác còn có xuất hiện 1 số các hệ thống khác như
·
Accumulo
(http://en.wikipedia.org/wiki/Apache_Accumulo): 1 dạng NoSQL (NSA đóng góp ngược
lại cho cộng đồng nguồn mở Apache và có cả 1 công ty thương mại hóa thành Sqrrl http://sqrrl.com/, công ty
này cũng do cựu nhân viên của NSA thành lập;
·
NSA Graph
search;
·
Xstroke
(http://en.wikipedia.org/wiki/XKeyscore): Theo wiki thì là a system “for searching and analyzing
Internet data about foreign nationals across the world”;
·
Boundless
Informant: Công cụ để phân loại, quản lý, phân tích các đối tượng trên toàn
cầu.
Những hệ thống
này nếu tìm hiểu thêm sẽ có khá nhiều thông tin thú vị phục vụ cho xây dựng Big
Data. PRISM có từ khi nào? Theo tài
liệu của NSA thì PRISM được phát triển từ năm 2007. Như vậy đây là 1 dự án Big
Data có ít nhất 6 năm tuổi. Phản ứng của
các “ông lớn” trước thông tin họ nằm trong PRISM? Về cơ bản thì 100% người
sử dụng trên toàn thế giới có dùng dịch vụ của ít nhất 1 trong 9 công ty kia.
Điều đó có nghĩa là các hãng này ít nhiều bị ảnh hưởng tới uy tín khi thông tin
PRISM bị lộ lọt.
Hãy xem phản ứng của các hãng trước việc
này ra sao?
Larry
Page, CEO của Google có viết 1 bài với tiêu đề “What the…” phủ nhận
hoàn toàn việc tham gia vào PRISM và việc NSA không thể có quyền truy cập trực tiếp vào các
server cũng như có backdoor để truy cập
vào các dữ liệu của Google. (http://googleblog.blogspot.com/2013/06/what.html).
CEO của
Facebook, Mark Zuckerberg đăng 1 status về vấn đề này “Facebook không
và chưa bao giờ là 1 bộ phận của bất kỳ chương trình nào cho phép CP Mỹ hoặc
các quốc gia khác, truy cập trực tiếp vào server của chúng tôi.”.
Phát
ngôn viên của Apple cũng trả lời rằng, “Chúng tôi chưa bao giờ nghe đến
PRISM”. Thực tế thì chúng ta thấy rất dễ, là các hãng này đều nói họ không cho
phép “truy cập trực tiếp” vào máy chủ.
Nhưng không thấy họ nói đến “truy cập gián tiếp”.
Chi phí cho PRISM? Theo thông tin từ NSA thì PRISM tiêu tốn khoảng 20 triệu USD/năm. Trong khi đó, có 1 nghiên cứu khác cho rằng PRISM tốn khoảng 180 triệu USD/năm mà vẫn còn khen là chi phí thấp (http://highscalability.com/blog/2013/7/1/prism-the-amazingly-low-cost-of-using-bigdata-to-know-more-a.html). Điều này chứng tỏ NSA rất biết tiêu tiền 1 cách hiệu quả. Hạ tầng cho PRISM ? Hiện, dữ liệu của PRISM được cho là lưu trữ tại trung tâm dữ liệu Utah.
Kết luận lại, không bàn đến vấn đề mục đích sử dụng của PRISM, tuy nhiên rõ ràng việc tìm hiểu hệ thống Big Data của NSA này cũng sẽ giúp chúng ta có được 1 case study về hệ thống lớn, để áp dụng vào các dự án Big Data khác.
0 comments:
Đăng nhận xét