Hãy cẩn trọng khi sùng bái dữ liệu Lớn

VietTimes -- “Chúng ta phải được thông tin về dữ liệu, chứ không phải bị dẫn dắt bởi dữ liệu - bằng không chúng ta tiếp tục bị mắc sai lầm bởi các cuộc thăm dò dư luận vốn chỉ làm trầm trọng thêm những thành kiến của con người”.

Trung tâm dữ liệu của hãng Google đặt tại The Dalles, tiểu bang Oregon, xử lý hàng trăm triệu lệnh tìm kiếm mỗi ngày trên mạng Internet. Ảnh AFP

Trung tâm dữ liệu của hãng Google đặt tại The Dalles, tiểu bang Oregon, xử lý hàng trăm triệu lệnh tìm kiếm mỗi ngày trên mạng Internet. Ảnh AFP

Dữ liệu Lớn - yếu tố quan trọng trong Cách mạng công nghiệp 4.0

Thời gian qua, Dữ liệu Lớn là một trong những từ hay được nhắc tới trên trang công nghệ của các phương tiện truyền thông.Theo trang Gartner, Big Data được định nghĩa như sau: “Tài nguyên thông tin đa dạng cao, tốc độ cao, cần các hình thức xử lý thông tin hiệu quả và sáng tạo và có thể cho phép tăng cường quyết định, hiểu biết và tự động hóa quy trình.

Cùng với trí tuệ nhân tạo, công nghệ robot, máy học, Dữ liệu Lớn được coi là một trong những yếu tố quan trọng nhất trong cách mạng công nghiệp 4.0, hứa hẹn sẽ làm thay đổi hoàn toàn diện mạo của đời sống xã hội trong những năm tới.

Để hình dung về vai trò của dữ liệu Lớn, có thể lấy ví dụ về cách nhà sản xuất ô tô Mercedes - Benz chuẩn bị cho ra đời những chiếc ô tô theo đơn đặt hàng của từng khách mua xe. Dữ liệu lớn, công nghệ tự động, trí tuệ nhân tạo và số hóa các nhà máy cho phép Daimler (công ty mẹ của Mercedes - Benz) biết rõ nguồn cung ứng vật tư, nhu cầu của từng khách hàng, điều chỉnh và đáp ứng một cách hiệu quả các đơn hàng để cho ra những chiếc xe đúng theo yêu cầu của người tiêu dùng nhanh nhất. Trong suốt quá trình sản xuất, nhờ được kết nối, khách hàng sẽ cảm thấy rất vui vẻ dõi theo quá trình sản xuất chiếc xe mới của mình từ lúc ký hợp đồng cho đến khi chiếc xe đến tay thông qua công cụ được gọi là Đợi chờ trong niềm vui.

Trong đời sống xã hội, nếu như trước kia các cuộc thăm dò chỉ cho phép phỏng vấn một vài ngàn người, thì giờ đây, dữ liệu Lớn có thể giúp thu thập và xử lý ý kiến của hàng triệu, thậm chí hàng chục triệu người để hiểu được quan điểm, thái độ của họ về một vấn đề nào đó.

Vì vai trò quan trọng như vậy nên ngày càng có nhiều người bị choáng ngợp trước các sản phẩm của dữ liệu Lớn và bắt đầu sùng bái dữ liệu Lớn. 

Nhưng liệu điều đó có hoàn toàn đúng

Xin giới thiệu một phần bài viết của Karim Raslan - nhà bình luận và cố vấn kinh doanh có nhiều tiếng vang tại khu vực Đông Nam Á - đăng trên báo Bưu điện Hoa Nam Buổi sáng ngày 29/11.

Trong bài viết, ông bày tỏ quan điểm: “Chúng ta phải được thông tin về dữ liệu, chứ không phải bị dẫn dắt bởi dữ liệu - bằng không chúng ta tiếp tục bị mắc sai lầm bởi các cuộc thăm dò dư luận vốn chỉ làm trầm trọng thêm những thành kiến của con người”.

Ông kể về Hội nghị thượng đỉnh về Truyền thông ASEAN tại Kuala Lumpur mà ông tham gia với vai trò một người dẫn chuyện cùng các nhà kỹ thuật, những chủ khởi nghiệp và những chuyên gia truyền bá dữ liệu. Thông điệp từ nhiều diễn giả rất hoành tráng và rõ ràng: Hãy quên các ý kiến chủ quan, thế kỷ 21 là thời đại của dữ liệu Lớn (tức là khả năng xử lý bộ dữ liệu khổng lồ - lên tới hàng ngàn triệu tỷ byte thông tin).

Karim Raslan tỏ ra nghi ngờ về thông điệp này. Ông viết: "Dữ liệu vô cùng quan trọng. Tăng trưởng GDP, lạm phát, tỷ lệ thất nghiệp, tổng thu nhập - tất cả những sự kiện và số liệu này là xương sống của bất kỳ một sự phân tích chuẩn nào".

Tuy nhiên, trong một thế giới đang chìm đắm trong dữ liệu, việc chỉ biết đến những con số là không đủ.

Để minh chứng cho ý kiến của mình, ông kể lại trường hợp cuộc bầu cử tổng thống Mỹ năm 2016.

“Năm ngoái, vào thời điểm cao điểm của cuộc bầu cử ở Mỹ, tôi có mặt tại thành phố Houston, bang Texas, gặp gỡ và trò chuyện cùng hai anh em nhà Vidanas, người Mỹ gốc Mexico sống ở ngoại ô thành phố giàu dầu lửa. Cả hai đều thuộc phái bảo thủ, ủng hộ việc bán súng và là những người ủng hộ Donald Trump mặc dù mang trong mình nguồn gốc Latino. Điều này khiến tôi bối rối: Chính Trump đã đe dọa xây dựng một bức tường ngăn biên giới và tổng cổ những người như họ về Mexico!

Nhưng sau khi dành vài ngày với họ, loanh quanh mấy món taquerias của người dân xứ này, chiêm ngưỡng cửa hàng nhỏ bán súng của họ, chuyện trò với bố mẹ (anh em họ hàng, ông bà...) của họ, tôi bắt đầu hiểu vì sao họ lại ủng hộ Trump.

Ngồi ở trong sân nhà họ - với bờ rào lỗ chỗ vết đạn của một trùm ma túy đã để lại -  tôi cảm nhận được sự thất vọng của họ với tình trạng hiện tại, nỗi tuyệt vọng của họ về một sự thay đổi mà không có cuộc thăm dò dư luận nào về sự thất vọng theo tỷ lệ 1 phần mười nào có thể phản ánh được.

Vào ngày bỏ phiếu, tờ The New York Times đưa ra một dự báo rằng 85% cơ hội thắng cuộc là thuộc về Hilary Clinton. Riêng bản thân tôi, sau nhiều tuần nói chuyện trực tiếp với những người bình thường từ các tầng lớp xã hội khác nhau trên khắp nước Mỹ, thì không tin vào dự báo đó lắm.

Đêm hôm đó, khi ngồi trong một khách sạn ở vùng nửa quê, nửa tỉnh ở tiểu bang Michigan (như sự việc đã diễn ra, đó chính là đầu ngọn sóng ủng hộ Trump), tôi đã linh cảm rằng người bước lên bục chiến thắng không phải là ai khác mà chính là “cựu” ngôi sao truyền hình thực tế.

May cho tôi, ông ấy đã giành chiến thắng. Các chuyên gia thạo tin đã bị một vố đau tan tành và có thể đến nay vẫn chưa thể phục hồi.

Nói cho cùng, chính sự tin tưởng vào dữ liệu một cách ngây thơ phải gánh chịu sự thất bại”.

Quá nhiều cuộc thăm dò đã đưa ra kết quả sai lầm trong cuộc bầu cử tổng thống Mỹ, trong dự báo kết quả thăm dò trưng cầu dân ý về Brexit và sự xuất hiện của các phong trào dân tộc chủ nghĩa ở châu Âu.

US President Donald Trump with Philippine President Rodrigo Duterte. Polls have been wrong both on the rise of the former and the continuing popularity of the latter. Photo: Reuters

Tổng thống Mỹ Donald Trump và Tổng thống Philippines Rodrigo Duterte. Các cuộc thăm dò dư luận đã sai về kết quả bầu cử và mức độ tín nhiệm đối với hai ông. Ảnh Reuters

Mới đây nhất là những dự báo về sự sụt giảm tín nhiệm đối với Tổng thống  Rodrigo Duterte. Tác giả đã bay sang Philippines để tự kiểm nghiệm những dữ liệu do phe đối lập đưa ra và đã tìm thấy câu trả lời: thực tế không phải như vậy.

Nguy cơ từ niềm tin mù quáng vào dữ liệu Lớn

Trong cuốn sách Vũ khí tiêu diệt Toán học (Weapons of Maths Destruction), nhà toán học Cathy O'Neil từ Đại học Harvard đã cảnh báo nguy cơ từ niềm tin mù quáng đối với dữ liệu Lớn. Bà lập luận rằng từ  "khách quan" là một "thủ thuật tiếp thị", cho thấy các thuật toán mờ ảo bị các giả định sai lầm chọc thủng, trên thực tế đã củng cố những thành kiến của con người.

Đôi khi, việc bám vào các dữ liệu chúng ta biết có thể làm chúng ta bị mắc vào bẫy của lịch sử. Rốt cuộc, làm gì có dữ liệu cho những ý tưởng mới và còn chưa được kiểm tra.

Tất cả điều này cho thấy dữ liệu không phải là số phận.

Nhưng cũng không nên làm theo bản năng của chúng ta một cách mù quáng.

Thay vào đó, cái nhìn sâu sắc của con người cùng với thông tin mới chính là con đường tiến về phía trước.

Chúng ta cần phải được thông tin về dữ liệu chứ không phải dựa vào dữ liệu. Đó chính là  sự khác biệt.

Tổng hợp