Dữ liệu lớn là gì và nó đang được ứng dụng như thế nào?

VietTimes -- Trong cuộc cách mạng công nghiệp 4.0, Dữ liệu lớn (Big Data) là một yếu tố không thể thiếu. Vậy Big Data thực chất là gì? Và nó đang được ứng dụng như thế nào?
Ảnh minh họa (Techradar)
Ảnh minh họa (Techradar)

Kết hợp hàng tấn dữ liệu với chỉ một vài phân tích để cho ra những kết quả rất lớn

Tuy không mấy ai biết được nguồn gốc của thuật ngữ này có từ đâu, và thậm chí là đang gây ra rất nhiều tranh cãi, nhưng “Dữ liệu lớn” (Big Data) là một trong những khái niệm mà rất nhiều người biết, nhưng lại hiểu nó một cách khá đơn giản. Chính cái tên Big Data cũng đã nói lên ý nghĩa thực tế của thuật ngữ này, đó là một khối lượng dữ liệu cực lớn. Dữ liệu này có từ nhiều nguồn khác nhau và thậm chí là có nhiều kiểu dữ liệu khác nhau. Các dữ liệu này sau đó được xử lý thông qua những kỹ thuật phân tích tiên tiến nhằm lựa chọn ra những mảng dữ liệu rồi từ đó đưa ra các kết luận chính xác.

Thuật ngữ Big Data cũng đề cập đến 3 khía cạnh (3V): Dung lượng (Volume), sự đa dạng (Variety), và tốc độ (Velocity). Dung lượng là phạm vi dữ liệu, sự đa dạng là các cơ sở dữ liệu không đồng nhất, và tốc độ chính là tốc độ mà các phân tích được thực hiện, thường với mục tiêu là phải xử lý được ở thời gian thực.

Các cơ sở dữ liệu liên quan cực lớn – lên đến hàng terabyte đến zettabyte (1ZB tương đương 909.494.701 TB). Ngoài phạm vi cơ sở dữ liệu này, thì dữ liệu cũng có nhiều loại khác nhau: từ dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc, các dữ liệu đó có thể xuất phát từ nhiều nguồn khác nhau.

Điều này không nói đến vấn đề tất cả dữ liệu đó đều được tạo ra từ đâu. Dữ liệu lớn xuất phát từ tất cả các mọi nơi, trong đó có từ web, truyền thông xã hội, mạng, các tệp tin sổ ghi, tệp tin video, các bộ cảm biến và từ các thiết bị di động.

Trong đó nguồn dữ liệu từ các thiết bị di động là đặc biệt quan trọng bởi hầu hết chúng ta cứ kè kè điện thoại bên mình 24/7, và mỗi chiếc điện thoại thì có hàng loạt bộ cảm biến, trong đó có GPS, camera, microphone, và cảm biến nhận biết sự di chuyển. Hơn nữa, phần lớn thời gian người dùng sử dụng diện thoại không phải để gọi mà là vào các ứng dụng như là email, chơi game, lướt web và các ứng dụng mạng xã hội – tỷ lệ vào các ứng dụng chiếm đến 90% thời gian người sử dụng điện thoại. Một nguồn dữ liệu rất lớn tạo nên Big Data là từ dữ liệu di động, và nguồn dữ liệu này liên tục được tạo ra với tốc độ chóng mặt.

Dữ liệu hiện nay rất lớn và được tạo ra với tốc độ chóng mặt (Ảnh Techradar)
 Dữ liệu hiện nay rất lớn và được tạo ra với tốc độ chóng mặt (Ảnh Techradar)

Khai thác dữ liệu

Nhưng dữ liệu mà không được phân tích thì cũng chẳng có mấy giá trị, và đây là một khía cạnh khác của quá trình phân tích Big Data. Sự phân tích này được nói đến với ý nghĩa khai thác dữ liệu, và người dùng cố gắng tìm kiếm những mảng và những bất thường trong các cơ sở dữ liệu cực lớn này. Các mảng dữ liệu này sau đó lại sinh ra thông tin được sử dụng cho nhiều mục đích khác nhau, như là nâng cao hiệu quả của các chiến dịch marketing sản phẩm, tăng lượng bán hay cắt giảm chi phí. Big Data và phương thức khai thác dữ liệu không chỉ có sức mạnh to lớn trong việc giúp làm biến đổi các ngành và hoạt động, mà thực sự nó đã làm được như vậy.

Ví dụ, Trainline là một nhà bán lẻ vé tàu hỏa độc lập hàng đầu ở châu Âu, công ty này bán các vé tàu nội địa và quốc tế ở 173 quốc gia, với lượng khách hàng ngày của họ là 127.000 người. Công ty này sử dụng Big Data để hiện đại hóa phương thức bán vé, với trọng tâm là tăng chất lượng phục vụ và hiệu quả bán vé của họ cho khách hàng thông qua ứng dụng của mình.

Kết quả là hiện nay khách hàng được nhận các thông báo hủy chuyến bằng ứng dụng trên điện thoại. Ngoài các thông báo hoãn chuyến, các thông báo này còn rất cụ thể đến từng chuyến đi của hành khách, đầu tiên là đối với các tuyến đường sắt ở Vương Quốc Anh. Công ty cũng đã đổi mới về việc dự báo giá vé bán ra, nghĩa là hành khách có thể ước đoán trước giá vé sẽ tăng từ tỷ lệ chiết khấu ban đầu, cho phép họ có thể mua được vé với giá thấp hơn.

Big Data cũng đã được sử dụng trong các nhà hàng, đặc biệt là trong ngành dịch vụ phục vụ đồ ăn nhanh. Tính về doanh thu, thì McDonald’s là chuỗi cửa hàng đồ ăn nhanh lớn nhất thế giới, họ phục vụ hơn 60 triệu lượt khách hàng mỗi ngày tại hơn 36.900 cửa hàng ở hơn 100 quốc gia trên thế giới.

Với một khối lượng công việc khổng lồ như vậy, nên cũng có hàng tấn dữ liệu được tạo ra, và do đó McDonald’s đã tìm hiểu về văn hóa bằng dữ liệu, với mục tiêu là nâng cao sự hiểu biết của họ về mức nhu cầu tại mỗi cửa hàng, với mục tiêu tổng thể là tạo ra một chuỗi các cửa hàng tốt hơn.

Thông qua Big Data, McDonald’s đã tận dụng tối ưu thói quen “drive-through” (mua đồ ăn bằng cách lái xe qua cửa hàng rồi lấy đồ ăn chứ không xuống xe). Ví dụ như họ luôn lưu ý đến kích cỡ những chiếc xe chạy qua, và chuẩn bị cho thời điểm nhu cầu cao nhất khi các xe lớn vào xếp hàng mua.

Một đổi mới khác liên quan đến Big Data đó là các màn hình hiển thị thực đơn số, liên tục thay đổi các món trên thực đơn dựa vào kết quả phân tích dữ liệu thời gian thực. Các thực đơn này thay đổi các món nổi bật dựa vào dữ liệu được phân tích, trong đó có các thông tin về thời gian trong ngày, điều kiện thời tiết bên ngoài, đặc biệt là quảng cáo các đồ uống lạnh khi thời tiết bên ngoài nóng, và hiện nhiều món ăn dễ tiêu hóa trong những ngày mát mẻ. Phương pháp này đã giúp tăng lượng bán tại các cửa hàng McDonald’s ở Canada lên 3 đến 3,5%.

Các vấn đề về y tế

Big data đang được ứng dụng rất nhiều trong lĩnh vực chăm sóc y tế (Ảnh Techradar)
Big data đang được ứng dụng rất nhiều trong lĩnh vực chăm sóc y tế (Ảnh Techradar) 

Big Data cũng đang được ứng dụng rất nhiều vào lĩnh vực chăm sóc sức khỏe. Một điển hình rõ ràng đó là sự thay đổi cơ bản từ cách lập phác đồ “bằng bút và giấy” mà ở đó các dữ liệu của bác sỹ luôn phải giữ trong tủ hồ sơ ở văn phòng, sang hồ sơ y tế điện tử - Electronic Health Records (EHR), mà hiện nay tất cả các thông tin bệnh nhân đều được sắp xếp khoa học trong cơ sở dữ liệu máy tính, và bác sỹ có thể khai thác bất cứ khi nào.

Phương pháp này hứa hẹn sẽ rất bùng nổ trong tương lai, với một bài viết gần đây được đăng trên tạp chí European Heart Journal có nội dung về “tiềm năng nâng cao hiểu biết của chúng ta về nguyên nhân và cách phân loại bệnh phù hợp với kết quả giải thích ban đầu và góp phần thực hiện các phân tích với đầy đủ dữ liệu nhằm nâng cao chất lượng chăm sóc y tế”.

Những lợi ích của Big Data trong chăm sóc y tế còn vượt quá phạm vi của việc khai thác dữ liệu EHR. Một thách thức rất lớn đối với các bệnh viện đó là công tác sắp xếp nhân sự, đây là vấn đề luôn phải được thực hiện một cách hợp lý nhất, với nhiều khả năng sẽ phải tăng lên trong những giai đoạn lượng bệnh nhân đông nhất.

Một nhóm 4 bệnh viện ở Paris, trong đó có cả bệnh viện Assistance Publique-Hôpitaux de Paris (AP-HP), đang tìm cách tăng sự linh hoạt trong cách sắp xếp nhân sự. Họ đã sử dụng cơ sở dữ liệu về số bệnh nhân nhập viện trong 10 năm qua, mức giảm bệnh nhân theo từng đợt trong ngày, cũng như từng giờ trong ngày, và kết hợp với các thông tin thời tiết, kiểu bệnh cúm, và các kỳ nghỉ của người dân.

Sử dụng công nghệ máy học, sau đó họ cải tiến các thuật toán của mình để tính các xu hướng trong tương lai nhằm dự đoán số người nhập viện tiếp theo trong những ngày và thời điểm khác nhau. Kết quả là hiện nay nhóm này đang có một giao diện trình duyệt rất dễ sử dụng cho công tác quản lý hành chính trong bệnh viện, cũng như việc các nhân viên y tế có thể dự đoán được tỷ lệ người nhập viện trong 15 ngày tiếp theo, kết quả này được sử dụng để tăng thêm số nhân viên y tế vào các thời điểm có nhiều bệnh nhân nhập viện hơn thường lệ.

Với dữ liệu, đặc biệt là dữ liệu di động đang được tạo ra với tốc độ cực nhanh hiện nay, thì phương pháp Big Data là rất quan trọng để biến một khối lượng thông tin thô khổng lồ thành các thông tin giúp thúc đẩy hành động. Những ví dụ được nêu ở trên, thì thách thức đã được giải quyết, và thậm chí khi càng nhiều dữ liệu được thu thập, thì ta sẽ càng có nhiều cơ hội để nâng cao chất lượng và hiệu quả trong việc ứng dụng vào nhiều ngành khác nhau nhờ tốc độ phân tích nhanh hơn và hiệu quả hơn các cơ sở dữ liệu thô khắp nơi mà ta có.

Theo Tech Radar