Dữ liệu lớn (Big Data)... là gì?

19/10/2019

Big data có vai trò mấu chốt ở khắp mọi nơi trong xu hướng cách mạng công nghiệp 4.0, ẩn chứa rất nhiều thông tin quý giá mà nếu trích xuất thành công sẽ giúp rất nhiều cho việc sản xuất, nắm bắt xu thế kinh doanh, dự đoán dịch bệnh, phát hiện sớm tội phạm...

"Big data" thời gian gần đây ngày càng được nhắc đến nhiều hơn như một thành phần công nghệ thiết yếu của thành phố thông minh và cuộc cách mạng công nghiệp 4.0. Vậy big data có phải là một khái niệm quá phức tạp?

Về cơ bản big data đơn giản như tên gọi, là một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào đảm đương được. Vì khối dữ liệu quá lớn nên việc triển khai big data sẽ gặp những trở ngại bao gồm thu nhận dữ liệu, lưu trữ dữ liệu, tìm kiếm, chia sẻ, chuyển giao, cập nhật…

Tuy nhiên big data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm, hay đo lường điều kiện giao thông theo thời gian thực.

Từ năm 2001, chuyên gia của META Group (bây giờ đã sát nhập vào công ty nghiên cứu Gartner) đã nói rằng những trở ngại và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng ba chiều là tăng về lượng (volume), tăng về vận tốc (velocity) và tăng về kiểu dữ liệu (variety), trở thành mô hình tiêu chí "3V" cho big data.

Về sau bộ tiêu chí big data này được thêm các tiêu chuẩn ví dụ như độ tin cậy (veracity) bởi độ tin cậy dao dộng mạnh của dữ liệu thu nhận được sẽ ảnh hưởng quan trọng đến thông tin trích xuất.

Big data là gì?

Big data có thể được mô tả bằng các tiêu chí là về lượng (volume), về vận tốc (velocity), về kiểu dữ liệu (variety) và về độ tin cậy (veracity). Nguồn ảnh: Internet.​

Ví dụ cho tiềm năng khối dữ liệu lớn có thể kể đến kính thiên văn Sloan Digital Sky Survey đặt tại New Mexico (Mỹ) bắt đầu đi vào hoạt động hồi năm 2000; sau một vài tuần thiết bị này đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học từng thu thập trong quá khứ, và sau 10 năm tổng dung lượng đã đạt đến hơn 140 terabyte (terabyte bằng 1 nghìn gigabyte).Như đã nói ở trên, big data là tập hợp dữ liệu lớn và phức tạp vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, tính đến năm 2012 mỗi ngày có 2,5 exabyte dữ liệu được sinh ra (exabyte bằng 1 tỷ gigabyte), và đến năm 2025 IDC dự đoán số liệu này sẽ là 163 zettabyte (zettabyte bằng 1 nghìn exabyte)...

Trong khi đó thống kê được công bố thời điểm cuối năm 2017 cho thấy Facebook đang có khoảng 2 tỷ người dùng thường xuyên và chỉ riêng ảnh cũng đã có khoảng 300 triệu bức được tải lên mỗi ngày. YouTube hay Google cũng phải lưu lại hết vô số các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.

Nguồn dữ liệu cho big data tăng trưởng cực nhanh cũng một phần bởi sự gia tăng số lượng và giảm giá của các thiết bị cảm biến, thu nhận thông tin trong môi trường Internet vạn vật như điện thoại, camera, micro, chip bắt sóng…

Điều quan trọng là ứng dụng của big data có mặt ở khắp mọi nơi trong các xu hướng công nghệ ảo hóa mới nhất. Ví dụ như trong một mảng sản xuất của cuộc cách mạng công nghiệp 4.0, những công nghệ mới như big data hay cloud computing sẽ giúp cảnh báo sớm sản phẩm lỗi, hỏng, từ đó phòng ngừa trước và gia tăng năng suất, chất lượng, nâng cao giá trị cạnh tranh.

Để đưa ra nhận định hữu ích cho quy trình quản lý nhà máy công xưởng, dữ liệu cần được xử lý bằng các công cụ, các thuật toán để trích xuất ra được thông tin có ý nghĩa. Khi có vấn đề hiện hữu hoặc vô hình trong một công xưởng công nghiệp ví dụ như máy móc xuống cấp hoặc chi tiết hao mòn thì thuật toán phải có khả năng phát hiện và tìm cách giải quyết.

Big data còn ẩn chứa rất nhiều thông tin quý giá mà nếu trích xuất thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm; dù tất nhiên mức độ ứng dụng thu thập dữ liệu cũng đặt ra nghi ngại về sự giám sát vượt quá giới hạn riêng tư của công dân trong thành phố thông minh.

Một số ứng dụng big data ở Việt Nam

Ở Việt Nam, công nghệ big data đã bắt đầu được đưa vào ứng dụng vào một số sản phẩm thực tế, ví dụ như công cụ an ninh mạng CyRadar. Ông Nguyễn Minh Đức, CEO Công ty Cổ phần CyRadar cho hay big data là một trong những cách hay để các chuyên gia có thể phân tích để tìm ra các thông tin có thể phát hiện, truy tìm và ngăn chặn hacker phát tán virus và tổ chức tấn công mạng.

Trước những thủ đoạn tấn công mới của hacker như xâm nhập qua email để đánh lừa người dùng, sau đó dùng mã độc ẩn sâu trong ổ cứng máy tính để điều khiển các cuộc tấn công thông qua đám mây, CyRadar sử dụng big data để phân tích dữ liệu, phát hiện ra các dấu hiệu tấn công, hoặc phân biệt hành vi con người và hành vi mã độc trên mạng.

Theo đó CyRadar dùng nhiều tham số để phát hiện mã độc, nhận diện những hành vi mã độc không giống người bình thường, ví dụ hành vi tải dữ liệu khác thường, tải liên tục một file nào đấy liên tục, hoặc dùng thuật toán phát hiện file đuôi ảnh nhưng thực tế không phải là file ảnh.

Từ big data, các chuyên gia về bảo mật sẽ có cách tiếp cận thứ hai là dựa trên các lần lịch sử tấn công trước để dự đoán ra những tình huống mới, dự đoán bao giờ có một cuộc tấn công sắp xảy ra, phát hiện ra dấu hiệu hacker đang thăm dò,  chuẩn bị cho một cuộc tấn công. Dấu hiệu có thể là việc chuyển file dữ liệu tăng đột biến, hoặc là nguồn gốc server điểu khiển chưa bao giờ nhìn thấy trong mạng.

Một ví dụ khác là trong Ngày hội mua sắm trực tuyến - Online Friday đầu tháng 12/2017 vừa qua, sàn thương mại điện tử Sendo.vn áp dụng công nghệ big data để loại bỏ khuyến mãi ảo, đem đến ngày hội các sản phẩm tốt với giá ưu đãi thật, giúp khách hàng yên tâm mua sắm...

*Nguồn tham khảo ngoài: Wikipedia, Tinh Tế.

Tin liên quan

15/01/2021

Trí tuệ nhân tạo AI và tiềm năng ứng dụng đa lĩnh vực năm 2021

Ngày nay, AI được định nghĩa là sự mô phỏng các quá trình suy nghĩ và học tập của con người cho máy móc, đặc biệt là các hệ thống máy tính. Các quá trình này bao gồm việc học tập (thu thập thông tin và các quy tắc sử dụng thông tin), lập luận (sử dụng các quy tắc để đạt được kết luận gần đúng hoặc xác định), và tự sửa lỗi.

09/01/2021

[Bạn có biết?] Những ứng dụng tuyệt vời của công nghệ điện toán đám mây trong doanh nghiệp

Chuyên mục "Bạn có biết?" tháng 01/2021 của Viettel IDC lần này sẽ cung cấp cho các bạn những kiến thức cơ bản về "Những ứng dụng tuyệt vời của công nghệ điện toán đám mây trong doanh nghiệp", cùng đón đọc nhé!

07/01/2021

Kỹ sư IT - Nghề HOT nhất năm 2020 trong bối cảnh doanh nghiệp thực hiện chuyển đổi số

Năm 2020 với nhiều biến động đã qua đi, chúng ta hãy cùng nhìn lại xem thị trường nhân sự IT có những biến chuyển gì nhé. Nhìn chung, doanh số, tốc độ tăng trưởng, cũng như nhu cầu tuyển dụng của các công ty trong ngành IT có dấu hiệu hồi phục và tăng trưởng trở lại sau đại dịch Covid-19.

07/01/2021

Thuê VPS Mỹ, hãy chọn những nhà cung cấp lớn và uy tín

​Bạn có Website cung cấp sản phẩm và dịch vụ cho thị trường Mỹ. Bạn cần thuê VPS Mỹ hoặc những vùng lân cận để gia tăng tốc độ tải cho Website của mình. Đừng bỏ qua vì bài viết này là dành cho bạn. Qua bài viết, chúng tôi sẽ giúp bạn đưa ra ý tưởng phù hợp nhất khi lựa chọn thuê VPS Mỹ cho mục đích sử dụng của mình. Hãy cùng xem nhé.

07/01/2021

Viettel IDC - Điểm dừng chân cho nhu cầu thuê Cloud Server SSD tại Việt Nam

​Có lẽ phần lớn bạn đọc khi đọc đến bài viết này đều biết và hiểu định dạng ổ cứng SSD là gì rồi. Vậy bạn sẽ đánh giá thế nào khi Cloud Server kết hợp với ổ cứng SSD? Cloud Server vốn dĩ đã mang lại hiệu năng cao khi sử dụng. Nhưng chắc chắn với những lợi thế mà ổ cứng SSD mang lại, Cloud Server dường như sẽ như hổ mọc thêm cánh.

07/01/2021

Nếu được chọn lựa, bạn sẽ chọn VPS giá rẻ cho sinh viên hay VPS miễn phí?

VPS giá rẻ cho sinh viên là tên gọi chung cho dịch vụ lưu trữ giá rẻ trên thị trường hiện nay. Có khá nhiều nhà cung cấp dịch vụ này trên thị trường. Tuy nhiên, bên cạnh đó chúng ta cũng có các hình thức cung cấp VPS miễn phí. Vậy liệu rằng VPS giá rẻ cho sinh viên sẽ hơn VPS miễn phí ở những điểm nào?

07/01/2021

Bạn cần lưu ý những điều gì khi thuê VPS có GPU?

​Nếu bạn là một người thường xuyên sử dụng các game đồ hoạ nặng, treo máy trong thời gian dài thì giải pháp thuê VPS có GPU là một sự lựa chọn phù hợp. Ngoài vấn đề hiệu năng được giải quyết nhờ GPU, bạn còn có thể bảo vệ phần cứng của mình khỏi những vấn đề hưu hỏng khi sử dụng trong thời gian dài.

05/01/2021

Báo cáo về thị trường Điện toán đám mây tại Việt Nam năm 2020

Thị trường Điện toán đám mây năm 2020 đã được những chuyên gia trong ngành dự đoán trước về sự bùng nổ phát triển, đặc biệt là khi đại dịch Covid-19 diễn ra từ đầu năm đến nay khiến nhu cầu về công nghệ của doanh nghiệp trở nên cấp thiết hơn bao giờ hết. Chính vì điều này, thị trường Điện toán đám mây đã tăng trưởng nhanh chóng và đạt được những thành công nhất định, không chỉ trên thế giới mà cả ở Việt Nam trong năm nay.

05/01/2021

Doanh nghiệp nên tự xây dựng Cloud Server hay đi thuê?

​Xây dựng Cloud Server trên thực tế là một công việc phức tạp và tốn kém cả về nguồn lực và chi phí. Do đó, không phải doanh nghiệp nào cũng nên tự xây dựng Cloud Server dành riêng cho mình. Bài viết dưới đây, Viettel IDC sẽ phân tích giúp bạn những vấn đề bạn nên lường trước khi xây dựng Cloud Server và trong trường hợp nào thì doanh nghiệp bạn phù hợp để làm như vậy nhé.

05/01/2021

Nên chọn nhà cung cấp Việt Nam hay nước ngoài khi thuê VPS?

​Nhu cầu thuê VPS để sử dụng ngày càng nhiều. Tuy nhiên, đa phần mọi người đều “mắc kẹt” giữa việc lựa chọn thuê VPS của nhà cung cấp Việt Nam hay nước ngoài. Nếu bạn cũng đang trong trạng thái mông lung như vậy thì bài viết này là dành cho bạn. Qua bài viết này, Viettel IDC sẽ phân tích và đưa ra góc nhìn đa chiều giúp bạn có thể đưa ra quyết định xoay quanh vấn đề nay nhé.