Tìm hiểu về Web Scraping Bot là gì?

19/10/2019

Bot là một phần mềm thực hiện nhiệm vụ tự động trên Internet, thông thường là các công việc đơn giản, có tính lặp lại cao như thu thập dữ liệu máy tìm kiếm, theo dõi website, lấy dữ liệu web, đo tốc độ trang và hiệu suất API. Bot cũng thường được sử dụng tự động quét mạng và website nhằm tìm kiếm và giảm thiểu lỗ hổng.

Web Scraping là gì ?

Web scraping là một quá trình tự động thu thập thông tin từ website. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chép và đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhận được sự chấp nhận từ chủ sở hữu website.

Thông thường, các con bot sao chép dữ liệu bằng cách crawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên website của các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc, lấy nội dung và đăng tải lên trang khác.

Web-scraping-1

Một dạng scraping nâng cao hơn đó là database scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra con bot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.

Web-scraping-2

Database scraping có thể được dùng để đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng và những tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễ dàng với các con bot.

Lấy ví dụ về một hãng cho thuê ô tô, nếu công ty tạo ra một con bot thường xuyên kiểm tra giá của công ty đối thủ và nhanh chóng giảm giá thấp hơn sẽ có nhiều lợi thế cạnh tranh. Ngược lại, để xử lý các mối đe dọa do Scraping gây ra, doanh nghiệp cũng cần triển khai giải pháp phát hiện, xác định và giảm thiểu các con bot.

Web-scraping-3

Không phải mọi Web Scraping đều xấu

Trong nhiều trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt. Ví dụ website của nhiều chính phủ cung cấp dữ liệu cho các website công cộng. Tương tự đối với các trang về du lịch, đặt phòng vé hay đặt phòng khách sạn. Các con bot lấy dữ liệu về từ API hoặc Scraping, phân loại nội dung rồi điều hướng lưu lượng đến website.

Cách phát hiện và ngăn chặn Site Scraping

Site scraping là một công cụ mạnh mẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thông tin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây ra cạnh tranh không lành mạnh.

layer-7-ddos-client-classification-1

Quy trình phân loại client

Chủ website có thể thực hiện các phương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc phát hiện Scraping Bot:

  • Sử dụng công cụ phân tích – Các công cụ phân tích kiểm tra cấu trúc web request và thông tin header. Kết hợp các thông tin này với thông tin của các con bot trả về, chủ website có thể xác định đâu là con bot hợp pháp, đâu là con bot cần ngăn chặn.
  • Triển khai cách tiếp cận “thách thức” (challenge-based)  –  Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng CAPTCHA để chặn các một vài cuộc tấn công.
  • Lựa chọn cách tiếp cận hành vi – Hầu hết các con bot đều tự liên kết với các chương trình client gốc như JavaScript, Internet Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.
  • Sử dụng robots.txt – Chủ website có thể sử dụng robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có hiệu quả lâu dài. Đây là tệp tin hướng dẫn các con bot thực hiện theo luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ website không muốn Google đánh chỉ mục và khai thác chúng.

incapsula - Security Daily

 

Tin liên quan

17/02/2021

Dự đoán xu hướng điện toán đám mây năm 2021

Điện toán đám mây đóng vai trò quan trọng trong việc đối phó với cuộc khủng hoảng COVID-19. Các nhà cung cấp dịch vụ Cloud là những công ty thành công nổi bật trong năm bất thường nhất này.

15/02/2021

5 nền tảng công nghệ tiên phong trong năm mới 2021

Công nghệ ngày nay đang phát triển với tốc độ chóng mặt, tạo điều kiện cho sự thay đổi và tiến bộ nhanh hơn, khiến tốc độ thay đổi tăng nhanh, cho đến cuối cùng nó sẽ trở thành cấp số nhân.

09/02/2021

Tổng kết 5 xu hướng công nghệ HOT nhất năm 2020

Từ đầu năm 2020, sự bùng phát của đại dịch Covid 19 đã gây ra vô số khó khăn cho thế giới và đặc biệt ảnh hưởng mạnh mẽ đến các nhà sản xuất điện thoại, laptop,... trong lĩnh vực công nghệ.

06/02/2021

5 trong số các nền tảng Hosting Node.js tốt nhất cho năm 2021 (miễn phí và trả phí)

​Bạn đang gặp khó khăn trong việc tìm kiếm dịch vụ Hosting Node.js tốt nhất cho dự án tiếp theo của bạn? Trong bài viết này này, Viettel IDC sẽ chia sẻ với bạn một số dịch vụ Hosting Node.js cả miễn phí và trả phí cho người dùng ở mọi mức độ khác nhau. Hãy cũng chúng tôi theo dõi nhé.

06/02/2021

Một số nhà cung cấp dịch vụ Domain Hosting nước ngoài bạn nên biết

​Web Hosting và Domain Hosting, mặc dù có liên quan chặt chẽ với nhau nhưng bản chất nó là hai dịch vụ hoàn toàn khác nhau. Web Hosting cho phép người dùng tạo và lưu trữ nội dung, như một trang web, trên các máy chủ Internet. Domain Hosting ngoài việc cung cấp tên miền nó giúp khách truy cập vào nội dung web của bạn.

06/02/2021

Top 4 nhà cung cấp dịch vụ Dedicated Server Hosting nước ngoài tốt nhất

Khi Website của bạn có hàng nghìn lượt truy cập từ người dùng quốc tế hàng ngày, bạn nên cân nhắc đến một dịch vụ Dedicated Server Hosting. Nó sẽ mang đến cho bạn tất cả trải nghiệm tốt nhất có thể như trang Web tải nhanh hơn và hạn chế lỗi.

06/02/2021

Mắt Bão Hosting - Những "giới hạn" bạn cần biết khi sử dụng

​Mắt Bão Hosting là một trong nhiều dịch vụ được cung cấp bởi một nhà cung cấp tên miền lớn tại Việt Nam. Thế mạnh chủ yếu của Mắt Bão tập trung ở mảng tên miền. Vậy nếu như bạn có ý định thuê và sử dụng Mắt Bão Hosting cho mục đích kinh doanh của mình thì điều đó có thực sự phù hợp?

05/02/2021

Hosting Viettel - Sự hòa hợp giữa chất lượng và giá cả

​Hosting Viettel định hình mình là một bộ giải pháp hướng đến những khách hàng ở phân khúc tầm trung. Do đó, những sản phẩm trong bộ sưu tập Hosting Viettel hiện cũng đi theo chiều hướng này. So với những giải pháp Hosting từ những nhà cung cấp khác thì Hosting Viettel có gì đặc biệt hơn hay không?

03/02/2021

Những điều người dùng nên lưu ý khi sử dụng Hosting Việt Nam

Hosting Việt Nam có thể được hiểu là những gói dịch vụ lưu trữ dành cho người dùng tại Việt Nam nói riêng. Thực tế trên thị trường, có rất nhiều nhà cung cấp dịch vụ Hosting Việt Nam này.

03/02/2021

Hosting Linux là gì? Viettel IDC - Nhà cung cấp dịch vụ Hosting Linux phổ biến tại Việt Nam

Linux được xem như là hệ điều hành phổ biến nhất bởi vì nó là một nền tảng mã nguồn mở. Hệ thống mã nguồn mở cho phép nhà phát triển có thể sửa đổi và phân phối lại mà không bị hạn chế như hệ điều hành Windows.