WebScraping là gì?
https://vicoders.livejournal.com/
Webscraping là một quá trình tự động thu thập thông tin từwebsite. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chépvà đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhậnđược sự chấp nhận từ chủ sở hữu website. Thông thường, các con bot sao chép dữ liệu bằng cáchcrawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên websitecủa các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc,lấy nội dung và đăng tải lên trang khác. Một dạng scraping nâng cao hơn đó làdatabase scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra conbot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó. Database scraping có thể được dùngđể đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng vànhững tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễdàng với các con bot. Không phải mọi Web Scraping đều xấu https://vicoders.livejournal.com/
Trong nhiều trường hợp, chủ dữ liệumuốn truyền tải dữ liệu đến càng nhiều người càng tốt. Cách phát hiện và ngăn chặn Site ScrapingSite scraping là một công cụ mạnhmẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thôngtin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây racạnh tranh không lành mạnh. Quy trình phân loại client Chủ website có thể thực hiện cácphương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc pháthiện Scraping Bot: - Sử dụng công cụ phân tích - Các công cụ phân tích kiểm tra cấu trúc web request và thông tin header. Kết hợp các thông tin này với thông tin của các con bot trả về, chủ website có thể xác định đâu là con bot hợp pháp, đâu là con bot cần ngăn chặn.
- Triển khai cách tiếp cận, thách thức (challenge-based) - Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng CAPTCHA để chặn các một vài cuộc tấn công.
- Lựa chọn cách tiếp cận hành vi - Hầu hết các con bot đều tự liên kết với các chương trình client gốc như JavaScript, Internet Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn chặn và giảm thiểu chúng.
- Sử dụng robots.txt - Chủ website có thể sử dụng robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có hiệu quả lâu dài.
- Đây là tệp tin hướng dẫn các con bot thực hiện theo luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ website không muốn Google đánh chỉ mục và khai thác chúng.
|