Chợ24h

Tiêu đề: Tìm hiểu về Web Scraping Bot là gì? [In trang]

Thành viên: Damlinh    Thời gian: 3/9/2019 14:14:46     Tiêu đề: Tìm hiểu về Web Scraping Bot là gì?

WebScraping là gì?



https://vicoders.livejournal.com/

Webscraping là một quá trình tự động thu thập thông tin từwebsite. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chépvà đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhậnđược sự chấp nhận từ chủ sở hữu website.

Thông thường, các con bot sao chép dữ liệu bằng cáchcrawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên websitecủa các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc,lấy nội dung và đăng tải lên trang khác.

Một dạng scraping nâng cao hơn đó làdatabase scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra conbot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.

Database scraping có thể được dùngđể đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng vànhững tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễdàng với các con bot.

Không phải mọi Web Scraping đều xấu

https://vicoders.livejournal.com/

Trong nhiều trường hợp, chủ dữ liệumuốn truyền tải dữ liệu đến càng nhiều người càng tốt.

Cách phát hiện và ngăn chặn Site ScrapingSite

scraping là một công cụ mạnhmẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thôngtin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây racạnh tranh không lành mạnh.

Quy trình phân loại client

Chủ website có thể thực hiện cácphương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc pháthiện Scraping Bot:







  © Copyright 2011-2013 iSoftco®, All rights reserved
Văn phòng công ty: P.16/706, Tòa nhà Thành Công, 57 Láng Hạ, phường Thành Công, quận Ba Đình, Hà Nội
Tel: (84-4) 37 875018;(84-4) 3555 8604 | Fax: (84-4) 37 875017 | E-Mail: cho24h@isoftco.com