Hàng khuyến mãi Hang khuyen mai hang thanh ly hàng thanh lý

Hãy chọn Truy cập bằng mobile | Tiếp tục
Từ khóa hot: Thời trang Đồng hồ Thẩm mỹ Xây dựng Chăm sóc sức khỏe   |  
Tìm nâng cao

Tìm hiểu về Web Scraping Bot là gì? [Copy địa chỉ]

Thời gian đăng: 3/9/2019 14:14:46

WebScraping là gì?



https://vicoders.livejournal.com/

Webscraping là một quá trình tự động thu thập thông tin từwebsite. Kiểu scraping phổ biến nhất là site scraping, tập trung vào sao chépvà đánh cắp nội dung web. Hành vi tái sử dụng nội dung có thể có hoặc không nhậnđược sự chấp nhận từ chủ sở hữu website.

Thông thường, các con bot sao chép dữ liệu bằng cáchcrawling. Crawl là một thuật ngữ mô tả quá trình thu thập dữ liệu trên websitecủa các con bot. Các con bot truy cập vào mã nguồn website, phân tích cấu trúc,lấy nội dung và đăng tải lên trang khác.

Một dạng scraping nâng cao hơn đó làdatabase scraping. Nó khá giống với site scraping ngoài việc tin tặc tạo ra conbot tương tác với phần ứng dụng nhằm lấy dữ liệu từ cơ sở dữ liệu của trang đó.

Database scraping có thể được dùngđể đánh cắp tài sản sở hữu trí tuệ, danh sách đơn giá, danh sách khách hàng vànhững tập dữ liệu khác thường gây khó chịu với người nhập liệu nhưng rất dễdàng với các con bot.

Không phải mọi Web Scraping đều xấu

https://vicoders.livejournal.com/

Trong nhiều trường hợp, chủ dữ liệumuốn truyền tải dữ liệu đến càng nhiều người càng tốt.

Cách phát hiện và ngăn chặn Site ScrapingSite

scraping là một công cụ mạnhmẽ. Với mục đích đúng đắn, nó giúp tự động hóa việc thu thập và phát tán thôngtin. Với mục đích sai, nó có thể dẫn tới đánh cắp tài sản trí tuệ hoặc gây racạnh tranh không lành mạnh.

Quy trình phân loại client

Chủ website có thể thực hiện cácphương pháp sau để phân loại và giảm thiểu các con bot, bao gồm cả việc pháthiện Scraping Bot:

  • Sử dụng công cụ phân tích - Các công cụ phân tích kiểm     tra cấu trúc web request và thông tin header. Kết hợp các thông tin này     với thông tin của các con bot trả về, chủ website có thể xác định đâu là     con bot hợp pháp, đâu là con bot cần ngăn chặn.
  • Triển khai cách tiếp cận, thách thức (challenge-based)     - Sử dụng các công nghệ web để đánh giá hành vi của client như nó có hỗ     trợ cookie và JavaScript hay không? Chủ website cũng có thể sử dụng     CAPTCHA để chặn các một vài cuộc tấn công.
  • Lựa chọn cách tiếp cận hành vi - Hầu hết các con bot     đều tự liên kết với các chương trình client gốc như JavaScript, Internet     Explorer hay Chrome. Nếu đặc điểm của các con bot này khác biệt với client     gốc, chủ website có thể sử dụng các điểm bất thường để phát hiện, ngăn     chặn và giảm thiểu chúng.
  • Sử dụng robots.txt - Chủ website có thể sử dụng     robots.txt để bảo vệ website trước scraping bot, nhưng cách này không có     hiệu quả lâu dài.
  • Đây là tệp tin hướng dẫn các con bot thực hiện theo     luật định sẵn. Trong một vài trường hợp, một vài con bot độc hại sẽ tìm     kiếm thông tin trong robots.txt (thư mục riêng, trang quản trị) mà chủ     website không muốn Google đánh chỉ mục và khai thác chúng.


Đánh giá

Lưu trữ | Phiên bản Mobile | Quy chế | Chính sách | Chợ24h

GMT+7, 29/3/2024 04:22 , Processed in 0.085193 second(s), 132 queries .

© Copyright 2011-2024 ISOFT®, All rights reserved
Công ty CP Phần mềm Trí tuệ
Số ĐKKD: 0101763368 do Sở KH & ĐT Tp. Hà Nội cấp lần đầu ngày 13/7/2005, sửa đổi lần thứ 4 ngày 03/11/2011
Văn phòng: Tầng 9, Tòa Linh Anh, Số 47-49 Khuất Duy Tiến, P. Thanh Xuân Bắc, Q. Thanh Xuân, Hà Nội
Tel: (84) 2437 875018 | (84) 2437 875017 | E-Mail: cho24h@isoftco.com

Lên trên