Mình đã crawl thời khóa biểu của VLUTE - Phần 1
Trong tình hình dịch Covid 19 đang hoành hành, học online là bắt buộc với sinh viên - học sinh hiện tại. Nếu các bạn đã và đang học online thì ắt hẳn sẽ biết đây là một ác mộng >_<
- BeautifulSoup
Đầu tiên ta import các thư viện cần thiết vào:
- Thư viện Requests thực hiện các yêu cầu đến server và nhận về các response, dưới dạng HTML
Bây giờ tạo một request và in ra trang web dưới dạng HTML:
Như vậy là thành công, đã xem được trang web dưới dạng HTML
Oke, đó chỉ mới là khởi đầu thôi! Lần này chúng ta cần phải đào vào cách hoạt động của trang web mà theo như dân report facebook gọi là "hack"
Trong tình thế Google Meet chộp giật như nhạc ke cộng với việc xem thời khóa biểu trên website của trường cực rườm rà nên mình đã nghĩ ra việc viết một phần mềm nhỏ để xem thời khóa biểu trường nhanh gọn hơn.
Bài viết sử dụng BeautiSoup cùng Python 3, hoặc nếu thích bạn có thể sử dụng Tkinter để dựng giao diện long lanh thêm tí.
"Crawler là cách gọi theo chức năng của Web Crawler, tên gọi này có thể mô tả các hành động truy cập và thu thập dữ liệu của Web Crawler trên một website giống như một người hoặc một con bọ đang bò trườn trên trang đó"
Lưu ý:
Bài viết này yêu cần kiến thức cơ bản về Python 3, HTML nhé!
Các thư viện (Module) cần thiết:
- Requests- BeautifulSoup
Tiến hành thực hiện:
Đầu tiên, sử dụng Ide mà bạn thích. Ở đây mình sử dụng Pycharm nhé!
Tạo project với tên gọi tùy ý
Đầu tiên ta import các thư viện cần thiết vào:
from bs4 import BeautifulSoup
import requests
- Thư viện BeautifulSoup cho phép chúng ta lấy dữ liệu từ HTML nhanh và đơn giản hơn làm thủ công rất rất nhiều lần- Thư viện Requests thực hiện các yêu cầu đến server và nhận về các response, dưới dạng HTML
Bây giờ tạo một request và in ra trang web dưới dạng HTML:
html = requests.get("https://ems.vlute.edu.vn/", verify=False)
print(html.text)
Như vậy là thành công, đã xem được trang web dưới dạng HTML
Oke, đó chỉ mới là khởi đầu thôi! Lần này chúng ta cần phải đào vào cách hoạt động của trang web mà theo như dân report facebook gọi là "hack"
Nhận xét
Đăng nhận xét