Hướng dẫn web crawler

Bài viết được sự cho phép của BBT Tạp chí Lập trình

Giới thiệu

Crawler là một công cụ giúp thu thập dữ liệu, thông tin từ các trang web khác nhau. Một trong những ví dụ về crawler mà chúng ta gặp hằng ngày là Google. Google là một hệ thống có nhiều máy chủ có thể crawling rất nhiều trang web trên Internet, từ đó chúng ta có thể tìm kiếm nội dung những trang web mà chúng ta cần dựa vào từ khoá cụ thể. Hoặc là những trang web so sánh giá cả từ nhiều nguồn khác nhau [websosanh.vn], trang tin báo tổng hợp [baomoi.com] và nhiều ví dụ khác mà mình không thể liệt kê hết ở đây.

Chúng ta có thể tự viết một crawler đơn giản nhằm thu gom một số dữ liệu cơ bản nào đó. Khi hướng dẫn học viên học module 2 [Advance Programming with Java] tại CodeGym, mình thường giao bài tập xây dựng công cụ crawler này. Ví dụ thu thập giá bất động sản trên các trang rao vặt hoặc giá sản phẩm trên các trang thương mại điện tử. Qua bài viết này, mình sẽ hướng dẫn lại các bạn làm bài tập này với ngôn ngữ lập trình Java.

Nhà đất bán ...nội dung các danh mục con của mục Nhà đất bán ở đây

Nhà đất cho thuê

Nhà đất cho thuê
...nội dung các danh mục con của mục Nhà đất cho thuê ở đây

Đoạn code trên cần sửa lại như dưới đây để loại ra những link không cần thiết:

public class DemoUsingURL {
    private static String getContentFrom[String link] throws IOException {
        ...
    }
    private static List getLinksFromMenu[String content, String menuPattern] {
        // Regex
        List links = new ArrayList[];
        Pattern p = Pattern.compile[menuPattern];
        Matcher m = p.matcher[content];
        while [m.find[]] {
            Pattern p2 = Pattern.compile[""];
            Matcher m2 = p2.matcher[m.group[1]];
            while [m2.find[]] links.add[m2.group[1]];
        }
        return links;
    }
    public static void main[String[] args] throws IOException {
        String content = getContentFrom[""];
        String sellMenuPattern = "
Nhà đất bán[.*?]";
        List sellLinks = getLinksFromMenu[content, sellMenuPattern];
        String rentalMenuPattern = "
Nhà đất cho thuê[.*?]";
        List rentalLinks = getLinksFromMenu[content, rentalMenuPattern];
        System.out.println[sellLinks];
        System.out.println[rentalLinks];
    }
}

Ở đoạn code trên, mình tách phần lấy nội dung từ đường dẫn trang web thành hàm getContentFrom, và một hàm tách link từ nội dung có tên là getLinksFromMenu. Hàm main sử dụng hai hàm được khai báo ở trên để lấy các đường link nằm trong mục Nhà đất bán và Nhà đất cho thuê.

1.3. Thực hành

Bây giờ, các bạn có thể tự thực hành với hướng dẫn hai bước trên để xác định những thông tin còn lại.

Nếu cần có kết quả ngay thì bạn có thể tham khảo mã nguồn mình cung cấp ở cuối bài viết này! 🙂

1.4. Tổng hợp các regex tìm được

Dưới đây các regex đã tìm được với trang batdongsan.com.vn để các bạn tham khảo:

Link các danh mục tin
Link đến nội dung chi tiết
Thông tin cụ thể [như tiêu đề, giá, diện tích,…] trong tin chi tiết

1.4.1. Link các danh mục tin

Tìm các link bên trong mục “Nhà đất bán” và “Nhà đất cho thuê”:

Pattern p1 = Pattern.compile["Nhà đất bán[.*?]"];
Pattern p2 = Pattern.compile["
Nhà đất cho thuê[.*?]"];

Sau đó, tìm các link danh mục thuộc “Nhà đất bán” và “Nhà đất cho thuê” để loại các link không cần thiết:

Pattern pLink = Pattern.compile[""];

1.4.2. Link đến nội dung chi tiết

 Pattern p = Pattern.compile["											



							
						

  

				
				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Top 1 innisfree vietnam cửa hàng Huyện Đồng Xuân Phú Yên 2022

		
	

		
		
		   
		   
		   
		
		
			Theo hồ chí minh, cách mạng giải phóng dân tộc muốn giành được thắng lợi thì cần phải:

		
	

		
		
		   
		   
		   
		
		
			Top 10 cửa hàng quốc hùng Huyện Thuận Nam Ninh Thuận 2022

		
	

		
		
		   
		   
		   
		
		
			Top 2 cửa hàng jollibee Huyện Phú Lương Thái Nguyên 2022

		
	

		
		
		   
		   
		   
		
		
			Top 12 cửa hàng thiên thanh Huyện Tam Dương Vĩnh Phúc 2022

		
	

		
		
		   
		   
		   
		
		
			Top 1 1 password cửa hàng Huyện Thới Bình Cà Mau 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 cửa hàng maybelline Huyện Long Điền Bà Rịa Vũng Tàu 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 cửa hàng zippo Huyện Dương Minh Châu Tây Ninh 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 pandora cửa hàng Thị xã Dĩ An Bình Dương 2022

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn xem trận Croatia vs Canada trực tiếp

		
	

		
		
		   
		   
		   
		
		
			Top 3 cửa hàng vietgap Huyện Thuận Thành Bắc Ninh 2022

		
	

		
		
		   
		   
		   
		
		
			Cách liên kết tài khoản game với Facebook

		
	

		
		
		   
		   
		   
		
		
			Top 6 cửa hàng thuận lợi Huyện Ia Pa Gia Lai 2022

		
	

		
		
		   
		   
		   
		
		
			Top 1 cửa hàng guardian Huyện Đăk Tô Kon Tum 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 cửa hàng alisa Huyện Vạn Ninh Khánh Hòa 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 cửa hàng anime Huyện Thanh Trì Hà Nội 2022

		
	

		
		
		   
		   
		   
		
		
			Top 1 bò bít tết Huyện Mù Cang Chải Yên Bái 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 cửa hàng túi Huyện Đức Huệ Long An 2022

		
	

		
		
		   
		   
		   
		
		
			Top 20 các cửa hàng fpt Huyện Lục Yên Yên Bái 2022

		
	

		
		
		   
		   
		   
		
		
			Cách gửi thông báo phát hành hóa đơn điện tử qua mạng

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 9 người ta điều chế pvc theo chuyển hóa sau 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 6 mẫu số 01 -- tt phiếu thu thông tư 200 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 9 cây đại phú gia ra hoa bảo hiệu điều gì 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 6 an ninh trật tự, an toàn xã hội la gì 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 8 trong chiến dịch biên giới thu - đông 1950 trận đánh nào ác liệt và có ý nghĩa nhất 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 9 nghĩa quân tây sơn đánh tan quân thanh trong trận đánh nào 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 8 khoa học lớp 5 tập 2 phiếu kiểm tra 4 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 8 lớp lõi trái đất có trạng thái 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 8 vở bài tập toán lớp 4 tập 1 bài 78: chia cho số có ba chữ số trang 89 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Cổng thanh toán điện tử quy mô thị tường năm 2024

		
	

		
		
		   
		   
		   
		
		
			376 võ văn tần p.5 q.3 tp hcm năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi windows loading files luc cài win 7 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Etc là viết tắt của từ gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Soạn văn bài lặng lẽ sa pa giáo án năm 2024

		
	

		
		
		   
		   
		   
		
		
			Thành phần chính của xác thực vật là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Nhà quản trị thành công là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Coông suất làm lạnh của máy lạnh là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Anh yêu em số là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Thời kỳ văn hóa hậu lê cơ sở văn hóa năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  Toplist
		  Địa Điểm Hay
		  Hỏi Đáp
		  Là gì
		  programming
		  Mẹo Hay
		  Nghĩa của từ
		  Học Tốt
		  Công Nghệ
		  Khỏe Đẹp
		  bao nhiêu
		  mẹo hay
		  Top List
		  Bao nhiêu
		  Bài Tập
		  Sản phẩm tốt
		  Xây Đựng
		  Ngôn ngữ
		  đánh giá
		  Tiếng anh
		  Bài tập
		  So Sánh
		  Ở đâu
		  So sánh
		  Hướng dẫn
		  Dịch 
		  bao nhieu
		  Tại sao
		  Đại học
		  hướng dẫn
		  Máy tính
		  Thế nào
		  Vì sao
		  Bao lâu
		  Khoa Học
		  Hà Nội
		  Món Ngon