Cách sử dụng aiohttp để Scrape Web

Blog

All

Blog

All

Cách sử dụng aiohttp để Scrape Web

Anh Tuan

Data Science Expert

23-Sep-2024

aiohttp là gì?

aiohttp là một framework HTTP client/server bất đồng bộ mạnh mẽ cho Python. Nó tận dụng thư viện asyncio của Python để cho phép các hoạt động mạng đồng thời, làm cho nó rất hiệu quả đối với các tác vụ như thu thập dữ liệu web, phát triển web và bất kỳ hoạt động nào liên quan đến mạng.

Tính năng:

I/O bất đồng bộ: Được xây dựng trên asyncio để thực hiện các hoạt động mạng không chặn.
Hỗ trợ Client và Server: Cung cấp cả triển khai HTTP client và server.
Hỗ trợ WebSockets: Hỗ trợ tích hợp các giao thức WebSockets.
Hiệu suất cao: Xử lý hiệu quả nhiều kết nối cùng một lúc.
Khả năng mở rộng: Hỗ trợ middleware, tín hiệu và plugin để tùy chỉnh nâng cao.

Điều kiện tiên quyết

Trước khi bạn bắt đầu sử dụng aiohttp, hãy đảm bảo bạn có:

Python 3.7 trở lên
pip để cài đặt các gói Python

Bắt đầu với aiohttp

Cài đặt

Cài đặt aiohttp bằng pip:

bash Copy

pip install aiohttp

Ví dụ cơ bản: Thực hiện yêu cầu GET

Đây là cách thực hiện một yêu cầu GET đơn giản bằng aiohttp:

python Copy

import asyncio
import aiohttp

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            status = response.status
            text = await response.text()
            print(f'Mã trạng thái: {status}')
            print('Nội dung phản hồi:', text)

if __name__ == '__main__':
    asyncio.run(fetch('https://httpbin.org/get'))

Ví dụ thu thập dữ liệu web: Thu thập trích dẫn từ một trang web

Hãy thu thập dữ liệu từ trang web Quotes to Scrape để trích xuất các câu nói và tác giả của chúng:

python Copy

import asyncio
import aiohttp
from bs4 import BeautifulSoup

async def fetch_content(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def scrape_quotes():
    url = 'http://quotes.toscrape.com/'
    html = await fetch_content(url)
    soup = BeautifulSoup(html, 'html.parser')
    quotes = soup.find_all('div', class_='quote')
    for quote in quotes:
        text = quote.find('span', class_='text').get_text(strip=True)
        author = quote.find('small', class_='author').get_text(strip=True)
        print(f'{text} — {author}')

if __name__ == '__main__':
    asyncio.run(scrape_quotes())

Kết quả:

Copy

“Thế giới mà chúng ta đã tạo ra là một quá trình tư duy của chúng ta. Nó không thể thay đổi nếu không thay đổi tư duy của chúng ta.” — Albert Einstein
“Đó là những lựa chọn của chúng ta, Harry, điều đó cho thấy chúng ta thực sự là ai, hơn nhiều so với khả năng của chúng ta.” — J.K. Rowling
... (các câu nói khác)

Xử lý Captcha với CapSolver và aiohttp

Trong phần này, chúng ta sẽ tìm hiểu cách tích hợp CapSolver với aiohttp để bỏ qua captcha. CapSolver là một dịch vụ bên ngoài giúp giải quyết nhiều loại captcha, bao gồm ReCaptcha v2, v3

Chúng ta sẽ trình bày cách giải quyết ReCaptcha V2 bằng CapSolver và sau đó truy cập vào một trang yêu cầu giải quyết captcha.

Ví dụ: Giải quyết ReCaptcha V2 với CapSolver và aiohttp

Đầu tiên, cài đặt gói CapSolver:

bash Copy

pip install capsolver

Bây giờ, đây là cách bạn có thể giải quyết ReCaptcha V2 và sử dụng giải pháp trong yêu cầu của mình:

python Copy

import asyncio
import os
import aiohttp
import capsolver

# Thiết lập khóa API CapSolver của bạn
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Khóa API CapSolver của bạn")
PAGE_URL = os.getenv("PAGE_URL", "https://example.com")  # URL trang có captcha
SITE_KEY = os.getenv("SITE_KEY", "SITE_KEY")             # Khóa trang web Captcha

async def solve_recaptcha_v2():
    solution = capsolver.solve({
        "type": "ReCaptchaV2TaskProxyless",
        "websiteURL": PAGE_URL,
        "websiteKey": SITE_KEY
    })
    return solution['solution']['gRecaptchaResponse']

async def access_protected_page():
    captcha_response = await solve_recaptcha_v2()
    print("Captcha đã được giải quyết!")

    async with aiohttp.ClientSession() as session:
        data = {
            'g-recaptcha-response': captcha_response,
            # Bao gồm dữ liệu biểu mẫu khác nếu trang web yêu cầu
        }
        async with session.post(PAGE_URL, data=data) as response:
            content = await response.text()
            print('Nội dung trang:', content)

if __name__ == '__main__':
    asyncio.run(access_protected_page())

Lưu ý: Thay thế PAGE_URL bằng URL của trang chứa captcha và SITE_KEY bằng khóa trang web của captcha. Khóa trang web thường được tìm thấy trong mã nguồn HTML của trang trong widget captcha.

Xử lý Proxy với aiohttp

Để định tuyến các yêu cầu của bạn thông qua proxy, hãy chỉ định tham số proxy:

python Copy

import asyncio
import aiohttp

async def fetch(url, proxy):
    async with aiohttp.ClientSession() as session:
        async with session.get(url, proxy=proxy) as response:
            return await response.text()

async def main():
    proxy = 'http://username:password@proxyserver:port'
    url = 'https://httpbin.org/ip'
    content = await fetch(url, proxy)
    print('Nội dung phản hồi:', content)

if __name__ == '__main__':
    asyncio.run(main())

Bạn có thể quản lý cookie bằng CookieJar:

python Copy

import asyncio
import aiohttp

async def main():
    jar = aiohttp.CookieJar()
    async with aiohttp.ClientSession(cookie_jar=jar) as session:
        await session.get('https://httpbin.org/cookies/set?name=value')
        # Hiển thị cookie
        for cookie in jar:
            print(f'{cookie.key}: {cookie.value}')

if __name__ == '__main__':
    asyncio.run(main())

Sử dụng nâng cao: Tiêu đề tùy chỉnh và yêu cầu POST

Bạn có thể gửi tiêu đề tùy chỉnh và thực hiện yêu cầu POST với aiohttp:

python Copy

import asyncio
import aiohttp

async def main():
    headers = {
        'User-Agent': 'Mozilla/5.0 (compatible)',
        'Accept-Language': 'en-US,en;q=0.5',
    }
    data = {
        'username': 'testuser',
        'password': 'testpass',
    }
    async with aiohttp.ClientSession() as session:
        async with session.post('https://httpbin.org/post', headers=headers, data=data) as response:
            json_response = await response.json()
            print('JSON phản hồi:', json_response)

if __name__ == '__main__':
    asyncio.run(main())

Mã thưởng

Nhận mã thưởng của bạn cho các giải pháp captcha hàng đầu tại CapSolver: scrape. Sau khi đổi, bạn sẽ nhận được thêm 5% tiền thưởng sau mỗi lần nạp tiền, không giới hạn lần.
Hình ảnh

Kết luận

Với aiohttp, bạn có thể thực hiện hiệu quả các tác vụ thu thập dữ liệu web bất đồng bộ và xử lý nhiều hoạt động mạng cùng một lúc. Tích hợp nó với CapSolver cho phép bạn giải quyết các captcha như ReCaptcha V2, cho phép truy cập vào nội dung có thể bị hạn chế.

Cảm thấy tự do để mở rộng các ví dụ này cho phù hợp với nhu cầu cụ thể của bạn. Luôn nhớ tôn trọng các điều khoản dịch vụ của các trang web bạn thu thập dữ liệu và tuân thủ các hướng dẫn pháp lý.

Chúc bạn thu thập dữ liệu vui vẻ!

Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.

Thêm

phần mở rộng tốt nhất để giải CAPTCHA 2026

Tiện ích tốt nhất để giải CAPTCHA 2026 là gì?

Trong thế giới an ninh trực tuyến không ngừng phát triển, các thách thức CAPTCHA đã trở thành rào cản phổ biến đối với người dùng internet...

Extension

Ethan Collins

12-Dec-2025

Genlogin: Đổi mới Trải nghiệm Tự động hóa Web

Trong bài viết này, chúng tôi sẽ giới thiệu cho bạn Genlogin là gì và các dịch vụ mà họ cung cấp.

Partners

Rajinder Singh

12-Dec-2025

Proxys.io: Proxy riêng lẻ cho bất kỳ nhiệm vụ nào

Trong bài viết này, chúng tôi sẽ giới thiệu cho bạn Proxys.io là gì và các dịch vụ mà họ cung cấp.

Partners

Lucas Mitchell

12-Dec-2025

Tabproxy: Dịch vụ proxy nhà ở giá trị tốt cho khu vực nước ngoài

Trong bài viết này, chúng tôi sẽ giới thiệu cho bạn Tabproxy là gì và các dịch vụ mà họ cung cấp.

web scraping

Anh Tuan

12-Dec-2025

IP2World Proxy Nhà Ở: Giải pháp IP proxy toàn cầu hàng đầu

Trong bài viết này, chúng tôi sẽ giới thiệu cho bạn IP2World là gì và các dịch vụ mà họ cung cấp.

Partners

Ethan Collins

12-Dec-2025

Các lỗi 402, 403, 404 và 429 là gì trong việc quét web? Hướng dẫn toàn diện

Nắm vững xử lý lỗi quét web bằng cách hiểu các lỗi 402, 403, 404 và 429. Học cách sửa lỗi 403 Cấm, triển khai giải pháp xử lý lỗi 429 và xử lý mã trạng thái 402 Yêu cầu thanh toán mới xuất hiện.

web scraping

Lucas Mitchell

12-Dec-2025

Cách sử dụng aiohttp để Scrape Web

aiohttp là gì?

Điều kiện tiên quyết

Bắt đầu với aiohttp

Cài đặt

Ví dụ cơ bản: Thực hiện yêu cầu GET

Ví dụ thu thập dữ liệu web: Thu thập trích dẫn từ một trang web

Xử lý Captcha với CapSolver và aiohttp

Ví dụ: Giải quyết ReCaptcha V2 với CapSolver và aiohttp

Xử lý Proxy với aiohttp

Xử lý Cookie với aiohttp

Sử dụng nâng cao: Tiêu đề tùy chỉnh và yêu cầu POST

Mã thưởng

Kết luận

Thêm

Tiện ích tốt nhất để giải CAPTCHA 2026 là gì?

Genlogin: Đổi mới Trải nghiệm Tự động hóa Web

Proxys.io: Proxy riêng lẻ cho bất kỳ nhiệm vụ nào

Tabproxy: Dịch vụ proxy nhà ở giá trị tốt cho khu vực nước ngoài

IP2World Proxy Nhà Ở: Giải pháp IP proxy toàn cầu hàng đầu

Các lỗi 402, 403, 404 và 429 là gì trong việc quét web? Hướng dẫn toàn diện