CAPSOLVER
Blog
Cách sử dụng aiohttp để Scrape Web

Cách sử dụng aiohttp để Scrape Web

Logo of CapSolver

Anh Tuan

Data Science Expert

23-Sep-2024

aiohttp là gì?

Hình ảnh

aiohttp là một framework HTTP client/server bất đồng bộ mạnh mẽ cho Python. Nó tận dụng thư viện asyncio của Python để cho phép các hoạt động mạng đồng thời, làm cho nó rất hiệu quả đối với các tác vụ như thu thập dữ liệu web, phát triển web và bất kỳ hoạt động nào liên quan đến mạng.

Tính năng:

  • I/O bất đồng bộ: Được xây dựng trên asyncio để thực hiện các hoạt động mạng không chặn.
  • Hỗ trợ Client và Server: Cung cấp cả triển khai HTTP client và server.
  • Hỗ trợ WebSockets: Hỗ trợ tích hợp các giao thức WebSockets.
  • Hiệu suất cao: Xử lý hiệu quả nhiều kết nối cùng một lúc.
  • Khả năng mở rộng: Hỗ trợ middleware, tín hiệu và plugin để tùy chỉnh nâng cao.

Điều kiện tiên quyết

Trước khi bạn bắt đầu sử dụng aiohttp, hãy đảm bảo bạn có:

Bắt đầu với aiohttp

Cài đặt

Cài đặt aiohttp bằng pip:

bash Copy
pip install aiohttp

Ví dụ cơ bản: Thực hiện yêu cầu GET

Đây là cách thực hiện một yêu cầu GET đơn giản bằng aiohttp:

python Copy
import asyncio
import aiohttp

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            status = response.status
            text = await response.text()
            print(f'Mã trạng thái: {status}')
            print('Nội dung phản hồi:', text)

if __name__ == '__main__':
    asyncio.run(fetch('https://httpbin.org/get'))

Ví dụ thu thập dữ liệu web: Thu thập trích dẫn từ một trang web

Hãy thu thập dữ liệu từ trang web Quotes to Scrape để trích xuất các câu nói và tác giả của chúng:

python Copy
import asyncio
import aiohttp
from bs4 import BeautifulSoup

async def fetch_content(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def scrape_quotes():
    url = 'http://quotes.toscrape.com/'
    html = await fetch_content(url)
    soup = BeautifulSoup(html, 'html.parser')
    quotes = soup.find_all('div', class_='quote')
    for quote in quotes:
        text = quote.find('span', class_='text').get_text(strip=True)
        author = quote.find('small', class_='author').get_text(strip=True)
        print(f'{text} — {author}')

if __name__ == '__main__':
    asyncio.run(scrape_quotes())

Kết quả:

Copy
“Thế giới mà chúng ta đã tạo ra là một quá trình tư duy của chúng ta. Nó không thể thay đổi nếu không thay đổi tư duy của chúng ta.” — Albert Einstein
“Đó là những lựa chọn của chúng ta, Harry, điều đó cho thấy chúng ta thực sự là ai, hơn nhiều so với khả năng của chúng ta.” — J.K. Rowling
... (các câu nói khác)

Xử lý Captcha với CapSolver và aiohttp

Trong phần này, chúng ta sẽ tìm hiểu cách tích hợp CapSolver với aiohttp để bỏ qua captcha. CapSolver là một dịch vụ bên ngoài giúp giải quyết nhiều loại captcha, bao gồm ReCaptcha v2, v3

Chúng ta sẽ trình bày cách giải quyết ReCaptcha V2 bằng CapSolver và sau đó truy cập vào một trang yêu cầu giải quyết captcha.

Ví dụ: Giải quyết ReCaptcha V2 với CapSolver và aiohttp

Đầu tiên, cài đặt gói CapSolver:

bash Copy
pip install capsolver

Bây giờ, đây là cách bạn có thể giải quyết ReCaptcha V2 và sử dụng giải pháp trong yêu cầu của mình:

python Copy
import asyncio
import os
import aiohttp
import capsolver

# Thiết lập khóa API CapSolver của bạn
capsolver.api_key = os.getenv("CAPSOLVER_API_KEY", "Khóa API CapSolver của bạn")
PAGE_URL = os.getenv("PAGE_URL", "https://example.com")  # URL trang có captcha
SITE_KEY = os.getenv("SITE_KEY", "SITE_KEY")             # Khóa trang web Captcha

async def solve_recaptcha_v2():
    solution = capsolver.solve({
        "type": "ReCaptchaV2TaskProxyless",
        "websiteURL": PAGE_URL,
        "websiteKey": SITE_KEY
    })
    return solution['solution']['gRecaptchaResponse']

async def access_protected_page():
    captcha_response = await solve_recaptcha_v2()
    print("Captcha đã được giải quyết!")

    async with aiohttp.ClientSession() as session:
        data = {
            'g-recaptcha-response': captcha_response,
            # Bao gồm dữ liệu biểu mẫu khác nếu trang web yêu cầu
        }
        async with session.post(PAGE_URL, data=data) as response:
            content = await response.text()
            print('Nội dung trang:', content)

if __name__ == '__main__':
    asyncio.run(access_protected_page())

Lưu ý: Thay thế PAGE_URL bằng URL của trang chứa captcha và SITE_KEY bằng khóa trang web của captcha. Khóa trang web thường được tìm thấy trong mã nguồn HTML của trang trong widget captcha.

Xử lý Proxy với aiohttp

Để định tuyến các yêu cầu của bạn thông qua proxy, hãy chỉ định tham số proxy:

python Copy
import asyncio
import aiohttp

async def fetch(url, proxy):
    async with aiohttp.ClientSession() as session:
        async with session.get(url, proxy=proxy) as response:
            return await response.text()

async def main():
    proxy = 'http://username:password@proxyserver:port'
    url = 'https://httpbin.org/ip'
    content = await fetch(url, proxy)
    print('Nội dung phản hồi:', content)

if __name__ == '__main__':
    asyncio.run(main())

Bạn có thể quản lý cookie bằng CookieJar:

python Copy
import asyncio
import aiohttp

async def main():
    jar = aiohttp.CookieJar()
    async with aiohttp.ClientSession(cookie_jar=jar) as session:
        await session.get('https://httpbin.org/cookies/set?name=value')
        # Hiển thị cookie
        for cookie in jar:
            print(f'{cookie.key}: {cookie.value}')

if __name__ == '__main__':
    asyncio.run(main())

Sử dụng nâng cao: Tiêu đề tùy chỉnh và yêu cầu POST

Bạn có thể gửi tiêu đề tùy chỉnh và thực hiện yêu cầu POST với aiohttp:

python Copy
import asyncio
import aiohttp

async def main():
    headers = {
        'User-Agent': 'Mozilla/5.0 (compatible)',
        'Accept-Language': 'en-US,en;q=0.5',
    }
    data = {
        'username': 'testuser',
        'password': 'testpass',
    }
    async with aiohttp.ClientSession() as session:
        async with session.post('https://httpbin.org/post', headers=headers, data=data) as response:
            json_response = await response.json()
            print('JSON phản hồi:', json_response)

if __name__ == '__main__':
    asyncio.run(main())

Mã thưởng

Nhận mã thưởng của bạn cho các giải pháp captcha hàng đầu tại CapSolver: scrape. Sau khi đổi, bạn sẽ nhận được thêm 5% tiền thưởng sau mỗi lần nạp tiền, không giới hạn lần.
Hình ảnh

Kết luận

Với aiohttp, bạn có thể thực hiện hiệu quả các tác vụ thu thập dữ liệu web bất đồng bộ và xử lý nhiều hoạt động mạng cùng một lúc. Tích hợp nó với CapSolver cho phép bạn giải quyết các captcha như ReCaptcha V2, cho phép truy cập vào nội dung có thể bị hạn chế.

Cảm thấy tự do để mở rộng các ví dụ này cho phù hợp với nhu cầu cụ thể của bạn. Luôn nhớ tôn trọng các điều khoản dịch vụ của các trang web bạn thu thập dữ liệu và tuân thủ các hướng dẫn pháp lý.

Chúc bạn thu thập dữ liệu vui vẻ!

Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.

Thêm

Công cụ Ghi Dữ Liệu Nhanh: Cách Nhanh Chóng Trích Xuất Dữ Liệu Từ Web Không Cần Mã
Công cụ Ghi dữ liệu Nhanh: Cách nhanh chóng trích xuất dữ liệu web mà không cần code

Khám phá các công cụ trích xuất dữ liệu tức thì tốt nhất cho năm 2026. Học các cách nhanh chóng để trích xuất dữ liệu từ web mà không cần mã nguồn bằng cách sử dụng các tiện ích mở rộng hàng đầu và API để trích xuất tự động.

web scraping
Logo of CapSolver

Nikolai Smirnov

28-Jan-2026

Trích xuất dữ liệu từ web bài báo tin tức
Thu thập dữ liệu từ web các bài báo tin tức bằng Python (Hướng dẫn 2026)

Nắm vững trích xuất dữ liệu từ web bài báo tin tức bằng Python vào năm 2026. Học cách giải reCAPTCHA v2/v3 bằng CapSolver và xây dựng các pipeline dữ liệu có thể mở rộng.

web scraping
Logo of CapSolver

Anh Tuan

28-Jan-2026

Sử dụng Trình duyệt so với Browserbase: Công cụ tự động hóa trình duyệt nào tốt hơn cho các tác nhân AI?
Cách sử dụng trình duyệt so với Browserbase: Công cụ tự động hóa trình duyệt nào tốt hơn cho các tác nhân AI?

So sánh Browser Use với Browserbase cho tự động hóa bằng trợ lý AI. Khám phá tính năng, giá cả và cách giải CAPTCHAs bằng CapSolver để có luồng công việc mượt mà.

AI
Logo of CapSolver

Aloísio Vítor

27-Jan-2026

Chặn IP vào năm 2026: Cách chúng hoạt động và các cách thực tế để lách lệnh cấm
Cấm IP vào năm 2026: Cách chúng hoạt động và các cách thực tế để vượt qua chúng

Học cách lách chặn IP vào năm 2026 với hướng dẫn toàn diện của chúng tôi. Khám phá các kỹ thuật chặn IP hiện đại và giải pháp thực tế như proxy nhà ở và trình giải CAPTCHA.

web scraping
Logo of CapSolver

Aloísio Vítor

26-Jan-2026

Maxun với tích hợp CapSolver
Cách giải Captcha trong Maxun với tích hợp CapSolver

Một hướng dẫn thực tế về việc tích hợp CapSolver với Maxun cho quét web thực tế. Học cách xử lý reCAPTCHA, Cloudflare Turnstile và các trang web được bảo vệ bằng CAPTCHA bằng cách sử dụng quy trình xác thực trước và luồng công việc robot.

web scraping
Logo of CapSolver

Anh Tuan

21-Jan-2026

Browser4 với Tích hợp CapSolver
Cách giải Captcha trong Browser4 với tích hợp CapSolver

Tự động hóa Browser4 tỷ lệ xử lý cao kết hợp với CapSolver để xử lý các thách thức CAPTCHA trong việc trích xuất dữ liệu web quy mô lớn.

web scraping
Logo of CapSolver

Anh Tuan

21-Jan-2026