首页>>文章资讯>>经验教程

一个简单的爬虫代码,使用了和库来爬取

2024-03-21 20:36:33 162

一个简单的爬虫代码,使用了和库来爬取网页内容。你可以根据需要修改URL和解析规则来爬取其他网站的内容。

import requests
from bs4 import BeautifulSoup

def get_html(url):
try:
response = requests.get(url)
response.raise_for_status()
response.encoding = response.apparent_encoding
return response.text
except Exception as e:
print("获取网页失败:", e)
return None

def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
# 在这里添加解析规则,提取你需要的文章信息
# 例如:提取所有段落文本
paragraphs = [p.get_text() for p in soup.find_all('p')]
return paragraphs

def main():
url = "https://www.example.com/" # 替换为你要爬取的网址
html = get_html(url)
if html:
content = parse_html(html)
print(content)
else:
print("无法获取网页内容")

if __name__ == '__main__':
main()

请确保已经安装了和库,如果没有安装,可以使用以下命令安装:

pip install requests
pip install beautifulsoup4

这个代码只是一个基本的爬虫框架,你可以根据自己的需求进行扩展和优化。例如,可以添加多线程或异步处理以提高爬取速度,或者使用代理IP和User-Agent池来避免被封禁等。