Parsera

Parsera Parsera Parsera

2024-01-01 1 分钟阅读

Parsera概述

Parsera是一个轻量级的Python库，专门为使用大型语言模型（LLMs）进行网页数据抓取而设计。它的设计目标是简化网页抓取过程，减少代币使用，从而提高速度并降低成本。用户可以在其官方网站上进行测试。

安装方法 要安装Parsera，用户需要运行以下命令：

pip install parsera playwright install

在使用OpenAI的模型时，需要设置OPENAI_API_KEY环境变量。

基本用法 Parsera的基本使用非常简单，以下是一个抓取网站数据的示例：

from parsera import Parsera

url = “https://news.ycombinator.com/" elements = { “Title”: “News title”, “Points”: “Number of points”, “Comments”: “Number of comments”, }

scrapper = Parsera() result = scrapper.run(url=url, elements=elements)

运行后，result将包含抓取到的数据，格式为JSON数组。Parsera还支持异步方法arun，可以用于Jupyter Notebook。

应用场景 Parsera适合用于各种网页数据抓取的场景，包括但不限于：

因其简单易用和高效性，Parsera非常适合研发人员和数据分析师在需要快速抓取和处理网络数据时使用。

本指南使用到的工具