百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

如何使用 ChatGPT 进行抓取 thor抓取

yuyutoo 2024-10-20 13:11 3 浏览 0 评论

ChatGPT 爬取简介

使用 SEO Spider 中的自定义 JavaScript 功能,可以在抓取过程中与 OpenAI 的 ChatGPT 等 API 进行通信。

在抓取过程中使用 AI 可以为您打开无限可能。它使您能够在抓取过程中针对页面元素使用提示。

您可以将 OpenAI 的各种模型用于各种目的,例如:

  • 生成图像的替代文本。
  • 页面内容的语言、情感或意图分析。
  • 抓取特定数据。
  • 从页面内容中提取嵌入。

以及更多!

您不需要知道如何编写 JavaScript 来使用此功能,可以使用我们的 ChatGPT 模板并按照每个代码片段中评论提供的指导进行调整。

本教程将引导您了解如何使用我们的各种 ChatGPT 代码片段。


如何使用预设 ChatGPT 代码片段

SEO Spider 中有各种预设的 ChatGPT JavaScript 代码片段,只需要 OpenAI API 密钥即可。以下是使用方法。


1)打开自定义 JavaScript 配置

导航到“配置 > 自定义 > 自定义 JavaScript”,然后单击右下角的“从库中添加”。


2) 选择“(ChatGPT)…”代码片段

“系统”选项卡是可供使用的预设 JavaScript 代码片段库。各种 ChatGPT 代码片段均附加有“(ChatGPT)”。

可以选择其中任何代码片段并添加 OpenAI API 密钥即可使用。下面突出显示的代码片段是预设的代码片段,只需要 API 密钥,无需进一步调整。

“ (ChatGPT) 模板”代码片段略有不同,我们将在本教程的后面部分介绍。在本示例中,我们选择了“(ChatGPT) 为图片生成替代文本”代码片段。

双击该代码片段进行选择,它将显示在自定义 JavaScript 配置中。


3)使用 JavaScript 代码段编辑器

单击代码片段行右侧的“JS”框来编辑代码片段。

这将启动 JS 代码片段编辑器配置。


4)添加你的 OpenAI API 密钥

要使用任何 ChatGPT 代码片段,您需要自己的OpenAI API 密钥。这与 ChatGPT 订阅不同,并且易于设置且使用成本低廉。

最简单的使用方式是注册一个OpenAI 账户,选择使用“API”,然后转到计费部分。在这里,您可以选择向账户添加固定金额的信用额度,例如 100 美元,以及调整消费限额等。请仔细查看他们的API 定价,以更好地了解代币的成本。

当您拥有 API 密钥时,请将代码片段第 25 行的“your_api_key_here”文本替换为您的 API 密钥。

记住保留两端的撇号,它看起来应该是这样的。

然后单击“确定”关闭 JS 代码片段编辑器,再次单击“确定”关闭自定义 JavaScript 配置。


5)启用 JavaScript 渲染

要运行自定义 JavaScript 片段,必须通过“配置 > Spider > 渲染”启用 JavaScript 渲染模式。

确保将渲染设置为“JavaScript”,这样页面将在无头 Chrome 的后台渲染。


6)爬取网站

输入您想要使用 ChatGPT 代码片段抓取的网站,然后点击“开始”。

或者使用列表模式上传 URL 列表。


7)查看自定义 JavaScript 选项卡

在自定义 JavaScript 选项卡和相关过滤器中实时查看 ChatGPT JavaScript 代码片段的结果。

在此示例中,使用 OpenAI 中的 gpt-4-vision-preview 模型返回每个图像及其生成的 alt 文本。

对于其他预设的 ChatGPT 片段,将返回其他内容类型并在相关的情况下使用不同的模型。


如何创建自定义 ChatGPT JS 代码片段

您可以使用“(ChatGPT) 模板”代码片段并进行调整来创建您自己的自定义 ChatGPT JavaScript 代码片段。让我们来看看。


1) 选择“(ChatGPT) 模板”代码片段

导航到“配置 > 自定义 > 自定义 JavaScript”,单击“从库中添加”并选择“(ChatGPT)模板”代码片段”。

按照上面已经概述的说明打开 JS 编辑器,并按照代码片段注释中的说明添加您的 OpenAI API 密钥。


2)调整提示

这就是奇迹发生的地方。在第 26 行,你可以用自己的自定义提示替换“你对以下文本有何看法?:”。

例如,“这段文字是什么语言?”或“为以下文字生成一个元描述,该描述的长度不超过 155 个字符,包括任何 USP 和最后的行动号召”。

在第 27 行,您可以调整用于提示的内容。默认为正文,但可以将其更新为页面标题、元描述或标题(作为示例)。

第 29 行至第 36 行的注释提供了这些示例,我们在下面还提供了更多内容。

HTML:
[document.documentElement.outerHTML];

主体:
[document.body.innerText];

页面标题:
[document.title];

元描述
[document.querySelector('meta[name="description"]')?.getAttribute('content')];

h1 标题(根据需要替换为 h2 等)
[...document.querySelectorAll('h1')].map(h => h.textContent);

在 JS 测试器的右侧插入一个 URL,然后单击“测试”以确保它按预期工作。

在提取器的底部,您可以调整代码片段所针对的内容类型。ChatGPT 模板的默认类型是 HTML。


3)将代码片段添加到你的库中

如果您对代码片段满意并希望保存以供将来使用,请单击“将代码片段添加到用户库”。

提供适当的名称和描述,然后单击“确定”接受,然后再次单击“确定”并“确定”退出配置对话框。


4)查看自定义 JS 选项卡

不要忘记启用JavaScript 渲染,然后坐下来观看结果出现在自定义 JavaScript 选项卡和相关过滤器中。

如果您已经熟悉使用 ChatGPT,则可能需要对提示进行一些改进才能获取所需的数据。

此示例仅用于启发灵感,我们不建议在未经审核和编辑的情况下将其用于元描述。


额外提示!

使用自定义 JavaScript 代码段和 ChatGPT 时需要考虑各种事项,您可能需要进一步配置这些事项。这些包括:

  • 模型– 在每个 ChatGPT 代码片段中,都有一个模型:。一般来说,'gpt-3.5-turbo' 用于特定于 HTML 的代码片段,但可以在代码片段中更新以使用另一个模型,例如'gpt-4-turbo'。查看OpenAI 模型的完整列表。
  • 速度– 不同的 OpenAI 模型和使用层级有不同的速率限制。请求速度可以通过“配置 > 速度”在 SEO Spider 中与抓取速度一起控制。但是,用户也可以扩展代码片段以包括节流作为替代方案。
  • 内容类型– 对于创建的每个代码片段,您可以定义代码片段所针对的内容类型。例如,文本/html与页面上的文本内容相关的片段,或图像/使用 gpt-4-vision-preview 模型时。
  • 文档——查看我们关于自定义 JavaScript 的综合文档,以了解有关其工作原理的更多详细信息。

如果您编写了任何独特且富有洞察力的 JavaScript 代码片段,请通过支持告知我们,我们可以将其包含在我们的代码片段库中。


常见错误

请阅读我们的关于如何调试自定义 JavaScript 代码片段的教程。

您可能会在 ChatGPT 代码片段中看到的常见错误包括:

类型错误:无法获取

错误将出现在 JS 代码片段测试器和自定义 JavaScript 选项卡和列中,如下所示:

TypeError: Failed to fetch

如果您按照上述教程在 Chrome 控制台中测试代码片段,您经常会看到以下错误:

Refused to connect to 'https://api.openai.com/v1/chat/completions' because it violates the following Content Security Policy directive

这意味着该网站有一个“Content-Security-Policy”标头,不允许 OpenAI 域。

因此,您无法为该 URL 运行任何 OpenAI ChatGPT 代码片段。

该模型不存在

错误将出现在 JS 代码片段测试器和自定义 JavaScript 选项卡和列中,如下所示:

The model `gpt-4o` does not exist or you do not have access to it.

如果您使用其中一个默认代码片段,它将使用“gpt-4o”模型——该模型肯定存在。

因此,请确保您拥有一个资金充足的 OpenAI 帐户并具有正确的访问权限。

您可以在OpenAI 游乐场的设置中的“模型”选择选项卡下查看您可以访问哪些模型。

相关推荐

Mysql和Oracle实现序列自增(oracle创建序列的sql)

Mysql和Oracle实现序列自增/*ORACLE设置自增序列oracle本身不支持如mysql的AUTO_INCREMENT自增方式,我们可以用序列加触发器的形式实现,假如有一个表T_WORKM...

关于Oracle数据库12c 新特性总结(oracle数据库19c与12c)

概述今天主要简单介绍一下Oracle12c的一些新特性,仅供参考。参考:http://docs.oracle.com/database/121/NEWFT/chapter12102.htm#NEWFT...

MySQL CREATE TABLE 简单设计模板交流

推荐用MySQL8.0(2018/4/19发布,开发者说同比5.7快2倍)或同类型以上版本....

mysql学习9:创建数据库(mysql5.5创建数据库)

前言:我也是在学习过程中,不对的地方请谅解showdatabases;#查看数据库表createdatabasename...

MySQL面试题-CREATE TABLE AS 与CREATE TABLE LIKE的区别

执行"CREATETABLE新表ASSELECT*FROM原表;"后,新表与原表的字段一致,但主键、索引不会复制到新表,会把原表的表记录复制到新表。...

Nike Dunk High Volt 和 Bright Spruce 预计将于 12 月推出

在街上看到的PandaDunk的超载可能让一些球鞋迷们望而却步,但Dunk的浪潮仍然强劲,看不到尽头。我们看到的很多版本都是为女性和儿童制作的,这种新配色为后者引入了一种令人耳目一新的新选择,而...

美国多功能舰载雷达及美国海军舰载多功能雷达系统技术介绍

多功能雷达AN/SPY-1的特性和技术能力,该雷达已经在美国海军服役了30多年,其修改-AN/SPY-1A、AN/SPY-1B(V)、AN/SPY-1D、AN/SPY-1D(V),以及雷神...

汽车音响怎么玩,安装技术知识(汽车音响怎么玩,安装技术知识视频)

全面分析汽车音响使用或安装技术常识一:主机是大多数人最熟习的音响器材,有关主机的各种性能及规格,也是耳熟能详的事,以下是一些在使用或安装时,比较需要注意的事项:LOUDNESS:几年前的主机,此按...

【推荐】ProAc Response系列扬声器逐个看

有考牌(公认好声音)扬声器之称ProAcTablette小音箱,相信不少音响发烧友都曾经,或者现在依然持有,正当大家逐渐掌握Tablette的摆位设定与器材配搭之后,下一步就会考虑升级至表现更全...

#本站首晒# 漂洋过海来看你 — BLACK&DECKER 百得 BDH2000L无绳吸尘器 开箱

作者:初吻给了烟sco混迹张大妈时日不短了,手没少剁。家里有了汪星人,吸尘器使用频率相当高,偶尔零星打扫用卧式的实在麻烦(汪星人:你这分明是找借口,我掉毛是满屋子都有,铲屎君都是用卧式满屋子吸的,你...

专题|一个品牌一件产品(英国篇)之Quested(罗杰之声)

Quested(罗杰之声)代表产品:Q212FS品牌介绍Quested(罗杰之声)是录音监听领域的传奇品牌,由英国录音师RogerQuested于1985年创立。在成立Quested之前,Roger...

常用半导体中英对照表(建议收藏)(半导体英文术语)

作为一个源自国外的技术,半导体产业涉及许多英文术语。加之从业者很多都有海外经历或习惯于用英文表达相关技术和工艺节点,这就导致许多英文术语翻译成中文后,仍有不少人照应不上或不知如何翻译。为此,我们整理了...

Fyne Audio F502SP 2.5音路低音反射式落地音箱评测

FyneAudio的F500系列,有新成员了!不过,新成员不是新的款式,却是根据原有款式提出特别版。特别版产品在原有型号后标注了SP字样,意思是SpecialProduction。Fyne一共推出...

有哪些免费的内存数据库(In-Memory Database)

以下是一些常见的免费的内存数据库:1.Redis:Redis是一个开源的内存数据库,它支持多种数据结构,如字符串、哈希表、列表、集合和有序集合。Redis提供了快速的读写操作,并且支持持久化数据到磁...

RazorSQL Mac版(SQL数据库查询工具)

RazorSQLMac特别版是一款看似简单实则功能非常出色的SQL数据库查询、编辑、浏览和管理工具。RazorSQLformac特别版可以帮你管理多个数据库,支持主流的30多种数据库,包括Ca...

取消回复欢迎 发表评论: