百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

如何使用 ChatGPT 进行抓取 thor抓取

yuyutoo 2024-10-20 13:11 1 浏览 0 评论

ChatGPT 爬取简介

使用 SEO Spider 中的自定义 JavaScript 功能,可以在抓取过程中与 OpenAI 的 ChatGPT 等 API 进行通信。

在抓取过程中使用 AI 可以为您打开无限可能。它使您能够在抓取过程中针对页面元素使用提示。

您可以将 OpenAI 的各种模型用于各种目的,例如:

  • 生成图像的替代文本。
  • 页面内容的语言、情感或意图分析。
  • 抓取特定数据。
  • 从页面内容中提取嵌入。

以及更多!

您不需要知道如何编写 JavaScript 来使用此功能,可以使用我们的 ChatGPT 模板并按照每个代码片段中评论提供的指导进行调整。

本教程将引导您了解如何使用我们的各种 ChatGPT 代码片段。


如何使用预设 ChatGPT 代码片段

SEO Spider 中有各种预设的 ChatGPT JavaScript 代码片段,只需要 OpenAI API 密钥即可。以下是使用方法。


1)打开自定义 JavaScript 配置

导航到“配置 > 自定义 > 自定义 JavaScript”,然后单击右下角的“从库中添加”。


2) 选择“(ChatGPT)…”代码片段

“系统”选项卡是可供使用的预设 JavaScript 代码片段库。各种 ChatGPT 代码片段均附加有“(ChatGPT)”。

可以选择其中任何代码片段并添加 OpenAI API 密钥即可使用。下面突出显示的代码片段是预设的代码片段,只需要 API 密钥,无需进一步调整。

“ (ChatGPT) 模板”代码片段略有不同,我们将在本教程的后面部分介绍。在本示例中,我们选择了“(ChatGPT) 为图片生成替代文本”代码片段。

双击该代码片段进行选择,它将显示在自定义 JavaScript 配置中。


3)使用 JavaScript 代码段编辑器

单击代码片段行右侧的“JS”框来编辑代码片段。

这将启动 JS 代码片段编辑器配置。


4)添加你的 OpenAI API 密钥

要使用任何 ChatGPT 代码片段,您需要自己的OpenAI API 密钥。这与 ChatGPT 订阅不同,并且易于设置且使用成本低廉。

最简单的使用方式是注册一个OpenAI 账户,选择使用“API”,然后转到计费部分。在这里,您可以选择向账户添加固定金额的信用额度,例如 100 美元,以及调整消费限额等。请仔细查看他们的API 定价,以更好地了解代币的成本。

当您拥有 API 密钥时,请将代码片段第 25 行的“your_api_key_here”文本替换为您的 API 密钥。

记住保留两端的撇号,它看起来应该是这样的。

然后单击“确定”关闭 JS 代码片段编辑器,再次单击“确定”关闭自定义 JavaScript 配置。


5)启用 JavaScript 渲染

要运行自定义 JavaScript 片段,必须通过“配置 > Spider > 渲染”启用 JavaScript 渲染模式。

确保将渲染设置为“JavaScript”,这样页面将在无头 Chrome 的后台渲染。


6)爬取网站

输入您想要使用 ChatGPT 代码片段抓取的网站,然后点击“开始”。

或者使用列表模式上传 URL 列表。


7)查看自定义 JavaScript 选项卡

在自定义 JavaScript 选项卡和相关过滤器中实时查看 ChatGPT JavaScript 代码片段的结果。

在此示例中,使用 OpenAI 中的 gpt-4-vision-preview 模型返回每个图像及其生成的 alt 文本。

对于其他预设的 ChatGPT 片段,将返回其他内容类型并在相关的情况下使用不同的模型。


如何创建自定义 ChatGPT JS 代码片段

您可以使用“(ChatGPT) 模板”代码片段并进行调整来创建您自己的自定义 ChatGPT JavaScript 代码片段。让我们来看看。


1) 选择“(ChatGPT) 模板”代码片段

导航到“配置 > 自定义 > 自定义 JavaScript”,单击“从库中添加”并选择“(ChatGPT)模板”代码片段”。

按照上面已经概述的说明打开 JS 编辑器,并按照代码片段注释中的说明添加您的 OpenAI API 密钥。


2)调整提示

这就是奇迹发生的地方。在第 26 行,你可以用自己的自定义提示替换“你对以下文本有何看法?:”。

例如,“这段文字是什么语言?”或“为以下文字生成一个元描述,该描述的长度不超过 155 个字符,包括任何 USP 和最后的行动号召”。

在第 27 行,您可以调整用于提示的内容。默认为正文,但可以将其更新为页面标题、元描述或标题(作为示例)。

第 29 行至第 36 行的注释提供了这些示例,我们在下面还提供了更多内容。

HTML:
[document.documentElement.outerHTML];

主体:
[document.body.innerText];

页面标题:
[document.title];

元描述
[document.querySelector('meta[name="description"]')?.getAttribute('content')];

h1 标题(根据需要替换为 h2 等)
[...document.querySelectorAll('h1')].map(h => h.textContent);

在 JS 测试器的右侧插入一个 URL,然后单击“测试”以确保它按预期工作。

在提取器的底部,您可以调整代码片段所针对的内容类型。ChatGPT 模板的默认类型是 HTML。


3)将代码片段添加到你的库中

如果您对代码片段满意并希望保存以供将来使用,请单击“将代码片段添加到用户库”。

提供适当的名称和描述,然后单击“确定”接受,然后再次单击“确定”并“确定”退出配置对话框。


4)查看自定义 JS 选项卡

不要忘记启用JavaScript 渲染,然后坐下来观看结果出现在自定义 JavaScript 选项卡和相关过滤器中。

如果您已经熟悉使用 ChatGPT,则可能需要对提示进行一些改进才能获取所需的数据。

此示例仅用于启发灵感,我们不建议在未经审核和编辑的情况下将其用于元描述。


额外提示!

使用自定义 JavaScript 代码段和 ChatGPT 时需要考虑各种事项,您可能需要进一步配置这些事项。这些包括:

  • 模型– 在每个 ChatGPT 代码片段中,都有一个模型:。一般来说,'gpt-3.5-turbo' 用于特定于 HTML 的代码片段,但可以在代码片段中更新以使用另一个模型,例如'gpt-4-turbo'。查看OpenAI 模型的完整列表。
  • 速度– 不同的 OpenAI 模型和使用层级有不同的速率限制。请求速度可以通过“配置 > 速度”在 SEO Spider 中与抓取速度一起控制。但是,用户也可以扩展代码片段以包括节流作为替代方案。
  • 内容类型– 对于创建的每个代码片段,您可以定义代码片段所针对的内容类型。例如,文本/html与页面上的文本内容相关的片段,或图像/使用 gpt-4-vision-preview 模型时。
  • 文档——查看我们关于自定义 JavaScript 的综合文档,以了解有关其工作原理的更多详细信息。

如果您编写了任何独特且富有洞察力的 JavaScript 代码片段,请通过支持告知我们,我们可以将其包含在我们的代码片段库中。


常见错误

请阅读我们的关于如何调试自定义 JavaScript 代码片段的教程。

您可能会在 ChatGPT 代码片段中看到的常见错误包括:

类型错误:无法获取

错误将出现在 JS 代码片段测试器和自定义 JavaScript 选项卡和列中,如下所示:

TypeError: Failed to fetch

如果您按照上述教程在 Chrome 控制台中测试代码片段,您经常会看到以下错误:

Refused to connect to 'https://api.openai.com/v1/chat/completions' because it violates the following Content Security Policy directive

这意味着该网站有一个“Content-Security-Policy”标头,不允许 OpenAI 域。

因此,您无法为该 URL 运行任何 OpenAI ChatGPT 代码片段。

该模型不存在

错误将出现在 JS 代码片段测试器和自定义 JavaScript 选项卡和列中,如下所示:

The model `gpt-4o` does not exist or you do not have access to it.

如果您使用其中一个默认代码片段,它将使用“gpt-4o”模型——该模型肯定存在。

因此,请确保您拥有一个资金充足的 OpenAI 帐户并具有正确的访问权限。

您可以在OpenAI 游乐场的设置中的“模型”选择选项卡下查看您可以访问哪些模型。

相关推荐

jQuery VS AngularJS 你更钟爱哪个?

在这一次的Web开发教程中,我会尽力解答有关于jQuery和AngularJS的两个非常常见的问题,即jQuery和AngularJS之间的区别是什么?也就是说jQueryVSAngularJS?...

Jquery实时校验,指定长度的「负小数」,小数位未满末尾补0

在可以输入【负小数】的输入框获取到焦点时,移除千位分隔符,在输入数据时,实时校验输入内容是否正确,失去焦点后,添加千位分隔符格式化数字。同时小数位未满时末尾补0。HTML代码...

如何在pbootCMS前台调用自定义表单?pbootCMS自定义调用代码示例

要在pbootCMS前台调用自定义表单,您需要在后台创建表单并为其添加字段,然后在前台模板文件中添加相关代码,如提交按钮和表单验证代码。您还可以自定义表单数据的存储位置、添加文件上传字段、日期选择器、...

编程技巧:Jquery实时验证,指定长度的「负小数」

为了保障【负小数】的正确性,做成了通过Jquery,在用户端,实时验证指定长度的【负小数】的方法。HTML代码<inputtype="text"class="forc...

一篇文章带你用jquery mobile设计颜色拾取器

【一、项目背景】现实生活中,我们经常会遇到配色的问题,这个时候去百度一下RGB表。而RGB表只提供相对于的颜色的RGB值而没有可以验证的模块。我们可以通过jquerymobile去设计颜色的拾取器...

编程技巧:Jquery实时验证,指定长度的「正小数」

为了保障【正小数】的正确性,做成了通过Jquery,在用户端,实时验证指定长度的【正小数】的方法。HTML做成方法<inputtype="text"class="fo...

jquery.validate检查数组全部验证

问题:html中有多个name[],每个参数都要进行验证是否为空,这个时候直接用required:true话,不能全部验证,只要这个数组中有一个有值就可以通过的。解决方法使用addmethod...

Vue进阶(幺叁肆):npm查看包版本信息

第一种方式npmviewjqueryversions这种方式可以查看npm服务器上所有的...

layui中使用lay-verify进行条件校验

一、layui的校验很简单,主要有以下步骤:1.在form表单内加上class="layui-form"2.在提交按钮上加上lay-submit3.在想要校验的标签,加上lay-...

jQuery是什么?如何使用? jquery是什么功能组件

jQuery于2006年1月由JohnResig在BarCampNYC首次发布。它目前由TimmyWilson领导,并由一组开发人员维护。jQuery是一个JavaScript库,它简化了客户...

django框架的表单form的理解和用法-9

表单呈现...

jquery对上传文件的检测判断 jquery实现文件上传

总体思路:在前端使用jquery对上传文件做部分初步的判断,验证通过的文件利用ajaxFileUpload上传到服务器端,并将文件的存储路径保存到数据库。<asp:FileUploadI...

Nodejs之MEAN栈开发(四)-- form验证及图片上传

这一节增加推荐图书的提交和删除功能,来学习node的form提交以及node的图片上传功能。开始之前需要源码同学可以先在git上fork:https://github.com/stoneniqiu/R...

大数据开发基础之JAVA jquery 大数据java实战

上一篇我们讲解了JAVAscript的基础知识、特点及基本语法以及组成及基本用途,本期就给大家带来了JAVAweb的第二个知识点jquery,大数据开发基础之JAVAjquery,这是本篇文章的主要...

推荐四个开源的jQuery可视化表单设计器

jquery开源在线表单拖拉设计器formBuilder(推荐)jQueryformBuilder是一个开源的WEB在线html表单设计器,开发人员可以通过拖拉实现一个可视化的表单。支持表单常用控件...

取消回复欢迎 发表评论: