你知道如何使用 OxyLabs Real-time Crawler for Google 吗?这是 OxyLabs 官方最全面的介绍。
快速入门
Real-Time Crawler 专为重型数据检索操作而设计。您可以使用 Real-Time Crawler 访问各种谷歌页面,包括常规搜索、酒店空房情况和谷歌购物。它可以毫不费力地从搜索引擎中提取网页数据,不会出现任何延迟或错误。
用于谷歌的实时抓取器 基本 HTTP 身份验证 需要发送用户名和密码。
这是迄今为止开始使用 Google 实时爬虫的最快方法。您将发送一个查询 阿迪达斯
至 谷歌搜索
使用 实时 整合方法。不要忘记替换 用户名
和 密码
使用代理用户凭据。
curl --user "USERNAME:PASSWORD" 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_search", "domain":"com", "query":"adidas"}'
如果您有任何本文件未涉及的问题,请联系您的客户经理或我们的支持人员,地址是 [email protected].
邮递员
下载和导入 邮差系列 来试用本页面记录的所有 Google 爬虫功能和数据传输方法。
整合方法
Real-Time Crawler for Google 支持三种集成方法,它们都有各自独特的优势:
- 推拉式.使用这种方法,现在需要与我们的端点保持活动连接,以检索数据。在发出请求后,我们的系统会在任务完成后自动 ping 用户服务器(请参阅 回调).这种方法可以节省计算资源,而且易于扩展。
- 实时.该方法要求用户与我们的端点保持活动连接,以便在任务完成时成功获取结果。这种方法可以在一个服务中实现,而推拉法则需要两个步骤。
- 超级用户接口.这种方法与实时方法非常相似,但用户可以使用 HTML Cralwer 作为代理,而不是向我们的端点发布数据。要检索数据,用户必须设置一个代理端点,并向所需的 URL 发送 GET 请求。必须使用标头添加其他参数。
我们推荐的数据提取方法是 推拉式.
推拉式
这是最简单、最可靠、最值得推荐的数据传输方法。在推拉式方案中,您向我们发送查询,我们向您返回工作 本我
工作完成后,您可以使用 本我
中检索内容 /结果
端点。您可以自己检查作业完成状态,也可以设置一个能接受 POST 查询的简单监听器。这样,一旦作业准备就绪,我们就会给你发送一条回调消息。在本例中,结果将自动 上传到您的 S3 存储桶 名为 您的邮筒名称
.
您还可以尝试通过 Postman 了解推拉法的工作原理。下载 此文件 开始。
单一查询
以下端点将处理对一个关键字或 URL 的单次查询。API 将返回一条确认信息,其中包含任务信息,包括任务 本我
.您可以使用它来检查任务完成状态 本我
或者,您也可以要求我们在扫描任务完成后 ping 您的回调端点,方法是添加 回调URL
在查询中。
邮寄 https://data.oxylabs.io/v1/queries
您需要在 JSON 主体中将查询参数作为数据发布。
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_search", "domain":"com", "query":"adidas", "callback_url":"https://your.callback.url","storage_type":"s3","storage_url":"your_bucket_name"}'
API 将以 JSON 格式响应查询信息,并将其打印在响应体中,与此类似:
{ "callback_url":"https://your.callback.url"、 "client_id":5, "context":[ { "key":"results_language"、 "value": null }, { "key":"safe_search"、 "value": null }, { "key":"tbm"、 "value": null }, { "key":"cr"、 值":空 }, { "key":"filter"、 "value": null } ], "created_at":"2019-10-01 00:00:01", "域":"com"、 "geo_location": null、 "id":"12345678900987654321", "限制":10, "locale": null、 "pages":1, "parse": false、 "render": null、 "查询":"adidas"、 "来源":"google_search"、 "start_page":1, "状态":"pending"、 "存储类型"s3", "storage_url":"YOUR_BUCKET_NAME/12345678900987654321.json", "subdomain":"www"、 "updated_at":"2019-10-01 00:00:01", "user_agent_type":"desktop"、 "_链接":[ { "rel":"self"、 "href":"http://data.oxylabs.io/v1/queries/12345678900987654321", "method":"GET" }, { "rel":"results"、 "href":"http://data.oxylabs.io/v1/queries/12345678900987654321/results", "method":"GET" } ] }
检查工作状态
如果您的查询有 回调URL
一旦完成刮擦任务,我们将向您发送一条包含内容链接的信息。但是,如果没有 回调URL
在查询中,您需要自己检查任务状态。为此,您需要使用 href
根据 rel
:自我
在您向我们的 API 提交查询后收到的响应信息中。它应该与下面的内容相似: http://data.oxylabs.io/v1/queries/12345678900987654321
.
GET https://data.oxylabs.io/v1/queries/{id}
查询该链接将返回工作信息,包括其 地位
.有 3 种可能 地位
价值观
未决 |
任务仍在队列中,尚未完成。 |
完成的 |
任务完成后,您可以通过在 href 根据 rel :成果 : http://data.oxylabs.io/v1/queries/12345678900987654321/results |
有问题 |
任务出了问题,我们无法完成,很可能是目标网站方面的服务器出错。 |
curl --user user:pass1 'http://data.oxylabs.io/v1/queries/12345678900987654321'
API 将在响应正文中打印 JSON 格式的查询信息。请注意,任务 地位
改为 完成的
.现在您可以通过查询 http://data.oxylabs.io/v1/queries/12345678900987654321/results
.
您还可以看到任务已被 updated_at
2019-10-01 00:00:15
- 查询需要 14 秒才能完成。
{ "client_id":5, "context":[ { "key":"results_language"、 "value": null }, { "key":"safe_search"、 "value": null }, { "key":"tbm"、 "value": null }, { "key":"cr"、 值":空 }, { "key":"filter"、 "value": null } ], "created_at":"2019-10-01 00:00:01", "域":"com"、 "geo_location": null、 "id":"12345678900987654321", "限制":10, "locale": null、 "pages":1, "parse": false、 "render": null、 "查询":"adidas"、 "来源":"google_search"、 "start_page":1, "状态":"done"、 "子域":"www"、 "updated_at":"2019-10-01 00:00:15", "user_agent_type":"desktop"、 "_链接":[ { "rel":"self"、 "href":"http://data.oxylabs.io/v1/queries/12345678900987654321", "method":"GET" }, { "rel":"results"、 "href":"http://data.oxylabs.io/v1/queries/12345678900987654321/results", "method":"GET" } ] }
检索工作内容
通过检查作业状态或接收我们的回调,一旦知道作业已准备就绪,您就可以使用以下 URL 获取作业 href
根据 rel
:成果
在我们的初始响应或回调信息中。看起来应该类似于下面这样: http://data.oxylabs.io/v1/queries/12345678900987654321/results
.
GET https://data.oxylabs.io/v1/queries/{id}/results
通过设置 "任务状态",可以自动检索结果,而无需定期检查任务状态。 回调 服务。用户需要指定运行回调服务的服务器的 IP 或域。当我们的系统完成一项任务时,它将向所提供的 IP 或域发送一条信息,回调服务将下载结果,如 回调实现示例.
curl --user user:pass1 'http://data.oxylabs.io/v1/queries/12345678900987654321/results'
API 将返回工作内容:
{ "结果":[ { "content":"<! 内容 ", "created_at":"2019-10-01 00:00:01", "更新时间":"2019-10-01 00:00:15", "页":1, "url":"https://www.google.com/search?q=adidas&hl=en&gl=US"、 "job_id":"12345678900987654321", "status_code":200 } ] }
回调
回调是一个 职位
我们会向您的机器发送请求,告知数据提取任务已完成,并提供下载刮擦内容的 URL。这意味着您不再需要 检查工作状态 手动操作。一旦数据到齐,我们会通知您,您现在需要做的就是 取回.
# 请查看 Python 和 PHP 代码示例。
回调输出示例
{ "created_at":"2019-10-01 00:00:01", "updated_at":"2019-10-01 00:00:15", "locale":null、 "client_id":163、 "user_agent_type": "desktop"、 "源": "google_search"、 "页面":1、 "子域": "www"、 "status": "done"、 "start_page":1、 "parse":0、 "render":null、 "priority":0、 "ttl":0、 "origin": "api"、 "persist":true、 "id":"12345678900987654321", "callback_url": "http://your.callback.url/"、 "query": "adidas"、 "domain": "com"、 "limit":10、 "geo_location":null、 {...} "_links":[ { "href":"https://data.oxylabs.io/v1/queries/12345678900987654321", "method": "GET"、 "rel": "self" }, { "href":"https://data.oxylabs.io/v1/queries/12345678900987654321/results", "method": "GET"、 "rel": "results" } } ], }
批量查询
实时爬虫还支持执行多个关键字,每批最多可执行 1,000 个关键字。以下端点将向提取队列提交多个关键词。
邮寄 https://data.oxylabs.io/v1/queries/batch
您需要在 JSON 主体中将查询参数作为数据发布。
系统会将每个关键词作为一个单独请求处理。如果您提供了回调 URL,您将为每个关键字收到单独的调用。否则,我们的初始响应将包含工作 本我
的所有关键字。例如,如果您发送了 50 个关键字,我们将返回 50 个唯一的职位。 本我
s.
重要! 询问
是唯一一个可以有多个值的参数。所有其他参数对于该批次查询都是一样的。
curl --user user:pass1 'https://data.oxylabs.io/v1/queries/batch' -H 'Content-Type: application/json' -d '@keywords.json -d'@keywords.json'(关键词
keywords.json
内容:
{ "query":[ "阿迪达斯"、 "耐克"、 "蕾博克" ], "来源":"google_search"、 "域":"com"、 "callback_url":"https://your.callback.url" }
API 将以 JSON 格式响应查询信息,并将其打印在响应体中,与此类似:
{ "查询":[ { "callback_url":"https://your.callback.url"、 {...} "created_at":"2019-10-01 00:00:01", "域":"com"、 "id":"12345678900987654321", {...} "查询":"阿迪达斯"、 "来源":"google_search"、 {...} "rel":"results"、 "href":"http://data.oxylabs.io/v1/queries/12345678900987654321/results", "method":"GET" } ] }, { "callback_url":"https://your.callback.url"、 {...} "created_at":"2019-10-01 00:00:01", "域":"com"、 "id":"12345678901234567890", {...} "查询":"NIKE"、 "来源":"google_search"、 {...} "rel":"results"、 "href":"http://data.oxylabs.io/v1/queries/12345678901234567890/results", "method":"GET" } ] }, { "callback_url":"https://your.callback.url"、 {...} "created_at":"2019-10-01 00:00:01", "域":"com"、 "id":"01234567899876543210", {...} "查询":"reebok"、 "来源":"google_search"、 {...} "rel":"results"、 "href":"http://data.oxylabs.io/v1/queries/01234567899876543210/results", "method":"GET" } ] } ] }
获取通知程序 IP 地址列表
您可能希望将向您发送回调信息的 IP 列入白名单,或为其他目的获取这些 IP 的列表。这可以通过 获取
在这个端点上: https://data.oxylabs.io/v1/info/callbacker_ips
.
curl --user user:pass1 'https://data.oxylabs.io/v1/info/callbacker_ips'
API 将返回向您的系统发出回调请求的 IP 列表:
{ "ips":[ "x.x.x.x"、 "y.y.y.y" ] }
上传到存储器
默认情况下,RTC 任务结果存储在我们的数据库中。这意味着您需要查询我们的结果端点并自行检索内容。自定义存储功能允许您将结果存储在自己的云存储中。该功能的优势在于,您无需为了获取结果而发出额外请求,所有内容都会直接存储到您的存储桶中。
我们支持亚马逊 S3 和谷歌云存储。如果您想使用其他类型的存储,请联系您的客户经理,讨论功能交付时间表。
亚马逊 S3
要将作业结果上传到 Amazon S3 存储桶,请为我们的服务设置访问权限。为此,请访问 https://s3.console.aws.amazon.com/ > S3 > 存储 > 桶名称(如果没有,请新建) > 权限 > 桶策略
您可以在此找到水桶政策 JSON 或右侧的代码示例区。不要忘记在 您的邮筒名称
.通过该策略,我们可以向您的邮筒写入内容,允许您访问上传的文件,并了解邮筒的位置。
谷歌云存储
要将作业结果上传到您的 Google Cloud Storage 存储桶,请为我们的服务设置特殊权限。为此,请使用 存储.对象.创建
权限并将其分配给 Oxylabs 服务帐户电子邮件 [email protected]
.
使用方法
要使用此功能,请在请求中指定两个附加参数。了解更多信息 这里.
上传路径如下 YOUR_BUCKET_NAME/job_ID.json
.您可以在提交请求后从我们收到的回复正文中找到职位 ID。在 本例 工作编号为 12345678900987654321
.
{ "版本":"2012-10-17", "Id":"Policy1577442634787", "声明":[ { "Sid":"Stmt1577442633719"、 "效果":"允许"、 "校长":{ "AWS":"arn:aws:iam::324311890426:user/oxylabs.s3.uploader" }, "Action":"s3:GetBucketLocation"、 "资源":"arn:aws:s3:::YOUR_BUCKET_NAME" }. }, { "Sid":"Stmt1577442633719"、 "效果":"允许"、 "校长":{ "AWS":"arn:aws:iam::324311890426:user/oxylabs.s3.uploader" }, "Action":[ "s3:PutObject"、 "s3:PutObjectAcl"。 ], "资源":"arn:aws:s3:::YOUR_BUCKET_NAME/*"。 } ] }
实时
数据提交方式与推拉方式相同,但在实时情况下,我们将在连接打开时返回内容。您向我们发送查询,连接保持打开,我们检索内容并发送给您。处理的端点如下:
邮寄 https://realtime.oxylabs.io/v1/queries
开放连接的超时限制为 150 秒,因此在极少数负载较重的情况下,我们可能无法确保将数据发送给您。
您需要在 JSON 主体中将查询参数作为数据发布。详情请参阅示例。
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_search", "domain":"com", "query":"adidas"}'
打开连接时将返回的响应体示例:
{ "结果":[ { "content":" 内容 " "created_at":"2019-10-01 00:00:01", "更新时间":"2019-10-01 00:00:15", "id": null、 "page":1, "url":"https://www.google.com/search?q=adidas&hl=en&gl=US"、 "job_id":"12345678900987654321", "status_code":200 } ] }
超级用户接口
如果您曾经使用过普通代理进行数据搜刮,那么集成 SuperAPI 传输方法将轻而易举。只需将我们的入口节点用作代理,使用实时爬虫凭据进行授权,并忽略证书即可。在 cURL
这是 -k
或 --不安全
.您的数据将通过开放连接发送给您。
GET realtime.oxylabs.io:60000
超级用户接口只支持少量参数,因为它 仅适用于 直接 数据源 其中提供了完整的 URL。这些参数应作为标头发送。这是可接受的参数列表:
X-OxySERPs-User-Agent-Type |
虽然无法指明特定的 User-Agent,但您可以让我们知道您使用的浏览器和平台。支持的用户代理列表如下所示 这里. |
X-OxySERPs-地理位置 |
在某些情况下,您可能需要指明结果应适应的地理位置。该参数对应于 地理位置 .了解我们的建议 地理位置 参数结构 这里. |
如果您在设置超级用户接口时需要帮助,请致电 [email protected].
curl -k -x realtime.oxylabs.io:60000 -U user:pass1 -H "X-OxySERPs-User-Agent-Type: desktop_chrome" -H "X-OxySERPs-Geo-Location:New York,New York,United States" "https://www.google.com/search?q=adidas"
内容类型
实时爬虫可以返回 原始HTML或 结构化(解析)的 JSON.请注意,并非所有数据源都能以结构化方式返回。本文档中每个数据源下的图标将表明我们是否能解析它,或者我们只能返回原始的 HTML。
请参见 解析数据 来查看每个数据源会返回哪些字段。
数据来源
使用实时爬虫从 Google 检索数据有多种方法。您可以通过以下方式向我们提供完整的 URL 直接或通过专门构建的数据源指定参数,例如 搜索, 购物产品 或 图片.
从技术上讲,这不是一种内容类型,但实时抓取器可以在抓取时呈现 JavaScript。这在某些 Google 页面(如航班和专利)中是必要的。在 渲染 JS
将指示特定数据源是否可以在启用 JavaScript 的情况下进行刮擦。
如果您不确定选择哪种方式,请给我们留言 [email protected] 或联系您的客户经理。
直接
谷歌
源设计用于检索各种 Google 页面的直接 URL 内容。这意味着,您可以向我们提供所需谷歌页面的直接 URL,而无需发送多个参数。我们不会删除任何参数或以任何其他方式更改您的 URL。
只要提交的 URL 是 Google 搜索(SERP 页面),该数据源还支持解析数据(解析 JSON)。如果我们无法确认这是一个 SERP 页面请求,则会返回一条失败消息。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌 |
网址 | 谷歌页面的直接 URL(链接 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
解析 | true 将返回已解析的数据,只要提交的 URL 是用于 Google 搜索。请参见 解析数据 了解更多信息。 | – |
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
在本例中,应用程序接口将检索谷歌学术搜索的关键字 牛顿
推拉法
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "google", "url": "https://scholar.google.com/scholar?hl=en&q=newton&btnG=&as_sdt=1%2C5&as_sdtp="}'
以下是实时模式下的相同示例:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "google", "url": "https://scholar.google.com/scholar?hl=en&q=newton&btnG=&as_sdt=1%2C5&as_sdtp="}'
并通过超级用户接口(SuperAPI):
curl -k -x realtime.oxylabs.io:60000 -U user:pass1 "https://scholar.google.com/scholar?hl=en&q=newton&btnG=&as_sdt=1%2C5&as_sdtp="
搜索
谷歌搜索
源旨在检索谷歌搜索结果(SERP)。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌搜索 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的关键字 | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
限额 | 每页要检索的结果数量 | 10 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
解析 | true 将返回解析后的数据。参见 解析数据 了解更多信息。 | – |
解析器类型 | 留空以获取默认布局,或将该值设为 v2 以使用更新后的 Google Search 解析输出模式和/或接收 CSV 格式的结果(仅适用于 Google Web Search)。参见 解析数据 了解更多信息。 | – |
背景 | 将 fpstate 值设置为 aig 会使 Google 加载更多应用程序。该参数只有与 render 参数一起使用时才有用。 | – |
fpstate | ||
背景 | true 将关闭拼写自动更正功能。 | 假 |
nfpr | ||
背景 | 结果语言。支持的 Google 语言列表如下 这里。 | – |
results_language | ||
背景 | 待匹配参数或 tbm 参数。可接受的值:App、BLG、BKS、DSC、ISCH、NWS、PTS、PLCS、RCP、LCL | – |
tbm | ||
背景 | tbs 参数。该参数就像一个容器,可容纳更多晦涩难懂的 google 参数,如按日期对结果进行限制/排序,以及其他过滤器,其中一些取决于 tbm 参数(例如,tbs=app_os:1 仅适用于 tbm 值为 app 的情况)。更多信息 这里。 | – |
药材 | ||
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
API 向 google.nl
检索关键字从第 11 到第 20 的搜索结果页面 阿迪达斯
.结果将以法语显示,因为 results_language
参数也通过 背景
.API 将向 your.callback.url
包含 URL,以便在数据检索任务成功完成后下载原始 HTML 输出。这就是推拉式:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_search", "domain":"nl", "query":"adidas", "start_page":11, "pages":10, "callback_url":"https://your.callback.url","context":{"key":"results_language","value":"fr"}]}'
以下是实时模式下的相同示例:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_search", "domain":"nl", "query":"adidas", "start_page":11, "pages":10, "callback_url":"https://your.callback.url","context":{"key":"results_language","value":"fr"}]}'
广告
谷歌广告
源进行了优化,以检索带有付费广告的 Google 搜索结果页面(SERP)。该源每页只返回 10 个结果,确保付费结果显示的最高变化。除此以外,它还支持与常规来源相同的参数 搜索
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌广告 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的关键字 | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
回调URL | 回调端点的 URL | – |
解析 | true 将返回解析后的数据。参见 解析数据 了解更多信息。 | – |
背景 | true 将关闭拼写自动更正功能。 | 假 |
nfpr | ||
背景 | 结果语言。支持的 Google 语言列表如下 这里。 | – |
results_language | ||
背景 | 待匹配参数或 tbm 参数。可接受的值:App、BLG、BKS、DSC、ISCH、NWS、PTS、PLCS、RCP、LCL | – |
tbm | ||
背景 | tbs 参数。该参数就像一个容器,可容纳更多晦涩难懂的 google 参数,如按日期对结果进行限制/排序,以及其他过滤器,其中一些取决于 tbm 参数(例如,tbs=app_os:1 仅适用于 tbm 值为 app 的情况)。更多信息 这里。 | – |
药材 | ||
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
API 向 google.nl
检索关键字 阿迪达斯
.API 将向 your.callback.url
包含 URL,以便在数据检索任务成功完成后下载原始 HTML 输出。这就是推拉式:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_ads", "domain":"nl", "query":"adidas", "callback_url":"https://your.callback.url"}'
以下是实时模式下的相同示例:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_ads", "domain":"nl", "query":"adidas"}'
酒店
谷歌酒店
数据源旨在检索 Google 酒店搜索结果。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌酒店 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的关键字 | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
限额 | 每页要检索的结果数量 | 10 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
results_language | 结果语言。支持的 Google 语言列表如下 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
背景 | true 将关闭拼写自动更正功能。 | 假 |
nfpr | ||
背景 | 客人数量 | 2 |
酒店入住率 | ||
背景 | 在酒店的停留时间,从 - 到。例如:2017-07-12,2017-07-13 | – |
酒店日期 | ||
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
请注意,使用 Google hotels 时,您始终需要发送一个包含 "hotels "的关键词,例如 "洛杉矶的酒店"、"法国巴黎的酒店 "等。酒店 "和 "hotels "均可。Google 还支持当地语言,因此您可以发送 "Hotelli Helsingissä "查询赫尔辛基的酒店,或发送 "viešbučiai Vilnius "查询维尔纽斯的酒店。
在此示例中,API 将检索前 3 页的酒店空房情况,包括 1
客 2019-10-01
和 2019-10-10
对于 巴黎的酒店
从 谷歌网站
.这就是推拉法。
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_hotels", "domain":"com", "pages":3, "query":"hotels in Paris", "context":[{"key":"hotel_occupancy", "value": 1}, {"key":"hotel_dates", "value":"2019-10-01,2019-10-10"}]}'
这是实时的:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_hotels", "domain":"com", "pages":3, "query":"hotels in Paris", "context":[{"key":"hotel_occupancy", "value": 1}, {"key":"hotel_dates", "value":"2019-10-01,2019-10-10"}]}'
旅行酒店
谷歌旅游酒店
数据源旨在检索 Google 旅行服务的酒店搜索结果。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌旅游酒店 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的关键字 | – |
start_page | 起始页码 | 1 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获得正确的数据极为重要。请注意,该数据源可接受的地理位置值数量有限,请检查 此文件 来查看无法获得准确结果的地理位置值。 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的屏幕截图)。请注意,如果没有 JavaScript 渲染,Google Travel Hotels 将不会返回任何有用的内容。 | |
回调URL | 回调端点的 URL | – |
背景 | 客人数量 | 2 |
酒店入住率 | ||
背景 | 按 # 酒店星级筛选结果。您可以指定一个或多个介于 2 和 5 之间的值。例如[3,4] | – |
酒店类别 | ||
背景 | 入住酒店的日期,从 - 到。例如:2017-07-12,2017-07-13 | – |
酒店日期 | ||
存储类型 | 存储服务提供商。目前只支持亚马逊 S3:s3。完整的实现可以在 上传到存储器 page. | – |
存储URL | 您的 Amazon S3 存储桶名称 | – |
- 所需参数 |
请注意,使用 Google hotels 时,您始终需要发送一个包含 "hotels "的关键词,例如 "洛杉矶的酒店"、"法国巴黎的酒店 "等。酒店 "和 "hotels "均可。Google 还支持当地语言,因此您可以发送 "Hotelli Helsingissä "查询赫尔辛基的酒店,或发送 "viešbučiai Vilnius "查询维尔纽斯的酒店。
在此示例中,API 将检索第 2 页的酒店空房情况结果,内容为 2
客人之间 2020-10-01
和 2020-10-10
对于 巴黎的酒店
从 谷歌网站
.过滤后的结果将只显示 2 星级和 4 星级酒店。这是推拉法。
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_travel_hotels", "domain":"com","start_page":2, "query":"巴黎的酒店","callback_url":"https://your.callback.url","context":[{"key":"hotel_occupancy", "value": 2},{"key":"hotel_dates", "value":"2020-10-01,2020-10-10"}, {"key":"hotel_classes", "value": [2,4]}]}'
这是实时的:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_travel_hotels", "domain":"com","start_page":2, "query":"巴黎的酒店","上下文":[{"key":"hotel_occupancy", "value": 2}, {"key":"hotel_dates", "value":"2020-10-01,2020-10-10"}, {"key":"hotel_classes", "value": [2,4]}]}'
购物搜索
谷歌购物搜索
来源旨在检索 Google 购物搜索结果。
邮寄 https://data.oxylabs.io/v1/queries
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌购物搜索 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的关键字 | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
results_language | 结果语言。支持的 Google 语言列表如下 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
解析 | true 将返回 解析后的数据.更多信息请参阅解析数据。 | – |
背景 | true 将关闭拼写自动更正功能。 | 假 |
nfpr | ||
背景 | r 应用默认的 Google 排序,rv - 按评论得分排序,p - 按价格升序排序,pd - 按价格降序排序 | r |
sort_by | ||
背景 | 筛选产品的最低价格 | |
最低价格 | ||
背景 | 筛选产品的最高价格 | |
最高价格 | ||
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
首先下载应用程序接口 4
搜索关键字 阿迪达斯
,按降序价格和 $20 的最低价格排序。这就是 "推-拉 "的方法:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_shopping_search", "domain":"com","query":"adidas", "pages":4, "context":{"key":"sort_by","value":"pd"},{"key":"min_price","value":20}]}'
以下是实时模式下的相同示例:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_shopping_search", "domain":"com","query":"adidas", "pages":4, "context":{"key":"sort_by","value":"pd"},{"key":"min_price","value":20}]}'
购物产品
谷歌购物产品
源用于检索指定产品的 Google Shopping 产品页面。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌购物产品 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的产品代码 | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
results_language | 结果语言。支持的 Google 语言列表如下 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
解析 | true 将返回解析后的数据。参见 解析数据 了解更多信息。 | – |
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
在此,应用程序接口将下载产品 ID 的产品页面 5007040952399054528
谷歌购物 谷歌网站
.它还将获得前 4 页的定价信息。这就是推拉页面的样子:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_shopping_product", "domain":"com", "query":"5007040952399054528"}'
在实时系统中也是如此:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_shopping_product", "domain":"com", "query":"5007040952399054528"}'
购物产品定价
谷歌购物定价
源用于检索指定产品的 Google Shopping 产品定价页面。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌购物定价 |
领域 | 域名本地化 | 网 |
询问 | UTF 编码的产品代码 | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
results_language | 结果语言。支持的 Google 语言列表如下 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
解析 | true 将返回解析后的数据。参见 解析数据 了解更多信息。 | – |
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
在此,应用程序接口将下载产品 ID 的产品定价页面 5007040952399054528
谷歌购物 谷歌网站
.下面是一个推拉式示例:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_shopping_pricing", "domain":"com", "query":"5007040952399054528"}'
在实时系统中也是如此:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_shopping_pricing", "domain":"com", "query":"5007040952399054528"}'
图片
谷歌图片
源的目的是检索图像搜索页面,以查找与 询问
参数,以及包含这些图像的网站。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌图片 |
领域 | 域名本地化 | 网 |
询问 | 图片的 URL | – |
start_page | 起始页码 | 1 |
页面 | 要检索的页数 | 1 |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
背景 | true 将关闭拼写自动更正功能。 | 假 |
nfpr | ||
背景 | 结果语言。支持的 Google 语言列表如下 这里。 | – |
results_language | ||
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
在此示例中,应用程序接口将下载类似图像的图像搜索页面,以搜索图像 https://newsneakernews-wpengine.netdna-ssl.com/wp-content/uploads/2017/03/adidas-boost-march-25-2017.jpg
从 谷歌网站
.这就是推拉法:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_images", "domain":"com", "query":"https://newsneakernews-wpengine.netdna-ssl.com/wp-content/uploads/2017/03/adidas-boost-march-25-2017.jpg"}'
在实时系统中也是同样的要求:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_images", "domain":"com", "query":"https://www.example.com/img/image.jpg"}'
建议
谷歌建议
该源代码旨在检索 Google 关键字建议。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | 谷歌建议 |
询问 | UTF 编码的关键字 | – |
地点 | Accept-Language 标头值。这将改变谷歌搜索页面的网页界面语言(而不是搜索结果)。例如,如果使用 com 域名并使用 locale 参数 de-DE,搜索结果仍将是美语,但 Accept-Language 将被设置为 de-DE,de;q=0.8。这将模仿来自美国的人在 com 域名中搜索,而他的浏览器用户界面设置为德语。如果不使用该参数,我们将根据域名设置 "接受语言 "参数(即 com 为 en-US)。可用的 Google 本地语言列表 这里。 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
用户代理类型 | 设备类型和浏览器。完整列表如下 这里。 | 桌面 |
给予 | 启用 JavaScript 渲染。在目标需要 JavaScript 加载内容时使用。仅适用于推拉(又称回调)方法。该参数有两个可用值:html(获取原始输出)和 png(获取 Base64 编码的截图)。 | |
回调URL | 回调端点的 URL | – |
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
API 向 Google 建议页面发出请求,以检索关键字建议 阿迪达斯
.应用程序接口会将一个 JSON 有效载荷发送到 your.callback.url
包含任务完成后下载结果的 URL。下面是一个推拉式示例:
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_suggest", "query":"adidas", "callback_url":"https://your.callback.url"}'
实时 "也有同样的要求:
curl --user user:pass1 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_suggest", "query":"阿迪达斯"}'
关键词数据
google_msv
数据源将检索指定关键字的 Google 关键字数据以及建议关键字(除非在上下文中传递 ideas=False)。关键字以字符串形式在查询参数中传递。关键词之间用逗号分隔。不支持关键字内的逗号,因此关键字 "Water Bottle 5,0L "实际上会被解释为 2 个关键字:"水瓶 5 "和 "0L"。更多详情,请参阅右侧的输出示例。
查询参数
参数 | 说明 | 默认值 |
消息来源 | 数据来源 | google_msv |
询问 | UTF 编码的关键字,用逗号分隔 | – |
地理位置 | 结果应适应的地理位置。正确使用该参数对获取正确数据极为重要。如需了解更多信息,请阅读我们建议的地理位置参数结构 这里 | – |
背景 | 语言,例如英语或法语。无参数或空值将返回所有语言的结果。 | |
语言 | ||
背景 | 3 个符号的货币代码 | 欧元 |
货币 | ||
背景 | 如果为 "true",则返回关键字的想法;如果为 "false",则只返回所请求关键字的数据 | 真 |
理念 | ||
背景 | 获取想法时,将限制所提供的想法关键字数量,以 50 的整数倍四舍五入(例如,20 -> 50,123 -> 150)。0 表示无限制。 | 0 |
想法限制 | ||
背景 | 获取创意时,将过滤掉月平均搜索量低于所提供数字的创意关键词。0 表示不过滤。 | 0 |
min_amsv | ||
背景 | 获取创意时,将过滤掉月平均搜索量高于所提供数字的创意关键词。0 表示不过滤。 | 0 |
max_amsv | ||
背景 | 获取创意时,将过滤掉不属于所提供类别的创意关键词。可用的类别有.NET、.NET/.NET、.NET/.NET 和.NET。 | 无效 |
类别 | ||
存储类型 | 存储服务提供商。我们支持 Amazon S3 和 Google Cloud Storage。这些存储服务提供商的 storage_type 参数值分别为 s3 和 gcs。完整的实现可以在 上传到存储器 页。此功能只能通过推拉(回调)方法使用。 | – |
存储URL | 您的存储桶名称。仅适用于推挽(回调)方法。 | – |
- 所需参数 |
最佳餐厅
和所有建议的关键词。关键词语言是 法语
地理位置为 法国巴黎法兰西岛
货币是 欧元
.
curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_msv", "query":"meilleur restaurant", "geo_location":"Paris,Ile-de-France,France", "context":[{"key":"语言","值":"法语"},{"键":"currency", "value":"EUR"}, {"key":"想法","值":true}]}' # 或者,如果您不需要创意: curl --user user:pass1 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source":"google_msv", "query":"meilleur restaurant", "geo_location":"Paris,Ile-de-France,France", "context":[{"key":"语言","值":"法语"},{"键":"currency", "value":"EUR"}, {"key":"想法","值":false}]}'
输出示例(historicalSearchVolume 条目和想法条目切割):
{ "结果":[ { "内容": { "想法":[ { "cpc":4.712038, "keyword":"meilleur restaurant a paris"、 "currency":"EUR"、 "竞争":0.3385383889238515, "averageSearchVolume":1900, "historicalSearchVolume":[ { "日期":"201803", "搜索量":1600 }, { "日期":"201802", "searchVolume":1900 }] }], "种子":[ { "cpc":4.05351, "keyword":"meilleur restaurant"、 "currency":"EUR"、 "竞争":0.3385341239238515, "averageSearchVolume":2900, "historicalSearchVolume":[ { "日期":"201803", "搜索量":3600 }, { "日期":"201802", "searchVolume":2900 }] }] } }] }
解析数据
谷歌网页搜索(SERP)页面是唯一一个广泛支持解析数据交付的页面。以下是我们解析的 SERP 页面特定字段。结构数据可用 搜索 (一直)和 直接 (只要提交 SERP 页面 URL)。
谷歌网络搜索 ("来源":"谷歌搜索"
) 支持 CSV 输出。要访问它,请在谷歌网络搜索任务中包含以下参数 {"源":"google_search", "parse": true, "parser_type":"v2"}
.CSV 作业的结果检索 URL 结构如下: http://data.oxylabs.io/v1/queries/{job_id}/results/normalized?format=csv
.
搜索
有机和付费
"results": { "paid": [ { "pos": 1, "url": "https://www.adidas.com/us", "desc": "New York · 10 locations nearby", "title": "adidas.com | adidas® Official Site | Official adidas® Online Store", "url_shown": "www.adidas.com/Official/Site", "pos_overall": 1 } ], "organic": [ { "pos": 1, "url": "https://www.adidas.com/us", "desc": "Welcome to adidas Shop for adidas shoes, clothing and view new collections for adidas Originals, running, football, training and much more.", "title": "adidas Official Website | adidas US", "url_shown": "https://www.adidas.com › ...", "pos_overall": 2 }, { "pos": 2, "url": "https://www.mena.adidas.com/", "desc": "Browse for adidas shoes, clothing and collections, adidas Originals, Running, Football, Training and more on the official adidas website.", "title": "adidas Official Website | adidas", "url_shown": "https://www.mena.adidas.com", "pos_overall": 6 }, { "pos": 3, "url": "https://www.adidas-group.com/", "desc": "adidas AG Supervisory Board announces candidates as shareholder ... adidas celebrates its 70th anniversary and the opening of the Arena building. August 9 ...", "title": "adidas - Home", "url_shown": "https://www.adidas-group.com", "pos_overall": 7 }, { "pos": 4, "url": "https://www.nycgo.com/shopping/the-adidas-store", "desc": "You don't so much shop in this flagship Adidas store as you experience it. With an interior modeled on a high school stadium, this four-story Midtown outlet—the ...", "title": "The Adidas Store (Midtown) | NYCgo - NYCgo.com", "url_shown": "https://www.nycgo.com › shopping › the-adidas-store", "pos_overall": 8 }, { "pos": 5, "url": "https://www.yelp.com/search?find_desc=adidas+store&find_loc=Manhattan%2C+NY", "desc": "Reviews on Adidas Store in Manhattan, NY - Adidas, Adidas Originals New York SoHo, adidas Sport Performance, Upper 90 Soccer - Manhattan, Nike Soho, ...", "title": "Adidas Store Manhattan, NY - Last Updated August 2019 - Yelp", "url_shown": "https://www.yelp.com › search › find_desc=adidas+store", "pos_overall": 9 }, { "pos": 6, "url": "https://en.wikipedia.org/wiki/Adidas", "desc": "Adidas AG is a multinational corporation, founded and headquartered in Herzogenaurach, Germany, that designs and manufactures shoes, clothing and ...", "title": "Adidas - Wikipedia", "url_shown": "https://en.wikipedia.org › wiki › Adidas", "pos_overall": 10 } ]
产品列表广告
"pla":[ { "pos":1, "url":"http://www.adidas.com/us/asweego-shoes/F37038.html?cm_mmc=AdieSEM_Feeds-_-GoogleProductAds-_-NA-_-F37038&cm_mmca1=US&cm_mmca2=NA&kpid=F37038&sourceid=543457011", 价格"$40.00"、 "标题":"adidas Asweego Shoes Black 10.5 - Mens Running Shoes"、 "卖家":"adidas"、 "来源":"" }, { "pos": 2、 "url":"http://www.adidas.com/us/baseline-shoes/AW4299.html?cm_mmc=AdieSEM_Feeds-_-GoogleProductAds-_-NA-_-AW4299&cm_mmca1=US&cm_mmca2=NA&kpid=AW4299&sourceid=543457011", "价格":"$50.00"、 "标题":"adidas Baseline Shoes White 13K - Originals Shoes"、 卖家"adidas"、 "来源":"" }, ... { "pos": 29、 "url":"https://www.zappos.com/product/8466374/color/21766"、 "价格":"$79.95"、 "标题":"adidas Superstar W Originals 女式经典鞋 白色/黑色/白色 : 9 B - Medium"、 "卖家":"Zappos.com"、 "来源":"" } ]
热门新闻
"top_stories":[ { "url":"https://www.cnet.com/news/spacex-starhopper-prototype-takes-giant-leap-for-elon-musk/"、 "来源":"Cnet"、 "标题":"SpaceX Starhopper 火箭原型为埃隆-马斯克带来巨大飞跃"、 "时间范围": "13 小时前":"13 小时前 }, { "url":"https://electrek.co/2019/08/27/elon-musk-tesla-china-made-model-3-rumor/"、 "来源":"Electrek"、 "标题":"传伊隆-马斯克将在本周举行的活动上发布首款中国制造的特斯拉 Model 3"、 "时间范围"16小时前" }, { "url":"https://www.bloomberg.com/news/articles/2019-08-28/musk-to-join-china-ai-summit-despite-trump-ordering-firms-out"、 "来源":"彭博社"、 "标题":"埃隆-马斯克和马云将在中国峰会上就人工智能展开辩论"、 "时间范围":"4 小时前 } ]
精选片段
"featured_snippet":[ { "url":"https://en.wikipedia.org/wiki/Contract_for_difference"、 "desc":"在金融领域,差价合约(CFD)是双方之间的一种合约,通常描述为 "买方(buyer)"和 "卖方(seller)",规定卖方向买方支付资产当前价值与合约时间价值之间的差额(如果差额为负,则买方向卖方支付......"、 "标题":"差价合约 - 维基百科"、 "url_shown":"https://en.wikipedia.org ' wiki ' Contract_for_difference"、 "pos_overall":1 } ]
知识库
"知识":{ "标题":"阿迪达斯"、 "事实":[ { "标题":"股价"、 "content":"ADDDF(OTCMKTS)$291.81 +2.74 (+0.95%)美国东部时间 8 月 23 日下午 4:00 - 免责声明" }, { "标题":"创始人"、 "内容":"阿道夫-达斯勒" }, { "标题":"成立"、 "内容":"1949年8月18日,德国黑措根奥拉赫" }, { "标题":"总部"、 "内容":"德国黑措根奥拉赫" }, { "标题":"子公司"、 "内容":"锐步、Five Ten Footwear、Runtastic、Ashworth、MORE" }, { "标题":"网站"、 "content":"https://www.adidas.com/us" } ], "副标题":"设计公司"、 "描述":"描述阿迪达斯公司(Adidas AG)是一家跨国公司,成立于德国黑措根奥拉赫(Herzogenaurach),总部设在德国。它是欧洲最大的运动服装制造商,也是仅次于耐克的世界第二大运动服装制造商。维基百科" } }
本地包装
"local_pack":[ { "链接":[ { "href":"https://www.adidas.com/us?utm_source=gmb&utm_medium=organic&utm_campaign=US470198_local"、 "标题":"网站" }, { "href":"#"、 "标题":"方向" } ], "电话":"", "标题":"adidas Originals 旗舰店"、 "评分":0, "地址":"Open ⋅ Closes 7PM"、 "副标题":"(212) 966-0954", "pos_overall":3, "rating_count":0 } ]
推特反馈
"twitter": [ { "pos": 1, "url": "https://twitter.com/elonmusk", "title": "Elon Musk (@elonmusk) · Twitter", "tweets": [ { "url": "https://twitter.com/elonmusk/status/1166081488648949760?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Etweet", "content": "Starhopper flight currently tracking to 5pm Texas time for 150m / ~500ft hover test", "timeframe": "11 hours ago" }, { "url": "https://twitter.com/elonmusk/status/1165377786338406400?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Etweet", "content": "Looks like @SpaceX Starhopper flight may be as soon as Monday. FAA support is much appreciated!", "timeframe": "2 days ago" }, { "url": "https://twitter.com/elonmusk/status/1165371975528640512?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Etweet", "content": "If you’re a utility or public utilities commission, please consider using the Tesla Megapack. Better for the environment & usually lower cost than fossil fuel peaker plants! www.tesla.com/megapack", "timeframe": "2 days ago" } ], "pos_overall": 1 } ]
职位列表
"工作":{ "listings":[ { "title":"高级软件开发人员"、 "来源":"via LinkedIn"、 "雇主":"Jobs @ TheJobNetwork"、 "地点":"Tulsa, OK"、 "extra_details":[ "1天前"、 全职 ] }, { "title":"自主车辆仿真软件工程师"、 "来源":"via Built In Colorado"、 "雇主":"Azevtec"、 "地点":"美国"、 "extra_details":[ "17小时前"、 全职 ] }, { "title":"高级软件工程师 - Oracle 运输管理"、 "来源":"via LinkedIn"、 "雇主":"XPO Logistics, Inc:"XPO Logistics, Inc、 "地点":"美国"、 "extra_details":[ "21小时前"、 全职 ] } ], "location_header":"美国附近" }
旋转木马
"item_carousel":{ "items":[ { "title":"Chris Evans"、 "副标题":"美国队长" }, { "title":"Mark Ruffalo"、 "subtitle":"绿巨人" }, { "title":"汤姆-霍兰德 "副标题":"蜘蛛侠" }, { "title":"斯坦-李 "副标题":"电视报道中的老人,巴士司机" }, { "标题":"Chris Pratt"、 {fnMicrosoftYaHeifs15bord1shad03aHCCb0}"字幕":"星爵" } ], "标题":"复仇者联盟/演员" }
图片
"images": [ { "alt": "Image result for contemporary wall clock", "href": "/search?q=contemporary+wall+clock&safe=off&hl=en&gl=US&tbm=isch&source=iu&ictx=1&fir=Qspcw8WiAmXYzM%253A%252C-m-5575uWYilbM%252C_&vet=1&usg=AI4_-kTGLIU9LAzoCJxO8gp7kK322MV8Yg&sa=X&ved=2ahUKEwjFy8rSy7HkAhWkDrkGHck7A24Q9QEwAXoECAkQBg#imgrc=Qspcw8WiAmXYzM:", "source": "https://www.allmodern.com/decor-pillows/sb0/wall-clocks-c429917.html" }, { "alt": "Image result for contemporary wall clock", "href": "/search?q=contemporary+wall+clock&safe=off&hl=en&gl=US&tbm=isch&source=iu&ictx=1&fir=G0pFK8TQ91ls6M%253A%252Cr5nLxZQfxnA3MM%252C_&vet=1&usg=AI4_-kStPZh1tpSdQ5vTAZUIXwW4zThzQg&sa=X&ved=2ahUKEwjFy8rSy7HkAhWkDrkGHck7A24Q9QEwAnoECAkQCQ#imgrc=G0pFK8TQ91ls6M:", "source": "https://www.wayfair.com/decor-pillows/cat/modern-wall-clocks-c1869680.html" }, ... { "alt": "Image result for contemporary wall clock", "href": "/search?q=contemporary+wall+clock&safe=off&hl=en&gl=US&tbm=isch&source=iu&ictx=1&fir=o4ZXIngZyr9HAM%253A%252C-m-5575uWYilbM%252C_&vet=1&usg=AI4_-kTIJMWyTs07HFcVKHTfTd6otLL82w&sa=X&ved=2ahUKEwjFy8rSy7HkAhWkDrkGHck7A24Q9QEwCnoECAkQIQ#imgrc=o4ZXIngZyr9HAM:", "source": "https://www.allmodern.com/decor-pillows/sb0/wall-clocks-c429917.html" } ]
相关问题
"相关问题":[ { "pos":1, "问题":"阿迪达斯代表什么?" }, { "pos": 2、 {fn华文楷体fs121cH0080FFi1}"问题""阿迪达斯是德国的吗?" }, { "pos":3, "question":"乔丹鞋是阿迪达斯的吗?" }, { "pos":4, "question":"阿迪达斯旗下有哪些鞋类品牌?" } ]
购物搜索
... "有机":[ { "pos":1, "url":"/aclk?sa=l&ai=DChcSEwju8fmd84jpAhUPTxgKHQshDIcYABAHGgJsZQ&sig=AOD64_1BTHVcnNzI5775j9xNkILrCU2KYA&ctype=5&q=&ved=0ahUKEwjpr_Sd84jpAhVI2aYKHYn1CeMQvxMI4wQ&adurl="、 "类型":"网格"、 价格85, "标题":"阿迪达斯白色 Swift Run 女士休闲鞋......"、 "商家":{ "url":"/aclk?sa=l&ai=DChcSEwju8fmd84jpAhUPTxgKHQshDIcYABAHGgJsZQ&sig=AOD64_1BTHVcnNzI5775j9xNkILrCU2KYA&ctype=5&q=&ved=0ahUKEwjpr_Sd84jpAhVI2aYKHYn1CeMQg-UECOoE&adurl="、 "名称":"终点线" }, "price_str":"$85.00."、 "pos_overall":1 }, { "pos": 2、 "url":"/shopping/product/4092922174439754197?uule=w+CAIQICIXQ29sb3JhZG8sIFVuaXRlZCBTdGF0ZXM&q=adidas&prds=epd:6096059639745774212,paur:ClkAsKraX5cxKGk1E_r15f66xbFqydL47KoF9cO04jau1Hw_EeaJnz0EV5mb_JEjRlE5_m7N_B5Vg-krR5766rvdESfkczSSBqkGVDV7A5Ts8BlTUCNfpUxgtxIZAFPVH73vXbe47J5qGlzkfYH83D9zVPSv8w,prmr:1&sa=X&ved=0ahUKEwjpr_Sd84jpAhVI2aYKHYn1CeMQvxMI7AQ"、 "类型":"网格"、 "价格":139.97, "标题":"阿迪达斯男式 Alphaboost 白色训练鞋......"、 "商家":{ "url":"/aclk?sa=l&ai=DChcSEwju8fmd84jpAhUPTxgKHQshDIcYABAEGgJsZQ&sig=AOD64_3S0xuLlA1GOzNxCvYQdpeTLZkRyQ&ctype=5&q=&ved=0ahUKEwjpr_Sd84jpAhVI2aYKHYn1CeMQg-UECPQE&adurl="、 "名称":"Baseball Savings.com }, "price_str":"$139.97."、 "pos_overall":2 }, ...
购物产品
... { "类型":"捆绑"、 "项目":[ { "值":"仅控制台"、 "selected": true、 "available": true、 "product_id":"5007040952399054528" }, { "值":"Splatoon 2 捆绑包"、 "available": false、 "product_id":"6767220879106424425" }, { "值": false"超级马里奥奥德赛版"、 "available": false、 "product_id":"11634753303078094444" } ] } ...
购物产品定价
"内容":{ "url":"https://www.google.com/shopping/product/5007040952399054528/online", "标题":"Nintendo Switch with Joy-Con - 32 GB - 灰色/黑色"、 "评分":4.5, "定价":[ { 价格319.99, "卖方":"Electronic Express"、 "详情":"免运费"、 "货币":"$"、 "price_tax":0, "price_total": 319.99、 "seller_link":"/aclk?sa=l&ai=DChcSEwi9t9HqoJ7mAhVCXw0KHdyPBEYYABABGgJxYg&sig=AOD64_2gaL_J1BQ5J5PR-JazDM86N23Nww&adurl=&ctype=5&q="、 "price_shipping":0 }, { "价格":334.99, "卖家":"ShopZodys"、 "详情":"12 月 9 - 13 日到达"、 "货币":"$"、 "价格税":27.69, "price_total": 412.67、 "seller_link":"/aclk?sa=l&ai=DChcSEwi9t9HqoJ7mAhVCXw0KHdyPBEYYABADGgJxYg&sig=AOD64_1Rqy4wxKvZXAaoX9FNDBy379EAAA&adurl=&ctype=5&q="、 "price_shipping":49.99 }
参数值
用户代理
下载完整列表 用户代理类型
JSON 中的值 这里.
[ { "user_agent_type":"桌面"、 "描述":"随机桌面浏览器用户代理" }, { "user_agent_type":"desktop_firefox"、 "描述":"最新版桌面火狐浏览器的随机用户代理"。 }, { "user_agent_type":"desktop_chrome"、 "description":"最新版桌面 Chrome 浏览器的随机用户代理"。 }, { "user_agent_type":"desktop_opera"、 "description":"最新版本桌面 Opera 的随机用户代理"。 }, { "user_agent_type":"desktop_edge"、 "description":"桌面边缘最新版本之一的随机用户代理"。 }, { "user_agent_type":"desktop_safari"、 "description":"桌面 Safari 最新版本之一的随机用户代理"。 }, { "user_agent_type":"mobile"、 "description":"随机移动浏览器用户代理" }, { "user_agent_type":"mobile_android"、 "description"(描述):"最新版本安卓浏览器的随机用户代理"。 }, { "user_agent_type":"mobile_ios"、 "描述":"最新版本 iPhone 浏览器的随机用户代理"。 }, { "user_agent_type":"平板电脑"、 "描述":"随机平板电脑浏览器用户代理" }, { "user_agent_type":"tablet_android"、 "描述":"最新版本安卓平板电脑的随机用户代理"。 }, { "user_agent_type":"tablet_ios"、 "description":"最新版本 iPad 平板电脑的随机用户代理"。 } ]
地点
下载完整列表 地点
JSON 中的值 这里.
[ { "locale":{ "en-ai":{ "description": "Anguilla - English"、 "domain": "com.ai"。 }, "es-pr":{ "description": "Puerto Rico - Spanish"、 "域": "com.pr" }, ... "en-by":{ "description": "Belarus - English"、 "domain": "by" }. }, "en-in":{ "description": "India - English"、 domain": "co.in" }, "en-in":{ "description": "India - English", "domain": "co.in" } } } ]
结果 语言
下载完整列表 results_language
JSON 中的值 这里.
[ { "results_language":"af"、 "语言":"南非荷兰语" }, { "results_language":"ar"、 "语言":"阿拉伯语" }, ... { "results_language":"vi"、 "语言":"越南语" } ]
地理位置
有几种方法可以使用 地理位置
参数,以获得正确本地化的 Google 结果。
- 使用 Google 的规范位置名称.这非常简单。只需将 CSV 下载中的一个值传递给我们即可 这里.例如
"geo_location":"纽约州纽约市美国"
. - 使用州名.剔除 Google 标准位置名称的前半部分,并传递一个
地理位置
在"州、国家"
格式。适用于美国、澳大利亚、印度和其他联邦制国家。举例说明"地理位置":"美国加利福尼亚州"
. - 使用国家名称.若要获取某个国家地理中心点的本地化结果,请输入官方国家名称。例如
"geo_location":英国
. - 使用坐标和半径.要获得超本地搜索结果(尤其适用于 "我附近的餐馆 "等搜索),可以传递纬度、经度和半径值。下面的示例传递的是华盛顿州西雅图 Space Needle 的坐标:
"geo_location":"lat: 47.6205, lng:-122.3493, rad: 25000"
.
如果通过拼写错误的 地理位置
参数,我们或 Google 有可能会为您解释并更正。不过,我们建议使用上述参数结构,并结合 地点
和 领域
参数,以获得最准确的结果。
账户状态
使用统计
您可以通过查询以下端点找到您的使用统计数据:
GET https://data.oxylabs.io/v1/stats
默认情况下,API 将返回所有时间的使用统计数据。添加 group_by=month
将返回月度统计数据,而 group_by=day
将返回每日数字。
该查询将返回所有时间的统计数据。您可以通过添加 group_by=day
或 group_by=month
curl --user user:pass1 'https://data.oxylabs.io/v1/stats'
输出示例
{ "数据":{ "sources":[ { "realtime_results_count":"90", "results_count":"10", "标题":"谷歌酒店" }, { "realtime_results_count":"19", "results_count":"87", "标题":"谷歌搜索" } ] }, "元":{ "group_by": null } }
限制
以下终端将提供您的每月承诺信息以及已使用的金额:
GET https://data.oxylabs.io/v1/stats/limits
curl --user user:pass1 'https://data.oxylabs.io/v1/stats/limits'
输出示例
{ "monthly_requests_commitment":4500000, "used_requests":985000 }
响应代码
代码 | 现状 | 说明 |
---|---|---|
204 |
无内容 | 您正在尝试检索一项尚未完成的任务。 |
400 |
多种错误信息 | 请求结构错误,可能是参数拼写错误或值无效。响应体将显示更具体的错误信息。 |
401 |
未提供授权标头"/"授权标头无效"/"未找到客户端 | 缺少授权标头或登录凭证不正确。 |
403 |
禁止 | 您的帐户无法访问此资源。 |
404 |
未找到 | 您要查找的职位编号已不再可用。 |
429 |
请求太多 | 超出费率限制。请联系您的客户经理以提高限额。 |
500 |
未知错误 | 无法提供服务。 |
524 |
超时 | 无法提供服务。 |
612 |
未定义的内部错误 | 出了点问题,我们未能完成您提交的任务。您可以免费再试一次,因为我们不会向您收取任何费用。 有问题 工作如果还不行,请联系我们。 |
613 |
重试次数过多后出现故障 | 我们曾尝试清除您提交的作业,但在达到重试限制后放弃了。您可以免费再试一次,因为我们不会向您收取任何费用。 有问题 工作如果还不行,请联系我们。 |
解析后的数据响应代码:
代码 | 现状 | 说明 |
---|---|---|
12000 |
成功 | 返回的解析内容是完整的,不应有缺失或损坏的字段。 |
12002 |
失败 | 我们无法完全解析该页面。可能是目标网站更改了 HTML 结构。 |
12003 |
不支持 | 不支持您要求我们解析的网页。 |
12004 |
部分成功 | 我们能够解析页面的大部分内容,但有几个字段缺失。 |
12005 |
部分成功 | 我们能够解析页面的大部分内容,但可能有一些字段带有默认值,因为我们无法在 HTML 中找到它们。 |
12006 |
失败 | 意外错误。请告诉我们您收到了这样的回复,我们会检查出错的原因。 |
12007 |
未知 | 未知解析数据状态。实际结果可能从完全失败到完全成功不等。 |
12008 |
失败 | 解析内容丢失。 |
12009 |
失败 | 未找到产品。请检查您提交的 URL。 |
云存储上传响应代码:
代码 | 现状 | 说明 |
---|---|---|
10001 |
意外异常 | 发生了严重的错误。我们可能已经知道,并正在修复。无论如何,请告诉我们。 |
13000 |
上传成功 | 一切顺利! |
13001 |
上传失败 | 我们无法上传您的工作结果。 |
13102 |
没有这样的道路 | 我们找不到这样名字的水桶。请仔细检查。 |
13103 |
拒绝访问 | Bucket 没有所需的权限。要了解如何授予我们必要的权限,请参阅 这里. |
参考资料
免责声明 这部分内容主要来自商家。如果商家不希望在我的网站上显示,请 联系我们 删除您的内容。
最后更新于 5 月 16, 2022