哥飞:SEO友好的AI原生CMS思考和实践 Part 2

大家好,我是哥飞。

关于哥飞介绍可以看这里:哥飞是谁,哥飞在做什么事情,在哥飞公众号大家可以看到什么内容
关于哥飞社群可以看这里:是时候给大家好好介绍一下哥飞的社群了,毕竟刚被二十年站长大佬夸过

上周三,哥飞做了一场150分钟的直播,从这里可以打开《一不小心,哥飞花了70天做了一个DR62的新网站》。

有位朋友用他做的视频笔记工具"ReadLecture"把直播回放视频转录成了图文并茂的文章。

哥飞申请复制过来在哥飞公众号备份一份,由于内容太多,这是第二部分。

大纲

  • AI工具来源与收集

    • 来源平台:Product Hunt,Hacker News,其他AI导航站点
    • 收集方法:开发爬虫进行工具抓取和去重处理
    • 技术栈:Next.js后端,Vercel部署,自建数据库
  • 页面内容管理

    • 自动化发现待收录页面
    • 页面信息:Page Name,Page Description,外部链接,当前状态
    • 技术选择:PGP,MySQL,PostgreSQL,Supabase,Cloudflare
  • AI原生特性

    • 数据来源自动化
    • 自动化分类处理
    • 初期使用免费资源,后期考虑高级解决方案
  • 参考资料表

    • 存储内容:配对的具体参考资料
    • 语言处理:多语言混合存储
    • 作用:增加权威性,防止AI产生幻觉
  • AI产品收录与展示

    • 收录新AI产品
    • 参考资料来源:产品官网,科技媒体,官方博客等
    • 自动化处理:爬虫获取信息,GPT格式化处理
  • 工作流程

    • 从手工到半自动再到全自动
    • 上线简单版本,逐步完善功能
  • 标签系统

    • 标签生成:基于搜索量的关键词
    • 标签用途:提升搜索引擎排名
    • 多语言支持:不同语言的提示词生成内容
  • 变现逻辑

    • 广告收入
    • PR发布
    • 广告位租赁
  • 技术细节

    • 静态页面生成
    • 缓存策略
    • 数据库压力减轻
  • 竞争与优化

    • 站内SEO
    • 网站权重提升
    • 多页面协同优化关键词
  • 结束语

    • 服务端渲染
    • 关注公众号和视频号

内容总结

一句话总结

文章详细介绍了如何通过自动化工具和策略收集、管理AI工具信息,并通过优化内容和标签系统提升网站的搜索引擎排名和变现能力。

观点与结论

  • 使用爬虫自动化收集和去重AI工具信息,提高效率。
  • 通过精心设计的提示词和多角度的内容介绍,有效提升AI产品的展示效果和搜索引擎排名。
  • 利用多语言提示词生成不同语言的内容,提升多语言支持能力。
  • 通过广告和PR发布等方式实现网站变现。
  • 采用静态页面生成和缓存策略优化网站性能。

自问自答

  1. 问:文章中提到的AI工具主要从哪些平台收集?

    • 答:主要从Product Hunt、Hacker News和其他AI导航站点收集。
  2. 问:文章中提到的数据库是如何处理的?

    • 答:数据库是自建的,因为直接使用Vercel或Supabase的数据库成本太高。
  3. 问:文章中提到的参考资料表有什么作用?

    • 答:参考资料表用于存储配对的具体参考资料,增加权威性,防止AI产生幻觉。
  4. 问:文章中提到的标签系统是如何生成的?

    • 答:标签系统基于搜索量的关键词生成,用于提升搜索引擎排名。
  5. 问:文章中提到的变现逻辑有哪些?

    • 答:变现逻辑包括广告收入、PR发布和广告位租赁。
  6. 问:文章中提到的静态页面生成是如何实现的?

    • 答:静态页面生成是通过实时生成的静态页面技术实现的,并非预先生成HTML文件。
  7. 问:文章中提到的竞争与优化策略有哪些?

    • 答:竞争与优化策略包括站内SEO、网站权重提升和多页面协同优化关键词。

关键词标签

  • AI工具
  • 爬虫
  • 数据库
  • 参考资料
  • 标签系统
  • 变现逻辑
  • 静态页面
  • SEO优化

适合阅读人群

  • AI工具开发者
  • 网站运营者
  • SEO优化专家
  • 数据分析师

术语解释

  • Product Hunt: 一个发现和分享新产品的社区平台。
  • Hacker News: 一个关于计算机黑客和创业的新闻网站。
  • Next.js: 一个用于构建服务器渲染的React应用程序的框架。
  • Vercel: 一个用于部署和托管前端应用的平台。
  • PostgreSQL: 一个强大的开源关系型数据库系统。
  • Supabase: 一个开源的Firebase替代品,提供数据库和身份验证等服务。
  • Cloudflare: 一个提供CDN、DNS、DDoS保护和安全服务的公司。
  • GPT: 一种基于Transformer架构的预训练语言模型。
  • SEO: 搜索引擎优化,通过优化网站内容和结构提升在搜索引擎中的排名。
  • CDN: 内容分发网络,通过将内容分发到全球多个服务器来提高访问速度和可靠性。

联系讲者


原直播视频见视频号哥飞出海

讲座回顾

  • AI工具来源:主要关注Product Hunt和Hacker News等平台,以及AI导航站点。
  • 技术实现:使用爬虫抓取AI工具,进行去重处理。
  • 技术栈:后端使用Next.js,部署在Vercel上,数据库自建以降低成本。
  • 自动化处理:通过爬虫自动化发现待收录页面,进行分类处理。
  • 成本考虑:初期使用免费资源,流量增加后再考虑高级解决方案。

我之前提到过,大家经常问我内容是从哪里来的。目前,我主要关注的是AI工具。我们思考过,哪里可以找到这些AI工具?例如,Product Hunt每天都会推出许多新的AI工具,Hacker News也是如此。此外,其他AI导航站点每天也会发布许多新的AI工具。为此,我们开发了一个爬虫来抓取这些工具,并进行了一些去重处理。

举例来说,这个截图显示来源是Product Hunt。我的后端使用Next.js,部署在Vercel上。目前,整个服务都部署在Vercel上,不需要使用自己的服务器。不过,我的数据库是自建的,因为直接使用Vercel或Supabase的数据库成本太高。我的数据库目前是自建的。如果你直接使用Vercel,可以享受到免费的服务器服务。使用Next.js可以同时处理前后端。

回到我们的页面,所有待收录的PH页面都是通过爬虫自动化发现的。我可能会从多个来源发现这些页面,并列出它们的Page Name、Page Description、对应的外部链接以及当前状态。选择你目前熟悉的技术,没有必要一定要学习新知识。选择你最熟悉的技术可以快速上线网站,选择成本较低的方案也是可以的。

例如,如果你想使用Vercel,数据库可以选择MySQL、PostgreSQL等。我目前使用的是PostgreSQL。如果你选择其他服务,如Supabase或Cloudflare,它们也提供数据库服务,选择很多。

这就是我所说的AI原生体现在哪里,体现在我的数据来源是自动化的,并且进行了一些自动化的分类处理。一开始,你可以使用免费的资源,不必考虑太多。等到流量增加后再考虑更高级的解决方案。一开始不需要考虑大流量的问题,先确保能够处理100%的流量。

关于流量的问题,其次,我们刚才讨论过的内容中,我提到了一个参考资料,这一点之前已经提及过。

  • 表的名称与功能:存在一张名为"reference content"的数据库表,用于存储特定配对的具体参考资料。
  • 资料存储形式:这些参考资料以文本形式存储,支持多语言混合。
  • GPT的能力:GPT能够处理和存储包括英文、中文在内的多种语言的参考资料。
  • 表的必要性:提供参考资料以增加权威性,防止AI产生幻觉或生成不准确的内容。
  • 新AI产品的处理:对于GPT训练数据库中不存在的新AI产品,确保参考资料的真实性,避免AI生成内容。

我先回到刚才提到的数据库表。我有一张名为"reference content"的表。这张表存储的内容是某个配对的具体参考资料。目前,这些参考资料以文本形式存储,并且不区分语言,即使是多语言混合也没有问题。得益于GPT的强大能力,我可以存储英文、中文甚至其他语言的参考资料。这就是"reference content"表的作用,它存储的是参考资料。

为什么需要这张参考资料表呢?大家可以思考一下,为什么需要?有没有人能在评论区回答一下?增加权威性是正确的,相当于提供参考资料,防止AI产生幻觉也是正确的。因为我们知道,如果让GPT凭空生成内容,很可能会产生幻觉或胡说八道。因此,为了解决这个问题,我们需要提供参考资料,严格让GPT基于这些资料生成内容,确保AI不会乱说话。

还有一个要点是,我们每天收录的是新的AI产品,这些产品根本不在GPT的训练数据库中,它根本不知道这些产品是什么。你问了一个很好的问题,参考资料是怎么来的?为了确保资料的真实性,而不是AI生成的,我在这里做了一些处理。现在,让我们回到刚才的那个页面。

  • 信息来源:产品官网、海外科技媒体、官方博客、About页面等。
  • 信息获取方式:通过爬虫技术获取,由GPT进行格式化处理。
  • 工作流程:从手工整理逐步过渡到半自动和全自动。
  • 当前状态:后台尚未完全自动化,仍需手工调试和完善代码。
  • 内容用途:参考资料不公开,仅用于GPT的内部参考。
  • AI依赖程度:爬虫操作基于人工编写的规则,AI尚未完全独立执行。

对,你说的很对,我的内容是通过爬虫获取的。这里给了一个示例,我截图展示了Hedra这个产品,参考资料大致展示了其官网的内容。格式并不重要,我直接将产品名称、官网网址、Title等按照特定风格排列,并换行插入其介绍和从网页上抓取的社交媒体链接等。这就是参考资料,只要是与产品相关的信息都可以纳入。

获取这些信息的渠道包括产品官网、海外科技媒体如Tiger Client,以及官方博客、About页面、团队介绍页面、公司介绍页面、产品介绍页面、Features页面、How It Works页面和FAQ页面等。所有这些信息都可以通过爬虫获取,并由GPT进行简单的格式化处理,作为参考资料。

最初,我是手工整理这些资料的,因为尚未确定合适的参考资料格式。当我手工整理到一定程度,明确了所需的参考资料格式后,我编写代码让GPT进行格式化处理。注意,这是格式化处理,而非生成,是基于爬取的数据进行的。

我的整个工作流程是从纯手工逐步过渡到半自动再到全自动的过程。目前后台尚未完全实现全自动,仍有许多手工参与的环节,因为我还需要进一步调试和完善代码。这也是我上线网站的风格,我先上线一个简单可用的版本,逐步完善功能。

关于后续迭代是否会导致谷歌认为结构变化而降低流量,答案是不会的。因为我的参考资料本身不会公开,这部分内容仅用于GPT的参考。爬虫并非完全由AI自动执行,而是基于我编写的规则。目前,AI尚未强大到可以完全依赖,仍需人工介入。

为每个Page都制作了参考资料后,

  • 提示词的作用:确保AI产品介绍的准确性和相关性,指导自动化减少重复劳动。
  • 提示词的调整:持续进行,不同语言需要分别编写提示词。
  • 内容生成策略:结合参考资料和产品名称,针对不同部分(如简介、常见问题、使用教程)使用专门的提示词。
  • 内容丰富性:关注文本内容的同时,考虑图文并茂和增量信息,如使用截图和GPT-4的图片识别能力生成详细教程。
  • 效果提升:通过精心设计的提示词和多角度内容介绍,提升AI产品的展示效果和搜索引擎排名。

在介绍AI产品时,每个部分都配备了特定的提示词,以确保内容的准确性和相关性。这些提示词不仅帮助生成产品介绍,还用于指导如何通过自动化减少重复性劳动。例如,使用GPT模型逐步替代人工操作,探索更多自动化可能性。

提示词的调整是一个持续的过程,不同语言的提示词需要分别编写,以确保生成内容的准确性。例如,使用中文编写的提示词可能不适用于生成英文内容,因此需要为每种语言定制提示词。

此外,每个部分都有专门的提示词,这些提示词结合参考资料和产品名称生成内容。例如,为了提升单页面的搜索引擎排名,需要从不同角度介绍产品,如简介、常见问题、使用教程等,每个部分都有针对性的提示词。

在生成内容时,不仅要关注文本内容,还要考虑图文并茂和增量信息。例如,通过实际使用产品并截取使用截图,利用GPT-4的图片识别能力生成详细的使用教程,这些都是增加页面信息量的方法。

总之,通过精心设计的提示词和多角度的内容介绍,可以有效提升AI产品的展示效果和搜索引擎排名。

  • 多语言内容生成:每个内容支持多语言特性,通过不同语言的提示词基于相同参考资料生成不同语言的内容。
  • 生成过程:不是先生成一个语言的内容再翻译,而是直接使用不同语言的提示词进行多次生成。
  • 成本与收益:虽然生成多语言内容的成本较高,但每个页面能带来大量点击,最终转化为收益,成本相对较低。
  • Tag管理:Tag是动态可维护的,有单独的表格管理。
  • 具体案例:以PNG Maker产品为例,用英文、德语和荷兰语生成了特定的标题和配置。

我们继续讨论下一个话题,即每个内容天然支持多语言的特性。这意味着什么呢?刚才我们提到,为每个页面抓取参考资料后,例如,我现在需要生成introduction部分,我可能会先以英文生成,然后再生成中文,以此类推。因为我对introduction部分有十种不同语言的提示词,我会让这十个不同的提示词基于相同的参考资料生成十个不同的内容。这里需要注意的是,我并不是先生成一个内容,然后让GPT进行翻译,而是直接使用不同语言的提示词,基于相同的参考资料生成不同语言的介绍。我进行了十次生成,而不是简单的翻译,这样的效果更佳。虽然费用不低,但相对于你能节省的费用,这是值得的,而且每个页面都能带来数百甚至数千的点击,这些点击最终能转化为收益,因此成本并不高。Tag是动态可维护的,有单独的表格,稍后我会详细介绍。例如,PNG Maker这个产品,我用英文生成了特定的标题和配置,同样也用德语和荷兰语进行了生成。

  • 标签生成原则:标签应基于有搜索量的关键词,旨在吸引搜索引擎流量。
  • 标签生成过程:目前依赖手工操作,未来目标是自动化或半自动化。
  • 关键词搜索量验证:通过查看高流量页面或使用谷歌趋势验证。
  • 标签表构建:包括多语言标签,需找到每个标签在不同语言中的正确表达。
  • 标签应用:通过GPT从标签列表中选择最合适的标签,确保标签的搜索量。
  • 技术细节:数据缓存处理减轻数据库压力,网站打开速度优化通过静态化处理实现。

在本次讲座中,我们将探讨如何自动提取有搜索量的关键词并将其作为标签。目前,这一步骤尚未完全自动化。有人可能会问,这些标签是如何生成的。需要注意的是,我们不能直接让GPT自动生成标签。我们的原则是,内容应旨在从搜索引擎获取流量。因此,我们必须寻找那些具有搜索量的关键词来作为标签。例如,我们之前提到的标签分类,如text to speech、speech to text、image to video等,这些标签目前仅要求有搜索量,而不追求其价值。我们将所有与AI产品相关的特性词抓取并清洗,然后存入数据库,形成一个多语言的标签表。这个标签表不仅包括简单的翻译,还需要找到每个标签在不同语言中的正确表达。

如何找到有搜索量的关键词?这需要我们回顾之前的挖掘需求方法,比如查看其他网站的高流量页面或高流量关键词。关于Claud3.5是否比GPT-4o效果更好,我没有进行过测试,因为我一直使用的是GPT-4o。此外,数据缓存处理是必要的,以减轻数据库压力,这需要多级缓存策略。

关于广告内容是否会与标签冲突,答案是不会。对于难以理解的语言标签,我们可以使用GPT或谷歌翻译进行初步处理,然后通过谷歌趋势验证其搜索量。缓存策略将在下次课程中详细讲解。目前,关键词标签的提取主要依赖手工操作,我希望未来能实现自动化或半自动化。这一过程的初始手工操作有助于形成标准操作流程(SOP),后续可以逐步实现自动化。

第六点涉及自动为页面打上合适的标签。虽然目前这一步骤是手动进行的,但我之前在测试GPT的插件商店时,已经验证了自动打标签的可行性。具体操作是,将所有标签和产品介绍传入GPT,让其从标签列表中选择最合适的标签,而不是自动生成标签。这一步骤非常关键,因为它确保了标签的搜索量。此外,网站的打开速度优化是通过静态化处理实现的。

接下来,我们将进入重点部分。之前虽然讨论了许多内容,但尚未详细说明标签的具体用途。现在,我们将探讨如何利用标签生成多种不同的页面。在此,我暂时不展示具体内容,而是转向其他方面。