大模型时代,知识的获取变得容易,但是个人很容易淹没在大模型输出的海量知识中,学习效率反而降低。为了高效找到所需要的知识,人类仍需要不断积累知识,转换成为自己的经验,不妨称之为 元知识。这样,在面对具体问题时,就能根据元知识快速判断需要哪些具体的知识,并从大模型获取。总之, 知识的重要性降低,但是元知识变得非常重要。下面,以OpenClaw采集股票实时行情数据为例,介绍这一个思路。总之,人类不能被网上所说的大模型时代知识不值钱的论调所迷惑,而自废知识学习能力。
让OpenClaw获取某个股票的实时信息,它会从腾讯财经上快速获得,可见大模型已经掌握了腾讯财经上关于股票行情的请求方法。下面,我换一个来源,指定它从新浪财经获取股票实时数据。它先后尝试了五个方法,但最终都没能从新浪财经获取到数据。以下是其中三次尝试,试图改变User-Agent和网址,但都没有成功。
所有的尝试都没有成功,白浪费了tokens和Money,大模型的账单很快就来了。
在这种情况下,需要人类介入,需要人类的专业知识。否则基于OpenClaw和大模型之间的 纠错和试错机制,花再多的tokens,也无法解决问题。
以下是人类:通过浏览器的开发者工具很容易找到新浪的URL。
从爬虫检测的角度看,使用User-Agent的特征所需要付出的代价比较小,但是容易被爬虫端随意修改,正如OpenClaw所尝试的,首先想到的也是修改User-Agent,但 在对抗中,大家都能想到的东西是没有用的。所以加入另一个简易特征Referer,发现是可行的。
基于这个经验知识和试验结果,我们可以让OpenClaw制作一个Skill(sina-skill),规定它HTTP请求头的写法,即可。正是人类(我)具备爬虫对抗、分析浏览器请求和判断特征代价的经验知识,才可以利用这种知识避免龙虾走弯路,减少token消耗,所以知识,特别是元知识是值钱的。
感谢新浪提供查询API,建议适当增强反爬虫措施。