最近在研究如何获取数据,在网上看到这个,就有人推荐我看了这个文章,就把介绍复制过来了!本插件卖1000元,每天只能采集1400篇文章,多了采集不到;不过已经有朋友在用类似的方法,效果还是可以的!
最近开发出来一款python的脚本,头条问答(大家都在问)文章聚合python脚本,今天来对这个脚本来做一下说明:
1、采集源:今日头条大家都在问
2、脚本类型:python脚本
3、采集逻辑:
首先,也是根据搜索词进行采集的,搜词之后,提取头条问答列表的网址,默认请求20个列表页;
其次,提取到列表页的文章数据之后,对文章进行聚合,组合数据至少2篇,文章的长度至少1200字,在组合时候,如果不足2篇文章不足1200字,会把后面的文章组合进来。
最后,标题采用前两篇文章的标题进行组合,内容的小标题采用 h3标签+正文内容
4、保存格式,一篇文章一个记事本
5、其他:这个脚本是单纯的python脚本,因为提取逻辑的问题,没法做成火车头的插件,如果想要发布到自己的网站,需要先把数据导入到火车头,然后单独进行发布
6、增加有文章id 去重功能,可以保证文章不重复聚合。
头条问答的数据不好采集,之前的时候,有悟空问答的入口,通过悟空问答可以采集到很多数据,后面头条直接取消了悟空问答,改成了悟空搜索,然后所有数据都整合到了大家都在问中,其实这两个页面目前来说还是有差异的,之前悟空问答的页面,和大家都在问的页面有些差异,但是通过观察发现,后面大家都在问的数据占比越来越高,应该是把之前的悟空问答的数据都转移到大家都在问这个里面来了。
目前这个脚本更新了4个版本,后面还会继续优化,这个脚本也单独出售,价格500,暂时不会涨价,后面功能增加之后,会进行价格的调整,后面更新这个帖子的时候,会进行说明。有需要的朋友可以联系我查看采集到的数据。
插件说明:
1、python库安装requests
安装指令 pip install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
安装方法:win+r---cmd---回车---复制上面指令---粘贴指令---回车---安装完成
2、data文件夹,存放采集数据的地方
3、cookie.txt,存放多个cookie,脚本随机抽取,一行一个
4、qid.txt,存放已经采集过的文章id,主要作用是:采集去重
5、keyword.txt,存放关键词,一行一个
6、拿到插件之后,先提取头条问答列表的cookie,多个浏览器的cookie存到cookie.txt
7、准备正式开始采集前,清空一次qid.txt即可,后面采集的数据会不断的写入到里面;
8、keyword.txt,粘贴自己的关键词进去,关键词记得备份,采集到数据的关键词会自动删除掉,保留没有采集到数据的关键词在里面;
9、重要建议:有多个行业采集,建议复制多个演示脚本文件夹,整套来用;
10、重要修改!!插件328行开始如下:
data_outpath = 'E:/大家都在问脚本/百科_手机/data/'
key_path = 'E:/大家都在问脚本/百科_手机/手机.txt'
qid_path = 'E:/大家都在问脚本/百科_手机/qid.txt'
cookie_path = 'E:/大家都在问脚本/百科_手机/cookie.txt'
#内容限制词,文章正文必须包含的关键词
bh_key = '手机'data_outpath:代表采集数据输出目录
key_path:代表关键词文件调用
qid_path:代表文章qid文件调用
cookie_path:代表cookie文件调用
bh_key:代表文章正文必须包含的关键词上面的全部改成自己的路径,按照上面的样式进行修改
==========20230104更新==========
今日头条大家都在问问答聚合插件6.0更新
1、增加随机cookie功能,提前准备好cookie,随机抽取,测试这样更稳定一些;
2、增加必须包含词,对内容做筛选
3、修复已知问题