douyin
本软件工具仅限学术交流使用,严格遵循相关法律法规,符合平台合法性,禁止任何商业用途!
最近捣鼓出了一款用 Python 开发的抖音评论区数据采集工具 ——douyin_search_comment_tool。它可不是一般的小玩意儿,能帮咱们挖到抖音评论区里超多有价值的信息!
一、为啥开发这个工具?
抖音现在多火不用我多说了吧,日活好几亿,那评论区简直就是个信息大宝库!消费者对各种商品、品牌的看法、需求,还有购买意图都藏在这些评论里。我就想着,能不能做个工具,合法合规地把这些数据收集起来分析分析,让大家能更了解消费者的心思呢?于是,这款工具就诞生啦~
它支持两种采集模式:
按关键词采集:输入作品关键词,找到相关作品链接,再抓取评论,就像顺着藤蔓找西瓜一样。
按作品链接采集:直接输入作品链接,就能把评论捞出来,简单直接。
二、软件长啥样?效果咋样?
给你们看看软件运行时的样子,界面设计得很简洁,操作起来超方便。不管你是技术大神,还是刚接触这类工具的小白,都能轻松上手。
采集完的数据也很直观。笔记数据会自动导出csv文件,里面包含关键词、视频标题、作者昵称、粉丝数等 13 个字段:
评论数据的csv文件也有 11 个字段,像评论者昵称、评论时间、评论内容都有,清清楚楚,方便分析:
我还录了个软件运行演示视频,大家可以去看看,更直观地感受一下它的强大!
三、使用说明
几个必需的说明:
- 系统适配:Windows 用户有福啦,不用再费劲去装 Python 运行环境,直接双击就能打开用,主打一个方便快捷!
- 爬取方式:它是通过接口协议来爬取数据的,不是那种模拟浏览器的方式,稳定性超棒,不用担心爬着爬着就出问题。
- cookie 设置:使用前得在 cookie.txt 文件里填好自己的 cookie 值(获取方法也很简单,有专门的说明,按照步骤来就行),这样就能重复使用,方便后续操作。
- 筛选功能:支持多种筛选条件,排序方式有综合排序、最新发布、最多点赞;发布时间能选不限、一天内、一周内、半年内。还有笔记关键词、笔记链接、评论关键词、IP 属地这些都能设置,想找啥数据,轻松筛选就行。
- 数据保存:爬取过程中,每爬完一页就会存一次 csv 文件,每隔 1 - 2 秒存一次,就算中途出点小意外,也不用担心前面的数据丢了,主打一个安心。
- 运行记录:爬取的时候会生成 log 文件,详细记录运行过程,要是出了问题,顺着 log 文件就能找到原因,回溯超方便。
- 筛选效率:评论筛选不是等全部爬完再进行,而是边爬边筛,效率直接拉满!
四、技术揭秘
这款软件全部用 Python 开发,里面用到了几个常用模块:
代码语言:python代码运行次数:0运行复制tkinter:负责打造软件的 GUI 界面,让咱们操作起来一目了然。
requests:在合法合规的前提下,负责去请求数据,把需要的数据从抖音 “拿” 回来。
json:解析获取到的响应数据,让数据变得有条有理,方便后续处理。
pandas:用来保存 csv 结果,还能在合法范围内清洗数据,去除那些没用的信息。
logging:记录日志,把操作过程都记下来,方便检查是不是合规。
不过呢,出于版权和合规的考虑,暂时还不能公开源码,希望大家理解哈。
五、功能详解
填写 cookie:这是使用的第一步,把通过合法途径获取的 cookie 值填到 cookie.txt 文件里。
大家一定要遵守抖音平台关于 cookie 使用的规定,别违规操作哦!
根据关键词爬评论:先在软件左上区填好笔记筛选项,再在右上区设置评论筛选项,最后点击按钮 1,就等着数据乖乖 “跑” 到你的电脑里吧!
根据作品链接爬评论:在中上区输入作品链接,右上区设置好评论筛选项,点击按钮 2,数据采集就开始啦,是不是很简单?
六、作者声明
软件首发公众号 “老男孩的平凡之路”,主要是供大家学术交流、技术探讨用的,可千万别拿去商用哦!要是违反规定,那可就不好啦。
希望大家在遵守规则和法律的前提下,一起交流使用心得,让这个工具变得更完善!