第二步·采集:系统性"扫"全量信息
方案有了,开始取证。这一步的精髓是"扫"而不是"搜"——不是随手翻 20 条,而是把范围内的公开信息系统性、结构化地批量采集下来,并当场存成能分析的表。
回到白酒案例:你要的不是"几条年轻人喝白酒的帖子",而是近 2 年、与主题相关、上限 ~1000 条的帖子和它们的评论。靠人一条条复制,一周都干不完。这一步就是让 AI + 工具,把这件"体力活"系统化地完成。
"搜" 和 "扫" 的本质区别
| 搜(业余) | 扫(专业) | |
|---|---|---|
| 覆盖 | 看到几条算几条 | 覆盖范围内的全量 |
| 方式 | 人工逐条看 | AI 批量、自动化地取 |
| 产出 | 脑子里的模糊印象 | 一张结构化的数据表 |
| 可复现 | 没法复现 | 方法固定,随时能重跑 |
关键动作:采集即结构化
采集的同时就要存成表,而不是先囤一堆乱文本。每采一条,就提取成固定字段。这样后面分析时直接能用。建议的字段例如:
- 正文/标题、发布时间、互动数据(点赞/收藏/评论数)
- 评论内容(这是真实声音的金矿)
- 分析阶段要加的标记位:是否广告、可信度、提到的度数/价格/口味/规格(先留空,第 4、5 讲填)
⚠ 合规与节制:这是专业素养,不是可选项
大规模采集公开内容,务必守住底线:① 只取公开可见信息,不碰需要登录才能看的私密内容;② 尊重平台规则(robots、服务条款),平台明确禁止的不要硬来;③ 优先用官方开放接口/API,有正门就别翻墙;④ 控制访问频率,别把人家服务器打挂;⑤ 不采集、不存储个人隐私(手机号、住址等)。越界不仅有法律风险,也会害了你和公司。能力越大,越要守规矩——这是第二部分"红线"思维的延续。
跟我做一遍:搭起采集流程
在 Claude Code 里(回顾第一/二讲的项目思维),把采集当成一个可重跑的流程来搭。
第一步 · 先定义"采什么、存成什么样"
复制
我要采集近 2 年关于"年轻人喝白酒、白酒口味偏好、年轻人选白酒"的
公开帖子及其评论,目标约 1000 条。先别开始,先跟我确认:
1) 你打算用什么合规的方式获取(优先官方接口/公开页面);
2) 每条要提取成哪些字段,给我一个表头设计;
3) 如何控制频率、避免违规。
确认方案后我再让你执行。
第二步 · 让它把采集做成可重跑的脚本
把一次性变可复用
方案可以。把采集写成一个脚本:
按关键词和时间窗采集,去重,控制请求频率,
每条按我们定的表头存进一个表格文件,跑的过程打印进度。
先小规模试跑 20 条给我看效果,没问题我们再放量。
第三步 · 验证小样本,再放量到全量
先验证后放量
这 20 条看起来对。字段抽查没问题,去重也正常。
现在放量到目标规模,过程中如果遇到访问限制就降速重试,
最后告诉我一共采到多少条、有没有遗漏或异常。
✓ 你刚刚学会的
采集不是"人肉搜",而是设计方案 → 做成脚本 → 小样验证 → 放量全采 → 存成结构化表。这套流程一旦搭好,下次换个产品换个关键词,改两个参数就能重跑——这就是专业和业余的差距。
规模大到一次跑不完怎么办
上千条采集 + 后续分析,会超出一次对话的处理量。专业做法是分批、并行:让 AI 把任务切成多批分头处理(Claude Code 支持把活分给多个"子任务"并行跑),再汇总。第 5、9 讲会深入这个"化整为零再合并"的思路。
这一讲记住什么
- 要的是"扫"全量,不是"搜"几条;覆盖范围内的全部。
- 采集即结构化:边采边存成带固定字段的表。
- 合规五条:只取公开、尊重平台规则、优先官方接口、控制频率、不碰隐私。
- 流程:定方案 → 写脚本 → 小样验证 → 放量,可重跑。