首页 / CC成长营 / 完成复杂任务 · 第 3 讲

第二步·采集：系统性"扫"全量信息

方案有了，开始取证。这一步的精髓是"扫"而不是"搜"——不是随手翻 20 条，而是把范围内的公开信息系统性、结构化地批量采集下来，并当场存成能分析的表。

回到白酒案例：你要的不是"几条年轻人喝白酒的帖子"，而是近 2 年、与主题相关、上限 ~1000 条的帖子和它们的评论。靠人一条条复制，一周都干不完。这一步就是让 AI + 工具，把这件"体力活"系统化地完成。

"搜" 和 "扫" 的本质区别

	搜（业余）	扫（专业）
覆盖	看到几条算几条	覆盖范围内的全量
方式	人工逐条看	AI 批量、自动化地取
产出	脑子里的模糊印象	一张结构化的数据表
可复现	没法复现	方法固定，随时能重跑

关键动作：采集即结构化

采集的同时就要存成表，而不是先囤一堆乱文本。每采一条，就提取成固定字段。这样后面分析时直接能用。建议的字段例如：

正文/标题、发布时间、互动数据（点赞/收藏/评论数）
评论内容（这是真实声音的金矿）
分析阶段要加的标记位：是否广告、可信度、提到的度数/价格/口味/规格（先留空，第 4、5 讲填）

⚠ 合规与节制：这是专业素养，不是可选项 大规模采集公开内容，务必守住底线：① 只取公开可见信息，不碰需要登录才能看的私密内容；② 尊重平台规则（robots、服务条款），平台明确禁止的不要硬来；③ 优先用官方开放接口/API，有正门就别翻墙；④ 控制访问频率，别把人家服务器打挂；⑤ 不采集、不存储个人隐私（手机号、住址等）。越界不仅有法律风险，也会害了你和公司。能力越大，越要守规矩——这是第二部分"红线"思维的延续。

跟我做一遍：搭起采集流程

在 Claude Code 里（回顾第一/二讲的项目思维），把采集当成一个可重跑的流程来搭。

第一步 · 先定义"采什么、存成什么样"

复制

我要采集近 2 年关于"年轻人喝白酒、白酒口味偏好、年轻人选白酒"的
公开帖子及其评论，目标约 1000 条。先别开始，先跟我确认：
1) 你打算用什么合规的方式获取（优先官方接口/公开页面）；
2) 每条要提取成哪些字段，给我一个表头设计；
3) 如何控制频率、避免违规。
确认方案后我再让你执行。

第二步 · 让它把采集做成可重跑的脚本

把一次性变可复用

方案可以。把采集写成一个脚本：
按关键词和时间窗采集，去重，控制请求频率，
每条按我们定的表头存进一个表格文件，跑的过程打印进度。
先小规模试跑 20 条给我看效果，没问题我们再放量。

第三步 · 验证小样本，再放量到全量

先验证后放量

这 20 条看起来对。字段抽查没问题，去重也正常。
现在放量到目标规模，过程中如果遇到访问限制就降速重试，
最后告诉我一共采到多少条、有没有遗漏或异常。

✓ 你刚刚学会的 采集不是"人肉搜"，而是设计方案 → 做成脚本 → 小样验证 → 放量全采 → 存成结构化表。这套流程一旦搭好，下次换个产品换个关键词，改两个参数就能重跑——这就是专业和业余的差距。

规模大到一次跑不完怎么办 上千条采集 + 后续分析，会超出一次对话的处理量。专业做法是分批、并行：让 AI 把任务切成多批分头处理（Claude Code 支持把活分给多个"子任务"并行跑），再汇总。第 5、9 讲会深入这个"化整为零再合并"的思路。

这一讲记住什么

要的是"扫"全量，不是"搜"几条；覆盖范围内的全部。
采集即结构化：边采边存成带固定字段的表。
合规五条：只取公开、尊重平台规则、优先官方接口、控制频率、不碰隐私。
流程：定方案 → 写脚本 → 小样验证 → 放量，可重跑。

← 上一讲第一步·拆解：把目标变成研究方案下一讲 →第三步·甄别：识广告、揪水军、留真声