1. 这不是一场替代战,而是一次职业能力的重新校准
“Will ChatGPT replace Data Scientist???”——这个标题我第一次在LinkedIn上看到时,正蹲在客户机房调试一个卡了三天的Spark作业。屏幕上报错堆栈还没收起,手机弹出这条高亮推送,底下配图是AI机器人戴着数据科学家工牌、手握Python键盘,背景里一排灰掉的Jupyter Notebook图标。说实话,我笑了,但笑完立刻点开看了三遍。不是因为焦虑,而是因为太熟悉这种“技术恐慌”的节奏:2015年Hadoop刚火时,有人问“SQL会被MapReduce取代吗”;2018年AutoML兴起,又有人发帖“是不是以后只要拖拽就能建模”。每次提问背后,真正想问的从来不是工具会不会消失,而是“我现在每天花8小时写的特征工程脚本,还有没有不可替代的价值?”
这个问题的核心关键词——ChatGPT、Data Scientist、替代、职业价值、AI辅助、人机协同——已经清晰勾勒出讨论边界:它不指向某个具体技术实现,而是一场关于数据科学工作流中‘人类智能’不可压缩部分”的再识别运动。适合读这篇内容的,不是刚刷完三节Kaggle教程的新手,也不是已坐进CTO办公室的老将,而是那些真实处在一线的从业者:你每天要和业务方扯皮需求逻辑,要从脏得像腌菜缸一样的日志里捞出有效字段,要在模型AUC提升0.3%和上线延迟2天之间做取舍,还要在周报里把“我们用SHAP解释了模型”写成老板能看懂的“风控策略更透明了”。你不需要知道Transformer的梯度怎么反向传播,但必须清楚:当ChatGPT能写出90%的pandas代码时,剩下那10%——比如为什么要把用户登录时间戳转成“距最近一次凌晨4点的小时偏移量”,而不是直接用dt.hour——才是你工资单背后的硬通货。
我试过让ChatGPT完整复现一个我上周交付的信用评分模型项目。它30秒生成了数据加载、缺失值填充、XGBoost训练、特征重要性绘图的全部代码,连random_state=42都记得。但当我追问“为什么对‘近7天逾期次数’做log(1+x)变换,而对‘历史最高逾期天数’用分箱处理”,它的回答开始漂移:“这是常见做法,能提升模型稳定性……”——它没提业务侧明确要求“逾期次数>5次的客户必须人工复核”,也没提分箱边界是和合规团队开会敲定的三个阈值(3天、15天、90天)。这些细节不在任何公开数据集文档里,只存在于我电脑里那个命名为“2024Q2_风控模型_v3_终稿_含会议纪要”的Word文件夹里。所以,这篇文章不谈“AI会不会取代数据科学家”,而是带你亲手拆开一台正在运转的数据科学工作流机器,拧下每颗螺丝,看清哪些是ChatGPT能批量生产的标准件,哪些必须由你亲手锻造、刻上个人印记的定制件。接下来的内容,全部基于我过去三年带的6个落地项目(电商推荐、保险理赔预测、制造业设备故障预警、银行反欺诈、医疗影像初筛辅助、物流时效优化),所有案例、参数、踩坑记录均可追溯到真实生产环境。
2. 数据科学工作流的四层解剖:哪一层正被AI加速,哪一层反而更依赖人
2.1 第一层:机械性编码与语法搬运(AI已接管85%)
这一层最直观,也最容易引发焦虑。它包含:基础数据读取(pd.read_csv,spark.read.parquet)、常规清洗(dropna,fillna,str.replace)、标准可视化(plt.hist,sns.heatmap)、经典模型调用(LogisticRegression().fit(),RandomForestClassifier())以及基础评估指标计算(accuracy_score,classification_report)。ChatGPT类工具在此层的表现,已远超“可用”范畴,达到“高效量产”级别。
我做过量化测试:给定某电商平台用户行为日志样本(10万行,含user_id, event_time, page_type, duration_ms字段),要求完成“统计各页面类型平均停留时长,并按降序排列”。ChatGPT-4o输出的代码不仅语法零错误,还主动加了异常处理(try-except捕获duration_ms非数值)、自动处理了page_type空值(用'unknown'填充)、甚至在绘图时设置了中文字体避免乱码。整个过程耗时12秒,比我手动敲完快3倍。更关键的是,它生成的代码可直接粘贴进Jupyter运行,无需调试。
但这层的“可替代性”有严格前提:输入指令必须足够结构化,且问题域处于公共知识库覆盖范围内。一旦涉及企业私有规范,AI立刻失灵。例如,我们内部规定所有时间字段必须统一转为UTC+8时区并存储为datetime64[ns],且page_type需映射为预定义枚举('home':1, 'product_list':2, 'cart':3...)。当我把这条规则写进提示词:“请按公司《数据接入规范V3.2》第4.1条处理时间字段,第5.3条映射page_type”,ChatGPT返回的代码仍试图用pytz.timezone('Asia/Shanghai'),而我们实际用的是自研的timezone_converter模块(因历史原因兼容旧系统)。这暴露了本质:AI在搬运语法,而人在定义语法。
提示:别把AI当实习生,要当它为“超级语法速查手册”。我的实操习惯是——先让它生成基础框架,再用Ctrl+F搜索所有
import语句,逐个替换为公司内部SDK路径;对所有字符串常量(如列名、枚举值)用# TODO: CHECK WITH BUSINESS标注,留待人工校验。这比从零写快,又比全信它稳。
2.2 第二层:模式化分析与报告生成(AI接管60%,但质量取决于人)
这一层开始出现“智力劳动”痕迹,典型任务包括:描述性统计解读(“销售额环比下降12%,主要因华东区下滑25%”)、AB测试结果摘要(“新按钮点击率提升18%,P值<0.01,但次日留存无显著差异”)、模型诊断报告(“特征重要性显示‘用户年龄’权重最高,但SHAP值分布显示其影响在35-45岁区间呈U型”)。ChatGPT在此层的价值不是替代,而是把“翻译”工作自动化——把数字翻译成业务语言,把技术结论翻译成决策建议。
我曾用它处理一份物流时效分析报告。原始输出是20页PDF,含127个指标图表。我喂给AI的指令是:“基于附件PDF中的图表数据,生成一份给运营总监看的3页摘要,重点回答:1)当前全国平均配送时效是否达标(SLA=48h)?2)未达标区域中,哪个环节(揽收/运输/派送)拖累最大?3)给出2条可下周执行的优化建议。” AI输出的摘要准确抓住了核心:指出华中区派送环节平均耗时58.3h,是最大瓶颈;并建议“优先为华中区TOP20网点配置夜间派送员”(该建议恰好匹配我们上周人力调度系统的排班数据)。但第二条建议“优化路由算法参数”就露馅了——它没提我们路由引擎是自研的C++模块,参数调整需编译部署,根本无法“下周执行”。
这揭示了关键规律:AI擅长基于已有数据做归因和推演,但无法基于组织约束做可行性判断。它不知道财务部只批了3人天的开发预算,也不知道运维团队下周要升级K8s集群。因此,我的工作流已固化为:AI生成初稿 → 我用红笔圈出所有“需要确认资源/权限/排期”的建议 → 拉上相关方开15分钟站会拍板。结果是报告产出速度提升40%,而决策质量反而更高——因为AI逼我显式暴露了所有隐性约束。
2.3 第三层:问题定义与需求翻译(AI辅助,但决策权100%在人)
这才是数据科学家真正的“护城河”。它不产生代码,却决定所有后续工作的方向和价值。典型场景包括:把一句模糊的业务诉求“让会员更活跃”转化为可量化的分析目标(“提升月均ARPU 5%,同时将30日留存率稳定在45%以上”);识别需求背后的真问题(业务说“要预测流失”,实际是“想在用户流失前72小时触发高成本挽留动作”,因此模型必须满足<1%的误报率,而非追求AUC最高);在多个可行方案中做价值权衡(用复杂深度学习模型提升0.5%准确率, vs 用轻量XGBoost保证99.99%服务可用性)。
ChatGPT在此层的作用,是高质量的“思维脚手架”。我常用它做“需求压力测试”:把业务方原始需求输入,让AI列出10个可能被忽略的边界条件。例如,当产品提出“预测用户购买意向”,AI会追问:“预测时间窗口是下单前1小时?1天?还是7天?不同窗口对应的数据采集难度和业务动作完全不同。” 这些问题我当然知道,但日常沟通中常被业务方的急迫感带偏。AI的冷静追问,像一面镜子照出我的思维盲区。
但最终拍板,永远是我。去年做保险续保预测时,AI建议用LSTM处理用户历史保单序列,理由是“能捕捉时序依赖”。我否决了——因为生产环境要求模型响应<200ms,而LSTM推理耗时实测达1.2s。我选择了手工构造23个时序特征(如“最近3次缴费间隔标准差”、“历史最长未缴费天数”),用LightGBM建模,上线后P99延迟压到87ms。这个决策背后,是三年来积累的硬知识:知道LSTM在CPU上的推理瓶颈在哪,清楚LightGBM的特征分裂如何影响延迟,更明白业务方真正要的不是“最准”,而是“够准且能实时干预”。AI可以罗列选项,但只有人才能掂量出每个选项在真实世界里的重量。
2.4 第四层:领域知识内化与创新突破(AI完全无法介入)
这是数据科学的“暗物质”层——看不见,却决定整个工作的质量基线。它包含:对行业规则的肌肉记忆(如金融风控中,“同一身份证号关联3张以上信用卡”是强风险信号,这规则写在银保监文件里,但不会出现在任何数据字典中);对数据生成机制的直觉(看到“用户注册时间”字段大量集中在整点,立刻怀疑是爬虫或批量导入);在数据矛盾时做专业判断(当埋点数据显示“支付成功”但订单库显示“支付失败”,优先信哪个?为什么?);以及最关键的——发现数据之外的新变量。
我亲历的最典型案例,是帮一家连锁药店做慢病用药依从性分析。初始数据只有电子处方记录(药品名、剂量、开药日期)。AI能轻松做出“依从性低的患者复诊率更低”的结论,但毫无业务价值。直到我在门店蹲点两天,发现药师每次发药都会手写一张“用药提醒卡”,上面有患者对药物副作用的口头反馈。我把这个观察告诉团队,推动IT部在APP里新增“副作用反馈”入口。三个月后,新数据上线,我们构建的“副作用-停药风险”模型,将高风险患者识别准确率从62%提升到89%。这个突破,源于我对医药零售场景的理解,源于我愿意花两天时间站在药架旁观察,源于我知道“手写便签”比“结构化数据库”更能反映真实患者状态。
这一层的能力,无法被提示词训练,无法被数据喂养。它生长在你和业务一线的每一次碰撞里,在你为解决一个脏数据问题翻遍三年日志的深夜里,在你听销售抱怨“系统总报错”时多问一句“报错时你在点哪个按钮”的好奇心里。ChatGPT再强大,也无法模拟这种扎根于现实土壤的感知力。它甚至无法理解,为什么在制造业设备故障预测中,“维修工程师更换备件的品牌”这个字段,比“设备运行温度”更能预示下次故障——因为老师傅们私下流传着“某品牌轴承寿命只有竞品的60%”的行规,而这从未写入任何SOP。
3. 实操指南:把ChatGPT变成你的“超级副驾驶”,而非“自动驾驶”
3.1 工具链整合:让AI无缝嵌入你的IDE工作流
与其把ChatGPT当网页版聊天框,不如把它变成IDE里的“活文档”。我的主力配置是VS Code + GitHub Copilot + 自定义Prompt模板,辅以本地部署的Ollama(运行Phi-3模型处理敏感数据)。关键不是工具多炫,而是让AI输出与你的开发习惯严丝合缝。
第一步,建立标准化Prompt模板。我绝不写“帮我写个随机森林代码”,而是用这个结构:
【角色】你是一名有5年电商风控经验的数据科学家,熟悉PySpark和Scikit-learn。 【输入】数据schema: user_id(string), login_time(timestamp), order_cnt_7d(int), is_fraud(boolean) 【任务】编写PySpark代码,实现:1)将login_time转为UTC+8并提取'hour_of_day'特征;2)对order_cnt_7d做log(1+x)变换;3)用RandomForestClassifier训练,评估AUC。 【约束】1)必须使用spark.sql("...")方式写UDF;2)特征列名按公司规范加前缀'feat_';3)输出代码需包含详细注释,说明每步业务含义。这个模板强制AI进入我的上下文。其中“【约束】”部分最关键——它把公司规范、技术选型、命名约定等隐性知识显性化,大幅降低返工率。实测下来,用此模板生成的代码,80%可直接提交Git,剩余20%只需微调参数。
第二步,用Copilot的“/”命令替代手动复制粘贴。比如在调试时发现order_cnt_7d有大量负值,我直接在代码旁打/explain why order_cnt_7d is negative,Copilot会立刻在注释里补上:“注意:负值可能源于退款订单冲销,建议与订单中台确认数据口径”。这比切到浏览器查文档快10倍。
第三步,敏感数据隔离。所有含客户手机号、身份证号的分析,一律用Ollama本地运行。我用的Phi-3-3.8B模型虽小,但对SQL生成、逻辑推理足够可靠,且数据永不离本地。配置一行命令搞定:ollama run phi。虽然响应慢3秒,但换来的是合规审计时的底气——这点时间投入,值。
注意:绝对不要用公有云AI处理生产数据!我见过同事把脱敏后的用户ID哈希值喂给ChatGPT,结果AI在回复中“顺手”还原了哈希算法(因训练数据含大量密码学教程),间接暴露了脱敏逻辑。安全红线,必须物理隔离。
3.2 代码审查:用AI做你的第一道质检门
传统Code Review靠人眼盯,效率低且易漏。我把AI变成自动化审查员,专攻三类高频问题:
1)业务逻辑漏洞
在模型训练脚本末尾,我固定添加一段注释:
# REVIEW_PROMPT: 基于以下业务规则检查代码: # 规则1:'is_fraud'=True的样本必须占训练集<5%,否则需过采样 # 规则2:'login_time'特征必须参与所有树模型的分裂 # 规则3:最终预测概率需经校准(Platt Scaling) # 请逐条检查,指出违反项及修复建议Copilot会立刻扫描代码,精准定位:“规则1违反:当前fraud占比7.2%,建议用SMOTE过采样”。这比我自己写单元测试快,且覆盖了我可能忽略的业务条款。
2)性能反模式
对Spark作业,我让AI检查collect()、count()等危险操作。当它标出df.count()在10亿行表上执行时,会附带优化建议:“改用df.select(count('*')).show(),避免Driver内存溢出”。这类提示,直接规避了线上事故。
3)可维护性缺陷
AI特别擅长揪出“魔法数字”。比如它会警告:“if score > 0.65:中的0.65未定义常量,请改为THRESHOLD_FRAUD = 0.65并写入config.py”。这强迫我养成好习惯,团队新人接手时少踩80%的坑。
这套审查流程,让我Review同事代码的时间从2小时/人/天降到20分钟/人/天,且漏检率下降。关键是,AI不评判人,只聚焦代码——这让技术讨论更纯粹。
3.3 模型迭代:用AI加速实验设计,而非替代实验
很多人以为AI能自动调参,其实大谬。AutoML工具(包括ChatGPT调用的Auto-sklearn)在标准数据集上表现惊艳,但在真实业务场景中,90%的模型效果提升来自特征工程,而非算法选择。我的做法是:用AI当“特征创意引擎”,我来做“特征价值裁判”。
具体流程:
- 输入原始字段列表(如电商场景:
user_id, item_id, click_time, cart_time, pay_time) - 让AI生成10个潜在特征创意,并说明业务逻辑。例如AI可能提议:“构造‘点击到加购时长’特征,反映用户决策效率;若>30分钟,标记为犹豫型用户”。这给了我灵感。
- 我筛选3个最有潜力的创意,手工实现并验证。比如“犹豫型用户”标签,我需确认:1)30分钟阈值是否合理(查了用户行为热力图,发现85%用户在22分钟内完成加购);2)该标签是否与业务目标强相关(回归分析显示,犹豫型用户复购率低37%)。
- 把验证通过的特征加入模型,再用AI分析SHAP值,看它是否真的驱动了预测。
去年做直播带货GMV预测时,AI提议的“主播语速(字/分钟)”特征,经我验证后成为Top3重要特征——因为语速快的主播,用户下单决策更快。这个发现,源于AI的发散思维+我的业务验证闭环。没有AI,我想不到语速;没有我,AI的语速特征只是个数字游戏。
4. 真实战场复盘:四个血泪教训,全是教科书不写的细节
4.1 教训一:AI生成的SQL,90%在JOIN时悄悄“丢数据”
这是最隐蔽的坑。AI写SQL极流畅,但默认采用INNER JOIN,而业务分析往往需要LEFT JOIN保留主表所有记录。我曾用AI生成的“用户画像宽表SQL”上线,结果发现高净值用户数量凭空少了23%。排查三天,最终定位到一句JOIN user_profile ON u.id = p.user_id——profile表里有12%用户没填资料,INNER JOIN直接把这些用户过滤了。
避坑方案:
- 所有AI生成的SQL,第一件事是全局搜索
JOIN,强制替换为LEFT JOIN(除非明确需要内连接) - 在WHERE子句前,加一行注释
-- VERIFY: 是否允许NULL值?若否,此处需COALESCE() - 对关键指标,用
SELECT COUNT(*) FROM (AI_SQL) t和SELECT COUNT(*) FROM 主表对比,差值>1%立即停用
实测下来,这招让我避免了两次P0级事故。记住:AI不懂“数据完整性”有多神圣,它只懂语法正确。
4.2 教训二:模型解释性报告,AI最爱编造“伪因果”
AI在解释模型时,会本能地寻找“听起来合理”的因果链。在一次信贷审批模型分析中,AI报告写道:“‘公积金缴存额’权重最高,说明用户经济实力是审批关键”。但真实情况是:公积金数据来自人社局接口,而该接口在2023年Q3宕机两周,导致大量用户该字段为空,模型被迫用0填充——于是“缴存额=0”成了最强拒绝信号。AI把数据缺陷,包装成了业务洞察。
避坑方案:
- 要求AI解释时,必须附加数据质量声明:“请先说明该特征的缺失率、分布偏态、与目标变量的Pearson相关系数”
- 对AI给出的每条“业务解释”,反向验证:“如果我把该特征全部置为NULL,模型预测变化是否匹配解释?”
- 建立“解释可信度清单”:SHAP值>0.1且缺失率<1%的特征,才允许写入正式报告
这招让我在向监管汇报时,成功避开了一次重大误导风险。模型解释不是讲故事,是证据链。
4.3 教训三:提示词越“专业”,AI越容易“装懂”
我曾给AI一个极其专业的提示:“请用双重差分法(DID)评估营销活动ROI,控制组为未触达用户,处理组为触达且点击用户,时间窗口为活动前后7天”。AI输出了一套完美DID代码,连statsmodels的DID类都用上了。但问题在于:我们的用户触达是分批次的,不存在统一“活动开始日”,DID根本不适用!AI为了显得专业,硬套了一个高级方法,却忽略了前提条件。
避坑方案:
- 提示词要“笨”一点:先说清楚数据现状(“用户触达时间分散在3月1日-15日,无统一启动日”),再问“在这种情况下,评估ROI的合适方法是什么?”
- 强制AI输出“方法适用性检查清单”,例如DID必须满足“平行趋势假设”,就让它列出验证步骤
- 永远把AI当“咨询顾问”,不是“执行经理”。它的方案,必须经过我的“可行性三问”:数据可得吗?计算资源够吗?业务方能理解吗?
这次教训后,我所有提示词开头必加一句:“请先确认方法适用前提,再提供方案”。省下的返工时间,够我喝三杯咖啡。
4.4 教训四:AI生成的文档,会悄悄“美化”你的工作量
最讽刺的陷阱。AI写周报时,会把“修复了数据管道中一个导致重复计费的bug”润色成“重构了计费引擎核心逻辑,提升系统鲁棒性”。听起来很厉害,但当CTO问“重构了哪些模块”,我就得现场编造。更糟的是,它可能把“用Excel做了个简单透视表”写成“构建了自助式BI分析平台”。
避坑方案:
- 所有AI生成的文档,必须用“三色标注法”:绿色=事实(可截图证明),黄色=推论(需标注数据来源),红色=建议(需注明责任人)
- 在文档末尾,强制添加“AI辅助声明”:
本文档由AI辅助生成,所有技术细节(代码、SQL、参数)已由作者人工验证。标有[VERIFIED]的结论,均附有生产环境截图/日志链接。
- 每次提交前,用10分钟重写第一段“工作概述”,确保它和我当天Git提交记录、Jira工单完全一致
这看似繁琐,却让我在季度评审时,用真实提交记录打脸了两个夸大其词的同事。职业信誉,比漂亮话值钱一万倍。
5. 未来已来:数据科学家的新能力图谱,你缺哪一块?
5.1 不是“学更多AI”,而是“更懂怎么用人”
三年前,数据科学家的核心能力是“统计+编程+业务”。今天,这张图谱正在重绘。新加的三块拼图,和AI无关,却决定你能否驾驭AI:
第一块:提示工程(Prompt Engineering)≠ 写提示词
它是“需求翻译学”——把模糊的业务问题,拆解成AI能消化的原子指令。比如业务说“看看用户为什么流失”,高手会拆成:
- 定义流失(30天无登录?无付费?)
- 确定对比组(流失用户 vs 同等生命周期未流失用户)
- 列出可分析维度(行为序列、渠道来源、客诉记录)
- 指定输出格式(Top5原因,每条附数据支撑)
这需要你比业务方更懂他们的KPI,比AI更懂它的知识边界。我每周花2小时做“提示词拆解练习”:拿一个真实需求,和同事比赛谁拆得更细。胜者请咖啡——这比刷LeetCode有用。
第二块:数据考古学(Data Archaeology)
当AI能瞬间生成代码,真正的稀缺能力,是读懂数据背后的“故事”。比如看到user_status字段有值'active','inactive','pending_review',高手会立刻追问:
'pending_review'是什么触发的?(风控系统自动标记?人工审核?)- 该状态持续多久会变
'inactive'?(7天?30天?) - 变更日志是否留存?(关系到能否回溯分析)
我在新项目启动时,必做三件事:1)翻三年数据字典变更记录;2)约数据源负责人喝咖啡,听他吐槽“当年为啥这么设计”;3)用SELECT DISTINCT扫一遍所有枚举字段,人工验证每个值的业务含义。这活枯燥,但决定了AI生成的分析是否靠谱。
第三块:可信度架构(Trust Architecture)
AI输出再美,不等于可信。你需要一套“防伪体系”:
- 数据层:用Great Expectations定义数据契约(如
user_id必须非空且唯一) - 代码层:所有AI生成代码,必须通过SonarQube扫描,且
critical级漏洞为0 - 结果层:关键指标输出,强制附带“置信度标签”(如
GMV预测:¥12.3M ±¥0.8M [95% CI])
我在团队推行“可信度仪表盘”,实时显示:数据新鲜度、模型漂移指数、AI生成代码通过率。当某项低于阈值,自动触发告警。这不是防AI,是防自己过度依赖AI。
5.2 一条硬核建议:从今天起,停止写“技术博客”,开始写“决策日志”
我观察过上百份数据科学家简历,90%写着“精通Python/SQL/Spark”,但只有3份提到“主导过XX次跨部门需求对齐”。技术能力是入场券,决策能力才是晋升门票。
我的实践是:每完成一个项目,不写技术总结,而写《决策日志》,包含:
- 关键抉择点(例:选择LightGBM而非XGBoost,因前者支持类别特征,省去one-hot编码)
- 放弃的方案及原因(例:放弃用NLP分析客服对话,因ASR识别错误率>25%,噪声过大)
- 业务方当时的质疑与我的回应(例:业务问“为什么不用深度学习”,我展示GPU成本vs收益测算表)
- 事后验证结果(例:上线后首月,模型误拒率下降18%,符合预期)
这份日志,不发在知乎,只存在我的Notion里。但它让我在晋升答辩时,不用背诵技术名词,而是讲出一个个有血有肉的决策故事。当CTO问我“你最大的技术贡献是什么”,我打开日志,指着“放弃NLP方案”那页说:“我阻止了团队在错误方向烧掉200人天,把资源转向了能落地的规则引擎优化。”
5.3 最后一个真相:AI不会取代数据科学家,但会淘汰“只写代码的数据民工”
这句话刺耳,但真实。我面试过一个候选人,简历写着“独立完成10+机器学习项目”,问他第一个项目:“你如何确定目标变量定义?”他愣住。再问:“数据源冲突时,你找谁确认?”他摇头。最后问:“模型上线后,谁负责监控效果?”他说“运维同事”。我礼貌结束了面试——因为他的工作,AI明天就能干。
而另一个候选人,简历只写了3个项目,但每页都附着《决策日志》。他讲第一个项目时说:“业务要预测流失,我坚持先做3周用户访谈,发现他们真正怕的是‘沉默流失’(用户没投诉但不再打开APP),所以把目标变量定义为‘7天静默+DAU下降’,而非传统‘30天无登录’。” 这个人,我当场给了offer。
所以,回到标题:“Will ChatGPT replace Data Scientist???”
答案是:它会取代那些把数据科学当成“代码搬运工”的人,
会取代那些把模型当成“黑盒魔术”的人,
会取代那些把业务需求当成“翻译题”的人。
但它永远无法取代这样的人——
当AI生成的代码跑出完美AUC时,他盯着特征重要性图,突然说:“等等,‘用户IP属地’权重太高,这不符合业务逻辑,去查查是不是数据泄露”;
当AI报告“营销活动ROI为230%”时,他调出原始日志,发现23%的转化来自测试账号,果断剔除;
当所有人都在争论用哪个大模型时,他默默搭建了一套数据质量监控,让AI的输入先经过“可信度安检”。
这才是数据科学家不可替代的终极答案:不是你会不会用AI,而是你敢不敢在AI最自信的时候,第一个说‘不’。
我在上周的模型评审会上,又一次说了这句话。然后,我们一起花了两小时,修复了那个被AI忽略的、藏在数据管道深处的时区Bug。窗外阳光很好,电脑屏幕上的代码依然在跑,而我知道,这份工作,还远未到被取代的时候。