一、课程信息
- 课程主题:计算机视觉:让机器“看懂”世界
- 适合对象:人工智能零基础学习者
- 预计学习时长:1.5小时
- 学习方式建议:先理解图片在机器眼中是什么,再区分图像分类、目标检测和图像分割
二、学习目标
学完本课后,你应该能够:
- 用通俗语言解释什么是计算机视觉。
- 理解图片在计算机中通常是由像素数字表示的。
- 区分图像分类、目标检测、图像分割和图像生成。
- 了解人脸识别、车牌识别、自动驾驶、医学影像等视觉AI应用。
- 能分析视觉AI可能带来的便利和风险。
- 理解计算机视觉不是“真正像人一样看懂”,而是从图像数据中学习规律。
三、课程导入:机器真的能“看懂”图片吗
人类看图片时,通常能很快理解画面内容。
例如看到一张照片,我们可能立刻知道:
- 画面里有没有人
- 人在哪里
- 人在做什么
- 天气是晴天还是雨天
- 这是室内还是室外
- 有没有车、猫、狗、树、建筑
但对计算机来说,图片并不是一幅“它能直接理解的画”。
计算机看到的其实是一堆数字。
每个数字表示图片中某个位置的颜色和亮度。
所以,计算机视觉要解决的问题是:
如何让机器从这些图像数字中识别物体、理解场景、定位目标,并完成视觉相关任务。
四、什么是计算机视觉
1. 通俗定义
计算机视觉,英文是 Computer Vision,简称 CV。
可以这样理解:
计算机视觉是让机器处理和理解图像、视频等视觉信息的技术。
它希望机器能够完成一些原本需要人眼和大脑配合完成的任务。
例如:
- 判断图片里是什么
- 找出图片中的目标位置
- 识别人脸
- 识别车牌
- 分析医学影像
- 判断视频中发生了什么
- 生成或修复图片
2. 计算机视觉处理什么数据
计算机视觉主要处理视觉数据。
常见数据包括:
- 图片
- 视频
- 摄像头画面
- 医学影像
- 卫星图像
- 工业检测图像
- 自动驾驶传感器图像
3. 生活中的计算机视觉应用
你可能每天都在使用计算机视觉。
例如:
- 手机人脸解锁
- 相册自动按人物分类
- 停车场自动识别车牌
- 支付时扫二维码
- 美颜和背景虚化
- 自动驾驶辅助识别道路
- 医学影像辅助诊断
- 工厂检测产品缺陷
- 短视频平台识别画面内容
五、图片在计算机中是什么
1. 人看到图片,机器看到数字
人看到一张图片时,会看到整体画面。
但计算机处理图片时,通常看到的是像素。
像素可以理解为组成图片的小格子。
每个像素都有颜色和亮度信息。
一张图片越清晰,通常像素越多。
2. 像素是什么
可以把图片想象成由很多小方格拼成的马赛克。
每个小方格就是一个像素。
如果把这些小方格缩小到肉眼难以看清,整张图就变得平滑自然。
例如:
一张图片 = 很多像素点组成的网格 每个像素点 = 一组表示颜色和亮度的数字3. 彩色图片中的数字
彩色图片通常可以用红、绿、蓝三种颜色通道表示。
也就是常说的 RGB。
每个像素可能包含三组数字:
- R:红色强度
- G:绿色强度
- B:蓝色强度
不同数字组合,就形成不同颜色。
4. 为什么这很重要
理解“图片是数字”很重要。
因为AI模型不是直接像人一样看图片,而是从这些数字中学习规律。
例如:
- 哪些数字变化可能代表边缘
- 哪些区域可能组成眼睛
- 哪些形状可能代表汽车
- 哪些纹理可能代表病灶
计算机视觉的学习过程,就是让模型从大量图像数字中总结视觉规律。
六、计算机视觉的基本流程
一个简化的计算机视觉流程可以表示为:
输入图片或视频 → 预处理 → 模型分析 → 输出结果 → 人工确认或系统执行1. 输入图片或视频
输入可能来自:
- 手机摄像头
- 监控摄像头
- 医学影像设备
- 工业检测相机
- 自动驾驶摄像头
- 用户上传图片
2. 预处理
预处理是为了让图片更适合模型处理。
可能包括:
- 调整图片大小
- 裁剪关键区域
- 调整亮度和对比度
- 去除噪声
- 转换图片格式
- 标准化像素数值
3. 模型分析
模型会根据任务分析图片。
例如:
- 判断图片类别
- 找出目标位置
- 分割不同区域
- 识别人脸身份
- 检测异常区域
4. 输出结果
输出结果可能是:
- 一个类别
- 一个概率
- 一个目标框
- 一张分割图
- 一段描述文字
- 一张生成图片
5. 人工确认或系统执行
在一些低风险场景中,系统可以直接执行。
例如相册自动分类。
在高风险场景中,需要人工确认。
例如医疗影像辅助诊断。
七、图像分类:判断图片是什么
1. 什么是图像分类
图像分类是计算机视觉中最基础的任务之一。
它要解决的问题是:
判断整张图片属于哪一类。
例如给模型一张图片,模型判断:
- 猫
- 狗
- 汽车
- 飞机
- 苹果
- 建筑
2. 图像分类的输入和输出
| 输入 | 输出 |
|---|---|
| 一张猫的图片 | 猫 |
| 一张狗的图片 | 狗 |
| 一张汽车图片 | 汽车 |
| 一张花的图片 | 花 |
模型也可能输出概率。
例如:
猫:88% 狗:10% 兔子:2%这表示模型认为图片最可能是猫。
3. 图像分类的应用
图像分类可以用于:
- 相册自动分类
- 商品图片分类
- 植物识别
- 动物识别
- 垃圾分类辅助
- 医学影像初步筛查
- 内容安全审核
4. 图像分类的局限
图像分类只回答“这张图大概是什么”。
它通常不告诉你目标在哪里。
例如一张图片里有一只猫和一只狗,分类模型可能只输出“猫”或“狗”。
如果你需要知道图片中有哪些目标、分别在哪里,就需要目标检测。
八、目标检测:找出图片中有什么,以及在哪里
1. 什么是目标检测
目标检测要解决两个问题:
- 图片里有什么目标?
- 每个目标在图片中的什么位置?
目标检测通常会在图片上画出一个框。
这个框叫边界框。
例如:
图片中有一辆车,位置在左下角。 图片中有两个行人,分别在道路两侧。2. 图像分类和目标检测的区别
| 对比项 | 图像分类 | 目标检测 |
|---|---|---|
| 主要问题 | 图片是什么 | 图片里有什么,在哪里 |
| 输出 | 类别 | 类别 + 位置 |
| 是否定位目标 | 通常不定位 | 需要定位 |
| 例子 | 这是一张猫图 | 图中有一只猫,位置在右侧 |
3. 目标检测的应用
目标检测常用于:
- 自动驾驶识别车辆和行人
- 监控视频识别人群和异常物体
- 工业质检定位缺陷
- 零售货架识别商品
- 医学影像定位病灶
- 体育视频识别运动员和球
- 停车场检测车位和车辆
4. 目标检测的难点
目标检测比图像分类更难。
因为它不仅要判断类别,还要确定位置。
难点包括:
- 目标很小
- 目标被遮挡
- 光线变化
- 背景复杂
- 目标形状变化大
- 图片中有多个目标
九、图像分割:把不同区域区分开
1. 什么是图像分割
图像分割要解决的问题是:
把图片中的不同区域精细地区分出来。
目标检测通常用矩形框圈出目标。
图像分割则更细,通常要判断每个像素属于哪个对象或区域。
2. 一个简单例子
假设图片中有一只猫。
目标检测可能画一个矩形框:
这里有一只猫。图像分割会更细:
这些像素属于猫,其他像素属于背景。3. 图像分割的应用
图像分割常用于:
- 医学影像中分割病灶区域
- 自动驾驶中区分道路、车道线、行人、车辆
- 视频背景替换
- 图片编辑和抠图
- 工业检测中定位缺陷边界
- 遥感图像中识别建筑、河流、农田
4. 分类、检测、分割的区别
| 任务 | 关注点 | 输出 |
|---|---|---|
| 图像分类 | 这张图是什么 | 类别 |
| 目标检测 | 图中有什么,在哪里 | 类别 + 位置框 |
| 图像分割 | 每个区域分别是什么 | 像素级区域 |
可以用一个例子理解:
图像分类:这张图里有猫。 目标检测:猫在图片右侧这个框里。 图像分割:猫的身体边界精确到这些像素。十、人脸识别:视觉AI的典型应用
1. 人脸识别是什么
人脸识别是让机器识别或验证人脸身份的技术。
常见任务包括:
- 判断图片中是否有人脸
- 找出人脸位置
- 提取人脸特征
- 判断是否是同一个人
- 识别具体身份
2. 常见应用
人脸识别常用于:
- 手机解锁
- 门禁系统
- 相册人物分类
- 身份核验
- 考勤系统
- 安防场景
3. 人脸识别不只是“看脸”
模型通常会从人脸图像中提取特征。
例如:
- 眼睛位置
- 鼻子形状
- 嘴部特征
- 脸型轮廓
- 五官之间的相对位置
这些特征组合起来,用于判断是否匹配。
4. 人脸识别的风险
人脸识别涉及敏感个人信息。
需要注意:
- 隐私保护
- 数据授权
- 误识别风险
- 不同人群识别效果差异
- 滥用监控风险
因此,人脸识别不能只看技术效果,还要关注合规和伦理。
十一、车牌识别:从图像中读取文字
1. 车牌识别是什么
车牌识别是从车辆图像中识别车牌号码。
通常包括几个步骤:
检测车辆 → 定位车牌 → 识别车牌字符 → 输出车牌号2. 常见应用
车牌识别常用于:
- 停车场出入口
- 高速收费
- 交通违法识别
- 小区车辆管理
- 城市交通管理
3. 难点是什么
车牌识别可能受到很多因素影响:
- 车牌污损
- 光线太暗
- 角度倾斜
- 车辆速度快
- 雨雪天气
- 摄像头分辨率低
- 车牌被遮挡
这说明视觉AI在真实场景中会遇到复杂环境变化。
十二、自动驾驶中的计算机视觉
1. 自动驾驶为什么需要视觉AI
自动驾驶系统需要理解车辆周围环境。
例如:
- 道路在哪里
- 车道线在哪里
- 前方有没有行人
- 周围有没有车辆
- 红绿灯是什么状态
- 交通标志是什么
- 是否有障碍物
计算机视觉是自动驾驶感知系统的重要组成部分。
2. 自动驾驶中的视觉任务
可能包括:
- 车道线检测
- 行人检测
- 车辆检测
- 交通灯识别
- 交通标志识别
- 可行驶区域分割
- 障碍物检测
3. 为什么自动驾驶很难
自动驾驶场景非常复杂。
因为道路环境会变化:
- 白天和夜晚
- 晴天和雨雪天
- 城市道路和高速公路
- 施工路段
- 行人突然横穿
- 车辆遮挡
- 标志不清晰
- 摄像头被污染
4. 为什么不能只依赖视觉
自动驾驶通常不只使用摄像头,还会结合其他传感器。
例如:
- 雷达
- 激光雷达
- GPS
- 高精地图
- 车辆传感器
多种信息结合,可以提高安全性。
视觉AI很重要,但单独依赖视觉可能存在风险。
十三、医学影像中的计算机视觉
1. 医学影像AI做什么
医学影像AI可以辅助医生分析影像。
例如:
- X光片
- CT
- 核磁共振
- 超声影像
- 眼底图像
- 病理切片
2. 典型任务
医学影像AI可能用于:
- 判断是否存在异常
- 定位可疑区域
- 分割病灶边界
- 辅助筛查疾病风险
- 对影像进行质量检查
- 帮助医生提高阅片效率
3. 医学影像AI的价值
它可以帮助:
- 提高筛查效率
- 减少重复劳动
- 提示医生关注可疑区域
- 在医疗资源不足地区提供辅助工具
4. 为什么必须谨慎
医学场景错误成本很高。
AI可能漏判,也可能误判。
医学诊断不能只看影像,还需要结合:
- 病史
- 症状
- 检查指标
- 医生经验
- 后续复查
所以医学影像AI应定位为辅助工具,而不是替代医生。
十四、工业质检中的计算机视觉
1. 工业质检是什么
工业质检是检查产品是否存在缺陷。
传统方式常依赖人工目检。
计算机视觉可以帮助自动检测产品表面或结构问题。
2. 典型应用
例如:
- 检测屏幕划痕
- 检测零件缺口
- 检测包装破损
- 检测食品外观异常
- 检测布料瑕疵
- 检测电路板缺陷
3. 视觉AI的优势
工业质检中,视觉AI可以:
- 提高检测速度
- 减少人工疲劳影响
- 提升一致性
- 记录检测结果
- 支持大规模生产线
4. 仍然存在挑战
工业质检也有难点:
- 缺陷样本少
- 缺陷形态多样
- 光照和拍摄角度影响大
- 新缺陷类型可能没见过
- 误报和漏报都可能带来成本
十五、图像生成与图片修复
1. 图像生成是什么
图像生成是让AI根据输入生成新的图片。
常见形式包括:
- 文生图:根据文字描述生成图片
- 图生图:根据已有图片生成变化版本
- 风格转换:把图片变成某种风格
- 角色设计:生成角色形象
- 场景设计:生成室内、建筑、风景图
2. 图片修复是什么
图片修复是让AI补全或改善图片。
例如:
- 去除图片噪声
- 修复老照片
- 提高清晰度
- 补全缺失区域
- 去除不需要的物体
- 黑白照片上色
3. 生成和识别的区别
识别类任务是理解已有图片。
生成类任务是创造新图片。
例如:
图像分类:这张图是什么? 目标检测:图中目标在哪里? 图像生成:请生成一张未来城市图片。 图片修复:请把这张模糊照片变清晰。4. 图像生成的风险
图像生成带来便利,也带来风险。
例如:
- 虚假图片
- 误导性内容
- 肖像权问题
- 版权问题
- 深度伪造
- 不适当内容生成
使用图像生成工具时,需要注意来源、授权、真实性和使用边界。
十六、视频理解:从单张图片到连续画面
1. 视频比图片更复杂
视频可以看作连续多张图片组成的序列。
但视频理解不只是逐帧看图片。
它还需要理解时间变化。
例如:
- 人在走路
- 车在转弯
- 球被踢出去
- 人从椅子上站起来
- 物体从桌上掉落
这些都需要结合前后画面理解。
2. 视频理解任务
常见任务包括:
- 动作识别
- 视频分类
- 异常行为检测
- 视频摘要
- 视频问答
- 目标跟踪
3. 视频理解应用
应用包括:
- 安防监控
- 体育分析
- 智能剪辑
- 自动驾驶
- 课堂行为分析
- 工业生产监控
4. 视频理解的难点
难点包括:
- 数据量大
- 计算成本高
- 时间关系复杂
- 目标遮挡
- 场景变化快
- 隐私风险更高
十七、计算机视觉常见难点
1. 光线变化
同一个物体在不同光线下看起来可能很不同。
例如白天和夜晚、室内和室外、逆光和阴影都会影响识别。
2. 角度变化
同一辆车,从正面、侧面、背面看到的样子不同。
模型需要学习多角度特征。
3. 遮挡问题
目标可能被其他物体挡住。
例如行人被车辆遮挡,猫躲在家具后面。
遮挡会让模型更难判断。
4. 背景复杂
复杂背景可能干扰模型。
例如在花纹复杂的地毯上识别一只颜色相近的猫。
5. 小目标问题
目标太小会很难识别。
例如远处的行人、遥感图像中的小建筑、医学影像中的微小异常。
6. 数据偏差
如果训练数据不够多样,模型可能在某些场景表现差。
例如只用白天道路图片训练的模型,夜晚表现可能下降。
十八、视觉AI的风险和边界
1. 识别可能出错
视觉AI不是百分百准确。
它可能受到光线、角度、遮挡、图片质量和训练数据影响。
2. 高风险场景需要人工审核
在医疗、安防、金融身份核验等场景中,错误成本较高。
AI结果应作为辅助,而不是唯一判断依据。
3. 隐私问题
图片和视频可能包含敏感信息。
例如:
- 人脸
- 车牌
- 住址
- 工作场所
- 医疗影像
- 行为轨迹
采集和使用视觉数据时,需要重视授权、合规和数据安全。
4. 公平性问题
如果训练数据对某些人群覆盖不足,模型可能在这些人群上的识别效果较差。
这在身份识别、人脸识别等场景中尤其需要重视。
5. 虚假内容风险
图像生成和视频生成技术可能被用于制造虚假内容。
因此,需要提高辨别能力,并在重要场景中核查来源。
十九、如何分析一个视觉AI应用
看到一个视觉AI应用时,可以从以下问题分析。
1. 它要解决什么问题
例如:
- 判断图片类别
- 找出目标位置
- 分割目标区域
- 识别身份
- 生成图片
- 修复图片
2. 它需要什么数据
思考:
- 需要图片还是视频?
- 是否需要标签?
- 标签是类别、位置框还是分割区域?
- 数据是否覆盖真实场景?
- 是否包含不同光线、角度、背景?
3. 它输出什么
输出可能是:
- 类别
- 概率
- 位置框
- 分割区域
- 身份匹配结果
- 生成图片
4. 错误会带来什么影响
不同场景错误成本不同。
例如:
- 相册分类错误,影响较小
- 医学影像漏判,影响很大
- 自动驾驶误判行人,风险极高
5. 是否需要人工确认
如果场景重要或风险高,就需要人工确认。
AI可以提供辅助,但不应直接替代人的最终判断。
二十、课堂活动:区分视觉任务类型
活动目标
掌握图像分类、目标检测、图像分割和图像生成的区别。
活动任务
请判断下面任务属于哪类视觉AI任务。
| 任务 | 任务类型 | 判断理由 |
|---|---|---|
| 判断图片中是猫还是狗 | ||
| 找出监控画面中所有行人的位置 | ||
| 把照片中的人物和背景精确分开 | ||
| 根据文字生成一张海报图 | ||
| 判断医学影像是否异常 | ||
| 在道路画面中标出车道线区域 |
可选任务类型:
- 图像分类
- 目标检测
- 图像分割
- 图像生成
二十一、课堂活动:分析一个视觉AI应用
活动目标
从数据、任务、输出和风险角度理解视觉AI应用。
活动任务
请选择一个视觉AI应用进行分析。
可选应用:
- 人脸识别解锁
- 停车场车牌识别
- 医学影像辅助诊断
- 自动驾驶行人检测
- 工业质检
- 相册自动分类
- 图片生成工具
填写模板
| 问题 | 我的分析 |
|---|---|
| 我选择的应用 | |
| 它要解决什么问题 | |
| 它需要哪些图片或视频数据 | |
| 它可能使用哪类视觉任务 | |
| 它输出什么结果 | |
| 它可能在哪些情况下出错 | |
| 出错会带来什么影响 | |
| 是否需要人工审核 |
二十二、本课小结
本课我们学习了计算机视觉的基础内容。
需要重点记住:
- 计算机视觉是让机器处理和理解图像、视频等视觉信息的技术。
- 图片在计算机中通常表现为像素数字。
- 图像分类用于判断整张图片属于哪一类。
- 目标检测用于判断图片中有什么目标,以及目标在哪里。
- 图像分割用于精细地区分图片中的不同区域。
- 图像生成和图片修复属于生成式视觉AI的重要应用。
- 人脸识别、车牌识别、自动驾驶、医学影像和工业质检都是典型视觉AI场景。
- 视觉AI容易受到光线、角度、遮挡、背景和数据偏差影响。
- 高风险场景需要人工审核,不能完全依赖AI自动判断。
- 图片和视频可能包含敏感信息,使用视觉AI时要注意隐私、合规和伦理。
二十三、课后练习
练习1:说明图像分类和目标检测的区别
请用自己的话回答:
- 图像分类解决什么问题?
- 目标检测解决什么问题?
- 为什么目标检测比图像分类提供的信息更多?
- 如果要知道图片中行人在哪里,应该使用哪类任务?
练习2:判断视觉任务类型
请判断下面任务属于哪类视觉AI任务。
| 任务 | 视觉任务类型 |
|---|---|
| 判断图片是猫、狗还是兔子 | |
| 找出图片中所有车辆的位置 | |
| 把医学影像中的病灶区域圈出来 | |
| 根据文字描述生成一张产品图 | |
| 修复一张老照片 | |
| 把视频中的人物从背景中分离出来 |
练习3:分析视觉AI风险
请选择一个视觉AI应用,分析它可能带来的便利和风险。
| 问题 | 我的回答 |
|---|---|
| 应用名称 | |
| 带来的便利 | |
| 可能出错的情况 | |
| 出错后的影响 | |
| 涉及的隐私问题 | |
| 是否需要人工审核 |
练习4:理解图片数据质量
请回答:
- 为什么视觉AI训练数据需要覆盖不同光线和角度?
- 如果训练数据只包含白天场景,夜晚使用时可能出现什么问题?
- 如果目标经常被遮挡,模型识别会受到什么影响?
- 为什么医学影像AI需要高质量标注?
练习5:设计一个视觉AI任务
请设计一个简单的视觉AI应用。
| 问题 | 我的设计 |
|---|---|
| 应用场景 | |
| 要解决的问题 | |
| 需要哪些图像或视频数据 | |
| 需要哪些标签 | |
| 属于哪类视觉任务 | |
| 输出结果是什么 | |
| 可能的风险是什么 |
二十四、参考答案与提示
练习1参考提示
图像分类判断整张图片属于哪一类。
目标检测不仅判断图片中有什么,还要找出目标位置。
如果要知道图片中行人在哪里,应该使用目标检测。
如果需要更精细地区分行人身体轮廓,则可能需要图像分割。
练习2参考答案
| 任务 | 视觉任务类型 |
|---|---|
| 判断图片是猫、狗还是兔子 | 图像分类 |
| 找出图片中所有车辆的位置 | 目标检测 |
| 把医学影像中的病灶区域圈出来 | 图像分割 |
| 根据文字描述生成一张产品图 | 图像生成 |
| 修复一张老照片 | 图片修复 |
| 把视频中的人物从背景中分离出来 | 图像分割 / 视频分割 |
练习3参考提示
以人脸识别解锁为例:
- 便利:快速解锁,减少输入密码。
- 可能出错:光线太暗、脸部遮挡、照片质量差、双胞胎或相似人脸。
- 出错影响:无法解锁,或者极少数情况下误识别。
- 隐私问题:人脸属于敏感生物识别信息。
- 是否需要人工审核:身份核验等重要场景需要更严格验证。
练习4参考提示
训练数据覆盖不同光线和角度,可以帮助模型适应真实场景变化。
如果只包含白天场景,夜晚识别效果可能明显下降。
目标被遮挡时,模型可用信息变少,更容易误判或漏判。
医学影像错误成本高,标注质量会直接影响模型学习和辅助诊断效果。
练习5参考示例
| 问题 | 示例设计 |
|---|---|
| 应用场景 | 工厂产品外观质检 |
| 要解决的问题 | 自动检测产品表面是否有划痕 |
| 需要哪些图像或视频数据 | 正常产品图片、带划痕产品图片、不同光线和角度图片 |
| 需要哪些标签 | 是否有缺陷、缺陷位置、缺陷类型 |
| 属于哪类视觉任务 | 图像分类 / 目标检测 / 图像分割 |
| 输出结果是什么 | 是否合格,缺陷位置和类型 |
| 可能的风险是什么 | 漏检导致不良品流出,误检导致合格品被拦截 |
二十五、下一课预告
下一课我们将学习:
语音智能与多模态AI
你将了解:
- 什么是语音识别
- 什么是语音合成
- 什么是语音唤醒和声纹识别
- 多模态AI为什么重要
- AI如何同时理解文字、图片、声音和视频
如果说本课讲的是让机器看懂图像世界,那么下一课会进入声音和多模态理解的领域。