作为前端开发,深入理解 AI 发展历程,建立完整的技术认知体系。
前言 ✨
作为一个前端开发,我以前对 AI 的理解非常浅显——就是"调用接口"。发个 POST 请求,拿到 JSON 数据,渲染到页面上,完事。
但当我开始深入学习后端、接触 AI 技术栈时,才发现这背后的世界远比我想象的复杂和迷人。为什么 ChatGPT 能理解我的问题?为什么它能写代码、能翻译、能创作?这些"魔法"背后的原理是什么?
这篇文章不讲代码实现,而是帮你理解 AI 的发展脉络和核心概念。只有理解了这些,你才能知道什么时候该用 AI、怎么用好 AI、以及 AI 的边界在哪里。
这是上篇,我们会讲:
- AI 的本质到底是什么?
- AI 是如何一步步演进到今天的?
- 为什么大语言模型会成为主流?
💡 说明:本文参考了多位技术作者的优秀内容,在此基础上结合前端开发视角进行重新理解和创作。特别感谢原作者的知识分享。
让我们开始吧!
一、AI 的本质:从"死板"到"学习" 🤖
1.1 人与计算机的根本区别
我一直在思考一个问题:人和计算机最大的区别是什么?
计算机的优势很明显——速度快。让它计算 10000 × 10000,瞬间就能给出结果。但计算机也有个致命缺陷:太死板。
什么叫死板?就像我们写前端代码:
// 我们必须精确地告诉计算机每一步怎么做
if (user.clickedButton === 'add') {
result = num1 + num2;
} else if (user.clickedButton === 'subtract') {
result = num1 - num2;
}每一个条件、每一个分支,都得写清楚。少一个 else,程序就可能崩溃。
但人类不一样。人类有学习能力。
比如你第一次见到 Vue 3 的 Composition API,不需要有人告诉你每一行代码的含义,看几个例子、写几个 demo,你就能理解它的设计思想。你不需要"硬编码"的规则,你能从经验中学习。
AI 的目标,就是让计算机也拥有这种学习能力。
💭 我的理解:以前做表单验证,我得写一堆 if-else 判断邮箱格式、密码强度。但如果用 AI,它能从大量数据中自己学会"什么样的输入是合法的"。这种思维方式的转变,对我来说是个很大的冲击。
1.2 什么是人工智能?
AI(Artificial Intelligence,人工智能)就是用计算机模拟人的智能。
那"智能"到底包括什么?我总结了四种核心能力:
1. 学习能力
- 从经验中学习
- 数据越多,就越"聪明"
- 类比:就像你从 jQuery 过渡到 React,不需要重新学编程
2. 理解能力
- 理解语言、图片、声音
- 类比:就像你能看懂设计稿,理解设计师的意图
3. 推理能力
- 从已知推导未知
- 类比:就像你看到一个 bug,能推理出是哪里的代码出了问题
4. 创造能力
- 创造新的东西
- 类比:就像你能设计出新的组件、新的交互方式
传统程序 vs AI 程序的本质区别:
传统程序(我们平时写的代码):
输入 → 固定规则(if-else、switch) → 输出
AI 程序:
大量数据 → 学习规律 → 生成模型 → 用模型推理 → 输出用流程图表示:
传统程序流程:
┌─────────┐ ┌──────────────┐ ┌─────────┐
│ 输入 │ ──> │ 人工编写规则 │ ──> │ 输出 │
└─────────┘ └──────────────┘ └─────────┘
AI 程序流程:
┌─────────┐ ┌──────────┐ ┌─────────┐ ┌─────────┐
│ 训练数据│ ──> │ 自动学习 │ ──> │ 模型 │ ──> │ 输出 │
└─────────┘ └──────────┘ └─────────┘ └─────────┘这就是关键的不同。AI 会从大量数据中自动学习规律,而不是依赖人工编写的规则。
二、AI 发展的四个阶段 📈
理解 AI 的发展历程,就像理解前端从 jQuery 到 React 的演进——每一次变革都是为了解决上一代技术的痛点。
2.1 符号主义时代(1950s-1970s)
核心思想:用规则表达知识
1950 年代,科学家们有个大胆的想法:既然计算机能处理符号,人的思维也是符号处理,那能不能让计算机模拟人的思维?
实际案例:医疗诊断系统
假设要做一个诊断感冒的系统,怎么做?写规则:
规则 1:IF (发烧 AND 咳嗽 AND 喉咙痛) THEN 诊断 = 感冒
规则 2:IF (流鼻涕 AND 打喷嚏) THEN 诊断 = 过敏
规则 3:IF (发烧 AND 肌肉酸痛) THEN 诊断 = 流感
...这就像我们写前端路由守卫:
// 符号主义的思维方式
router.beforeEach((to, from, next) => {
if (to.path === '/admin' && !user.isAdmin) {
next('/403');
} else if (to.path === '/login' && user.isLoggedIn) {
next('/dashboard');
} else if (...) {
// 规则越来越多...
}
});为什么失败了?
- 规则爆炸:感冒有几十种症状组合,要写几千条规则
- 规则冲突:同一个症状可能对应多种疾病,优先级难定
- 没有学习能力:出现新症状,必须手动添加规则
💭 我的感悟:这让我想起维护老项目时,那些巨型的 switch-case 和嵌套的 if-else。当业务逻辑变复杂时,代码就变得难以维护。符号主义的问题本质上和这个一样——规则太多,维护不动。
2.2 机器学习时代(1980s-2010s)
核心突破:从数据中自动学习规律
到了 1980 年代,科学家们换了个思路:与其手工编写规则,为什么不让计算机从数据中自己学习规则呢?
实际案例:垃圾邮件过滤器
对比两种做法:
符号主义做法:
手工写规则 → IF 包含"中奖" OR 包含"免费" THEN 垃圾邮件
机器学习做法:
1. 收集 10000 封邮件
2. 人工标记:这是垃圾邮件 / 这是正常邮件
3. 扔给算法(如朴素贝叶斯)
4. 算法自己分析,学到特征
5. 新邮件来了,自动判断这就像前端的自动化测试:
// 传统方式:手工写每个测试用例
test('用户名不能为空', () => {
expect(validate('')).toBe(false);
});
test('用户名长度不能小于3', () => {
expect(validate('ab')).toBe(false);
});
// ... 写100个测试用例
// 机器学习方式:给大量数据,让它自己学
// 输入:1000个合法用户名 + 1000个非法用户名
// 输出:自动学会验证规则成功应用:
- 手写数字识别(邮政系统识别邮编)
- 人脸识别(手机解锁)
- 推荐系统(淘宝推荐商品)
- 语音识别(Siri、小爱同学)
局限性:需要特征工程
比如识别图片中的猫和狗,你不能直接把图片扔给算法,你得先"人工设计特征":
- 提取图片的颜色分布
- 提取边缘信息
- 提取纹理特征
- …
这个过程需要专业知识,很费时间。
📚 参考资料:机器学习入门 - Andrew Ng 课程
2.3 深度学习时代(2010s-2020s)
关键事件:2012 年 ImageNet 竞赛
2012 年,一个叫 Geoffrey Hinton 的教授用"卷积神经网络"(CNN)参加图片识别竞赛。结果震惊了所有人:
- 他的准确率:95%
- 第二名(传统方法):74%
这就是深度学习的力量。
核心突破:端到端学习
深度学习最大的突破是:不需要人工设计特征了!
传统机器学习:
原始图片 → 人工提取特征(颜色、边缘、纹理)→ 算法学习 → 输出
深度学习:
原始图片(像素) → 神经网络自动学习特征 → 输出这就像前端框架的演进:
jQuery 时代:
手动操作 DOM → 手动管理状态 → 手动更新视图
React 时代:
声明式编程 → 框架自动处理 DOM → 自动更新视图擅长领域:
- 图像识别(人脸、物体、场景)
- 语音识别(语音转文字)
- 自然语言处理(文本理解)
这是为什么 AlphaGo 能战胜围棋冠军,为什么自动驾驶能识别路标。
局限性:
- 需要海量数据(几万、几十万张图片)
- "黑盒"问题(不知道它为什么这样判断)
- 训练成本高(需要 GPU)
📚 参考资料:深度学习可视化讲解 - 3Blue1Brown
2.4 大语言模型时代(2020s-现在)
标志性事件:2022 年 ChatGPT 发布
你肯定用过 ChatGPT。随便问它一个问题,它能用自然语言详细回答。不只是回答问题,它还能:
- 写代码(甚至能解释代码)
- 写文章(各种风格)
- 做翻译(多种语言)
- 解释概念(深入浅出)
这就是大语言模型(LLM,Large Language Model)。
四大优势:
1. 海量数据训练
- 在互联网上几百亿的文本上训练
- 包括:书籍、论文、代码、网页、对话…
- 就像一个读过整个互联网的"博学者"
2. 超大参数规模
- GPT-3:1750 亿个参数
- 参数多 = 模型更复杂 = 能学到更细致的规律
- 类比:就像一个有 1750 亿个神经元的"大脑"
3. Transformer 架构
- 能理解长距离的依赖关系
- 例如:一篇 1000 字的文章,第 1 个词和第 1000 个词可能相关,Transformer 能捕捉到
4. 指令调优(RLHF)
- 用人工反馈让模型学会"好好说话"
- 不只是预测下一个词,而是真的能理解你的需求
核心能力:上下文学习(In-Context Learning)
最神奇的是,你给它几个例子,它能在这个上下文中学习,然后处理新问题。不需要重新训练模型。
举个例子:
你的输入:
---
问题:React 中 useState 和 useRef 的区别?
答案:useState 会触发重新渲染,useRef 不会...
问题:什么是闭包?
答案:闭包是指函数可以访问其外部作用域的变量...
问题:解释一下 Promise 的工作原理
答案:
---
模型看到这个模式,就会理解:"哦,你要我回答技术问题",然后按照前面的风格回答。💭 我的感悟:这种能力让我震撼。以前做前端,我得为每个场景写不同的代码。但大模型只需要改变 Prompt(提示词),就能适应不同场景。这种灵活性是前所未有的。
📚 参考资料:
2.5 四个阶段的演进总结
让我用一张表格总结这四个阶段:
| 阶段 | 时间 | 核心思想 | 代表技术 | 优势 | 局限 |
|---|---|---|---|---|---|
| 符号主义 | 1950s-1970s | 规则硬编 | 专家系统 | 逻辑清晰 | 规则爆炸、无法学习 |
| 机器学习 | 1980s-2010s | 从数据学习 | 决策树、SVM | 自动学习 | 需要特征工程 |
| 深度学习 | 2010s-2020s | 自动特征提取 | CNN、RNN | 端到端学习 | 需要海量数据 |
| 大语言模型 | 2020s-现在 | 理解语言和推理 | GPT、BERT | 通用能力强 | 知识过期、幻觉 |
演进路径可视化:
符号主义(人工编写规则)
↓
问题:规则太多,维护困难
↓
机器学习(从数据学习规则)
↓
问题:需要人工设计特征
↓
深度学习(自动学习特征)
↓
问题:只能做单一任务
↓
大语言模型(通用智能)
↓
能力:理解、推理、生成为什么我们选择大语言模型?
以我们要做的 AI 面试系统为例:
✅ 能理解自然语言:理解面试题和候选人的答案 ✅ 能推理:评估答案的质量、判断是否回答到点上 ✅ 能生成:生成评价反馈、生成下一个问题 ✅ 很灵活:不用重新训练,改 Prompt 就能改行为
这就是为什么我们选择 DeepSeek(一个大语言模型),而不是传统的机器学习算法。
三、常见问题 FAQ 💭
Q1: 之前的技术都过时了吗?
不是。
它们还在用,但应用场景不同:
- 机器学习:数据分析、风控系统、推荐系统
- 深度学习:图像识别、语音识别、视频处理
- 大语言模型:自然语言理解、对话系统、代码生成
就像前端技术栈:
- jQuery 还在用(维护老项目)
- React/Vue 是主流(新项目)
- Web Components 是未来(标准化)
关键是选对场景。不是说新技术出来了,旧技术就没用了。
Q2: 大语言模型会取代程序员吗?
目前来看,不会。
有两个层面:
- 写代码:大模型能做得不错(写函数、写组件)
- 架构设计、系统思考:需要经验和判断力(模型做不了)
而且,用好大模型,本身就需要技术能力:
- 知道什么时候用它(场景判断)
- 知道怎么用它(Prompt 工程)
- 知道如何验证结果(质量把控)
💭 我的思考:作为前端开发,我发现 AI 更像是一个强大的助手。它能帮我快速写出代码框架,但架构设计、性能优化、用户体验这些,还是需要我自己思考。就像 Copilot 能补全代码,但不能替我做技术决策。
Q3: 为什么大模型这么"聪明"?它真的理解语言吗?
这是个哲学问题。没人完全知道答案。
有两种观点:
- 观点 A:它只是在预测下一个词,所以它不懂
- 观点 B:既然它能做出和懂的人一样的行为,那它就懂了
我的态度是:不要纠结它到底懂不懂,关键看它能不能解决问题。
就像我们用 React,不需要完全理解 Fiber 架构的底层实现,只要知道怎么用、什么时候用就够了。
四、小结与展望 🎯
经过这篇文章,你应该理解了:
AI 的本质:
- ✅ 让计算机拥有学习能力
- ✅ 从数据中自动学习规律,而不是硬编规则
AI 的发展历程:
- ✅ 符号主义:规则硬编(失败了)
- ✅ 机器学习:从数据学习(需要特征工程)
- ✅ 深度学习:自动特征提取(需要海量数据)
- ✅ 大语言模型:理解语言和推理(目前最强)
为什么选择大语言模型:
- ✅ 理解自然语言
- ✅ 推理能力
- ✅ 生成能力
- ✅ 灵活性强
下篇预告:
在下篇文章中,我们会深入讲解:
- 大语言模型是怎么工作的?(Token Prediction)
- Transformer 架构的核心机制(Attention)
- 训练过程:从数据到智能(预训练 + 微调)
- 大模型的能力与边界(能做什么、不能做什么)
这些内容会帮你理解:
- 如何写出好的 Prompt
- 大模型的能力边界在哪里
- 什么时候该用、什么时候不该用
继续加油!💪
参考资料 📚
入门教程:
经典论文:
推荐阅读:
致谢:本文参考了多位技术作者的优秀内容,在此基础上结合前端开发视角进行了重新理解和创作。特别感谢原作者的知识分享。
下篇文章:《从零理解 AI(下):大语言模型的工作原理与边界》
敬请期待!(。・ω・。)ノ♡
- 本文链接:https://fridolph.top/posts/2026-02-06__re-ai
- 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 许可协议。