为什么想写这篇小记?
这几年 AI 的发展有点像按下了“加速键”。从最早只能写写对联、生成一点小作文的模型, 到现在已经可以写代码、画图、分析数据、甚至帮我梳理整套学习路线。 有时候刷新闻会觉得信息太密集了,所以我想有一个地方,安静地把我看到的、觉得有意思的进展简单记下来。
这不是一篇严肃的论文综述,更像是一个普通人在 时代洪流边上做的一点流水账式记录。
最近几年让我印象很深的几个方向
1. 大模型能力的“通才化”
最明显的变化,就是大模型从“会聊天”变成了“什么都沾一点边”:
- 代码生成和理解:从只能写点 demo,到现在可以协助完成中等复杂度的项目、重构老代码、生成测试用例。
- 长上下文:上下文从最初的几千 token,到现在可以一次读完整本书、甚至一个中型项目,这对知识管理和工具开发非常关键。
- 推理能力增强:链式思维(Chain-of-Thought)、工具调用、代码解释器的结合,让模型不再只是“回答问题”,而是能逐步拆解问题、调用外部工具来解决。
对个人来说,最直接的感受是:很多原来需要“先系统学一整块再动手”的事情,现在可以先做起来, 不会的地方一边问 AI 一边补课,门槛被整体抬起来又被整体拉低,很微妙。
2. 多模态:文字不再是唯一入口
过去我们和 AI 交互几乎只靠文本,现在多模态能力已经变得相当实用:
- 能看图:UI 设计稿、手绘草图、数据可视化图表,AI 都能给出不错的理解和修改建议。
- 能听音:语音识别越来越准,生成的语音也越来越自然,多语言、多口音的支持在不断提升。
- 能处理视频:虽然还不算完美,但已经可以对视频做摘要、提取关键片段、生成脚本和分镜大纲。
这意味着很多“原来要开会开半天”的东西,现在可以先扔给模型做一轮整理,再由人来做判断和润色。
3. AI Agent 和自动化工作流
另一个很热的方向,是所谓的 AI Agent(智能体)。 简单理解,就是让模型不只“回答问题”,而是“被赋予一个目标,然后自己拆解任务、调用工具、循环执行直到完成”。
- 对个人:可以自动帮你查资料、整理报告、定期做一些例行检查(如日志、数据质量、舆情等)。
- 对团队:可以把一部分固定流程自动化,让人更多地花时间在决策和创造上。
现在的 Agent 还谈不上“完全托管”,但已经足够作为 “超级脚本 + 会聊天的自动化工具” 来用。
4. 开源生态和“人人都能玩”的趋势
让我很惊喜的一点,是开源社区的活力:
- 各种尺寸的开源模型(从大到小)不断出现,让本地部署和隐私场景有了更多选择。
- 推理框架、量化技术、加速库在疯狂迭代,让“跑模型”这件事越来越不需要顶配显卡。
- 围绕提示工程、RAG(检索增强生成)、多模态的开源项目层出不穷,堆起来就是一整套 AI 应用基础设施。
对我这样的普通开发者来说,最大变化是“能动手的空间变大了”, 很多以前只有大公司实验室能玩的东西,现在在笔记本电脑上就能尝试一版。
作为一个普通人,我在怎么用 AI?
站在“吃瓜群众”的视角,我目前主要是这样用 AI 的:
- 当作 随时在线的技术同事,用来问代码、问架构设计思路、让它帮忙 review 一下自己写的东西。
- 当作 学习搭子,陪我读论文、拆课程大纲、生成习题和思考题。
- 当作 写作助手,帮我改标题、调语气、整理大纲,尤其在我卡壳的时候给一点“起步的句子”。
当然,我也在不断提醒自己:重要的判断还是要自己来做, 模型可以给很多建议,但价值观、取舍、长期方向这种东西,暂时还是人类自己的功课。
一点个人的感谢
写到这里,突然有点感慨。十几年前我刚开始接触编程的时候,能找到的中文资料并不多, 很多知识是从零碎的博客、论坛帖子、GitHub issue 里一点点拼起来的。 那时候根本想不到,有一天“和一个 AI 聊五分钟”可能抵得上当年我满世界找资料的几天时间。
所以这页小小的网页,其实也是想对很多人说一声“谢谢”:
谢谢认真写文档、写博客、录视频的人,
谢谢愿意分享自己踩坑经验的人,
也谢谢正在阅读这些文字的你,和我一起在这个有点疯狂、但又超级有趣的时代旁边,保持好奇。
如果你也在用 AI 学习、创作、做实验,哪怕只是偶尔拿它写写小故事、帮忙总结一下日记, 都欢迎你把这当成一个小小的“同好信号”:我们在同一条时间线上,悄悄见证着同一场变化。
未来如果我学到新的东西、看到有意思的 AI 进展,会继续把更新写在这里。
也希望你无论是不是做技术,都能在这波 AI 浪潮里,找到一些真正属于自己的东西。