DeepSeek-R1“爆火”后,多个云平台宣布上线DeepSeek旗下模型。
北京时间2月4日凌晨,中国常驻联合国代表傅聪在纽约联合国总部举行记者会,介绍中国本月轮值安理会主席期间的主要议程设置。当被问到中国人工智能企业深度求索(DeepSeek)发布的模型以及中美人工智能合作问题时,傅聪强调,“永远不要低估中国科研人员的聪明才智。DeepSeek引发全球轰动和一些人的焦虑恐慌,说明技术遏制和技术限制无法奏效,这是全世界、特别是美国需要学习的一课”。
DeepSeek绝对是目前最火的应用,日常写作、翻译、问答都能轻松搞定,独特的深度思考模式加上联网搜索,在编程、解题、文献解读等复杂任务中也游刃有余,推理思考能力一绝。
01
DeepSeek是什么?
如果你对AI有一定的认知,日常已经在使用Kimi、豆包等产品的话,那你就可以类比来理解DeepSeek。DeepSeek中文翻译叫做深度求索。
深度求索是这家公司的名称:杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
在硅谷,DeepSeek很早就被称作“来自东方的神秘力量”,也是网上热议的“杭州六小龙”之一。
2024年底,DeepSeek发布了新一代大语言模型V3,同时宣布开源。测试结果显示,它的多项评测成绩超越了一些主流开源模型,并且还具有成本优势。
随后,在本月世界经济论坛2025年年会开幕当天,中国深度求索公司发布其最新开源模型R1,再次引发全球人工智能领域关注。据该公司介绍,R1模型在技术上实现了重要突破——用纯深度学习的方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩美国开放人工智能研究中心(OpenAI)的o1模型正式版,该模型同时延续了该公司高性价比的优势。
据了解,深度求索公司R1模型训练成本仅为560万美元,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。
02
DeepSeek的下载途径
【网页版】
你可以直接访问DeepSeek的官方网站(https://chat.deepseek.com),使用微信或手机号注册。
点击开启深度思考 R1,在网页上输入你的问题或指令,DeepSeek会即时给出回答。
【APP版】
DeepSeek的APP已经上线,支持iOS和安卓系统。在手机应用商店中搜索“DeepSeek”,下载安装后就可以随时随地使用了。
APP功能强大,支持对话、语言翻译、创意写作、编程辅助等多种功能。
03
DeepSeek的功能特点
(一)文本生成
Deepseek 能根据给定提示或上下文信息,生成连贯、有逻辑的文本内容,可用于撰写文章、故事、诗歌、代码注释等,能大大提高创作效率。
(二)问答系统
作为强大的问答系统,Deepseek 能准确回答各种问题,无论是常识性问题还是专业领域问题,都能依据知识和语义理解能力给出准确详细的答案,可应用于智能客服、知识图谱查询等场景。
(三)文本分类
Deepseek 能对输入文本进行分类,如对新闻文章分类、对用户评论进行情感分析等,在信息检索、舆情监测、客户反馈分析等领域应用广泛。
(四)机器翻译
Deepseek 具备机器翻译功能,能实现多种语言之间的自动翻译,保持原文语义和风格,为跨语言交流和国际合作提供便利。
(五)对话交互
Deepseek 支持自然流畅的对话交互,能与用户进行多轮对话,理解用户意图并做出合适回应,可应用于智能聊天机器人、虚拟助手等场景。
04
DeepSeek的使用技巧
相比gpt不需要多专业的提示词技巧,和deepseek说人话就可以。
今天教大家一个简单四步提问法,让DeepSeek变身你的“职场军师”和“流量引擎”!
需要注意的是,以下这些坑千万别踩。
(一)隐私安全要注意
别上传身份证、银行卡照片;
公司机密文件记得打码再上传;
(二)结果要核对
重要数据自己再算一遍;
法律文件建议找专业人士复核;
(三)使用要合理
别让AI代写毕业论文(查重过不了);
每天对话别超100条,小心系统卡壳。
使用DeepSeek必备的10个技巧
(一)巧用DS的三种模式
DeepSeek的网页版和APP版,都十分简洁,只有一个聊天窗口,以至于其APP只有8M大小。
聊天界面提供了三种模式——基础模型、深度思考(R1)和联网搜索,可根据不同场景和需求,灵活选用。
基础模型,于去年12月升级到DeepSeek-V3版,性能比肩全球顶尖的开闭源模型(如4o、Claude-3.5-Sonnet、Qwen2.5、Llama-3.1等)。
不勾选任何功能,即默认使用V3基础模型。大多数情况下,选择基础模型就完全够用了。
深度思考(R1),是今年1月新发的DeepSeek-R1正式版,效果完全不输OpenAI o1(只有尊贵的Pro用户才能使用,200美刀/月),因免费+开源+极低价API,让DS在这个春节成为“国运”级模型,爆火海内外。
R1是一个爱思考的深度推理模型,主要擅长处理数理逻辑、代码和需要深度推理的复杂问题。通常,一些写诗、写文章的需求,用不到这个模型。
联网搜索,是让DS根据网络搜索结果来回答问题,也就是RAG(检索增强生成),你可以把它理解为DeepSeek的AI搜索功能。
(二)R1对标o1,V3对标4o
不打开深度思考,启用的是V3模型,这是DeepSeek的基础模型,采用Moe架构,671B参数,与GPT-4o、Claude-3.5-Sonnet类似。擅长答百科知识,回答速度超级快。
打开深度思考,启用的则是R1模型,是类似o1、o3的推理模型,660B参数,采用的是后训练+RL强化学习,擅长逻辑推理、复杂问题解答,回答速度较慢。
关于4o与o1的区别,一张表说明:如何选用V3和R1模型。
至于联网功能,通常不用同时勾选深度思考和联网搜索,不然DS的表现会不太智能。
(三)知识更新至2024年7月
DeepSeek的预训练数据,更新至2024年7月。
所以,2024年7月前的问题基本上不需要打开联网功能。而之后的问题DS未学习,建议开启联网功能,效果更佳。
(四)提示词核心:准确表达
DeepSeek,无论是V3还是R1模型,都是不太吃提示词的,只需要做到【准确表达】即可。
通用提示词模板=你是谁+你的目标。
br
适当情况下,还可以补充一些背景信息:
你是谁+背景信息+你的目标。
br
也可以是:
我要xx,做xx用,希望达到xx效果,但担心xx问题……
br
不管哪个模板,其核心都是准确表达。做到准确表达,基本就够用了。过去学的那些结构化提示词,可直接丢掉。
(五)与DS沟通,尽量说人话
与DS沟通,尽量说人话。
越是直白、俗气,就越能激发它的潜能。
模仿风格,你只需要告诉它,模仿谁?写什么?就够了。
(六)我是一名小学生
过去,我们经常吐槽AI生成的东西一股子AI味。
其原因是模型输出太注重结构化,一堆“首先、其次、然后、总而言之”之类的连词,导致内容太死板。
人类这个感性的动物,最是讨厌这些理性的东西,特别是文字领域,八股文、学术文读起来常常让人昏昏欲睡。
这种情况,建议你加一句提示:
我是一名小学生 / 请用小学生能听懂的话解释。
br
这句提示用在DS里,特别好使,如果进入博士领域,就开始上难度了。
(七)活用联网搜索
以o1为代表的推理模型,基本上都是不能联网的。
如果想了解知识库截止日期后的问题,DeepSeek支持推理+联网的模型。
(八)活用上传附件
DS的推理模型,不仅能联网,还支持上传附件(最多不超过50个,每个不超过100MB)。
推理+上传附件,可以做更多本地化、私密化的东西,比如你自己的知识库或者内部资料。让其基于自有知识库进行推理和思考。
(九)活用V3+R1
前面提到,V3是基础模型,它专注于告诉我们要什么。而R1是推理模型,专注于告诉我们如何思考、推理。
那为什么不能将2个模型结合起来使用呢?比如,先跟V3多轮对话,得到要推理的细节和提示词,然后发给R1,让R1再来推理、输出。这样,就能将DS的能力又提升一个等级。
(十)R1的3个开放
对于R1模型,DeepSeek做到了3个开放:
1)思维链全开放。无论是应用端还是API,都可以看到完整、透明的思考过程。API,通过设置 `model=’deepseek-reasoner’` ,即可调用。
2)训练技术全部公开。DeepSeek在后训练阶段大规模使用了RL强化学习技术,通过极少标注数据,极大提升模型推理能力。所有训练技术全部公开,目前全球多个研究机构均已复现R1。
3)开源2+6个模型。R1预览版和正式版的参数高达660B,非一般公司能用。为进一步平权,于是他们就蒸馏出了6个小模型,并开源给社区。最小的为1.5B参数,10G显存可跑。
最后,用DeepSeek-R1模型的一个问题作为结尾:
“在技术加速超越人类能力的时代,你们将如何重新定义自身的价值与目的,以确保进步的方向始终服务于生命的整体繁荣,而非分裂与异化?”
那么,你的答案会是什么?
原文链接:https://www.163.com/dy/article/JNO9OCEE0545W6S9.html