全球主机交流论坛

标题: 时隔一年多，我还是坚持deepseek就是垃圾。 [打印本页]

作者: GΘD 时间: 2026-3-31 15:11
标题: 时隔一年多，我还是坚持deepseek就是垃圾。
本帖最后由 GΘD 于 2026-3-31 15:15 编辑

一年多前DS刚发布的时候我说DS偷，还有一堆硬洗。
唯一少说的就是不仅拿人家开源的，还蒸馏人家不开源的。

就是因为ds的这番操作，所以很多厂家大规模封禁中国来的账号，甚至用中文都要被BAN号。
被限制后几乎没什么大动作了吧？V4叫了这么久，在哪呢？
或许过阵子V4就要来了，这下要直接偷国内友商的数据了吧？

一年前那些硬洗的ZZ自己来看看。
https://loc.wget.at/thread-1379678-1-1.html

一年后我再来，看看DS倒闭没有。

作者: acm 时间: 2026-3-31 15:14
管他偷不偷便宜好用就行

作者: SuperMaster 时间: 2026-3-31 15:15
现在没有那么多人跟你吵架了。LOC的人气都跑完了。

作者: GΘD 时间: 2026-3-31 15:17

SuperMaster 发表于 2026-3-31 15:15
现在没有那么多人跟你吵架了。LOC的人气都跑完了。

吵几架人气就回来了。

作者: lyh36279 时间: 2026-3-31 15:19
毕竟深度生病有党性

作者: fotosx 时间: 2026-3-31 15:21
mmj会在乎这些吗，哪个好薅哪个能完成任务需求哪个就是厉害的。开源不开源的能说什么偷啊。

作者: bigexiu 时间: 2026-3-31 16:33
sb 就是sb 谷歌的技术号称压缩内存的ds 。。。sb找骂

作者: Marss 时间: 2026-3-31 16:33
窃书不能算偷……窃书！……读书人的事，能算偷么？

作者: 全自动挂机赚钱 时间: 2026-3-31 16:36
盘子被打脸了，不会承认的。

其实就是偷的，后来openai发现了，偷不成。就完蛋了。

为啥最近其他几个厂子火了，因为没人关注，又偷Claude成功了。deepseek被关注的严，没偷到那么多，所以就不行了：

数据为证：
據Anthropic發布的部落格文章，遭點名的三家中國AI公司分別為DeepSeek、Moonshot AI與MiniMax。

Anthropic強調，這三家業者透過大量註冊帳號與異常使用模式，長期對Claude發出高頻、結構化的提問，目的不是一般使用者的日常查詢，而是鎖定特定任務與格式，集中蒐集可回收利用的回應。

Anthropic指出，三家公司與Claude互動的規模差異明顯。DeepSeek與Claude的互動約為15萬次；Moonshot AI則超過340萬次；MiniMax數量更高，累計逾1,300萬次提問。這些提問行為被Anthropic視為「有組織、具策略性」的輸出蒐集，而非零散的用戶使用紀錄。

deepseek 偷的最少，所以没声了。

Moonshot AI--------就是kimi,
MiniMax---MiniMax-M2.7 与 M2.5

后面两个，最近龙虾都听说了吧，所谓全世界都在用中国token, 其实就是这么来的。

------------和抄袭的多少完全成正比。

作者: kaguya 时间: 2026-3-31 16:50
没人在乎，api遍地都是，谁便宜谁好用，就用谁，普通人管你这的那的，不好用的就滚蛋，就这么简单

作者: rqp 时间: 2026-3-31 17:11

作者: williamc2 时间: 2026-3-31 17:16
好用就好

作者: PA-fan 时间: 2026-3-31 17:37
只用国内的模型的，和用国外模型的，对于ai的感知完全不一样。

作者: 宋恩子 时间: 2026-3-31 17:43
DeepSeek是盘子的精神寄托，现在是天天吹DeepSeek 4，号称d4出来拳打cc脚踢cx

作者: yephyr 时间: 2026-3-31 17:59
关于 DeepSeek（深度求索）是否是“原生”模型，答案是肯定的：DeepSeek 是具备极高自主研发深度的原生模型。

虽然在 AI 领域，所有模型都会参考 Transformer 架构，但 DeepSeek 并不是通过简单的“模型蒸馏”或“套壳”而来的。它在架构创新、训练效率和全栈技术路线上展示了极强的原生研发特征。

以下是支撑其“原生性”的几个核心证据：

1. 独创的架构改良：Multi-head Latent Attention (MLA)
在最新的 DeepSeek-V3 中，研发团队提出了一种名为 MLA 的注意力机制。

技术差异：传统的原生模型（如 Llama 3 或 GPT-4）通常使用 MHA 或 GQA 机制。DeepSeek 为了解决 KV Cache（键值缓存）带来的内存瓶颈，自主设计了这种通过低秩压缩来大幅降低计算开销的架构。

原生证据：如果是蒸馏模型，通常会直接沿用“老师模型”的参数结构，无法对这种底层的数学逻辑进行根本性重构。

2. 领先的混合专家模型 (MoE) 策略
DeepSeek 是全球范围内将 MoE (Mixture of Experts) 架构落地最成功的团队之一。

DeepSeekMoE：相比于常规的 MoE（如 Mixtral），DeepSeek 引入了“共享专家（Shared Experts）”和“细粒度专家（Fine-grained Experts）”的概念。

自研算法：这种架构能够让模型在拥有数千亿参数的同时，推理时只激活一小部分参数，从而在极低成本下实现极高性能。这种深度的架构调整必须从预训练阶段（从零开始）设计。

3. FP8 混合精度训练框架
DeepSeek 在 V3 的研发中，自研了一套基于 FP8（8位浮点数）的训练方案。

在高并行算力集群中，如何保证 FP8 训练不崩盘是一个世界级难题。DeepSeek 详细披露了他们在算法和算子层面的优化手段。

硬核指标：能够在大规模算力集群（如万卡 H800）上跑通全量预训练，这本身就是原生研发能力的最高体现。

4. 针对代码和数学的独立强化学习 (RL)
DeepSeek 最早出圈是因为其 DeepSeek-Coder。

训练路径：它并不是简单地“喂”代码数据，而是通过自主设计的任务（如 Repo-level 补全）和特有的强化学习对齐策略进行训练。

表现：它的代码逻辑风格、解决复杂 C# 或 Python 问题的思路，与 GPT 或 Claude 有明显的代差感和风格差异，侧面证实了其逻辑底座的独立性。

5. 极高的技术透明度 (Open Source & Paper)
DeepSeek 几乎为每一个关键模型都发布了极为详尽的技术报告（Technical Report）。

报告中详细记录了语料清洗比例、分词器（Tokenizer）的设计、预训练的不稳定处理以及超参数设置。

业内共识：在目前的 AI 圈，DeepSeek 被公认为“最卷”的原生技术团队之一，其 MLA 架构甚至反过来被很多后来者学习和模仿。

总结
DeepSeek 不仅是原生的，它更像是一个**“效率偏执狂”**。它通过在原生架构上进行大量的数学和工程创新，实现了用极低的算力成本（相比 OpenAI）达到甚至超越顶级模型的效果。

作者: eny 时间: 2026-3-31 18:04
狗叫什么呢

作者: bobbylong 时间: 2026-3-31 18:30
你还别说,打地基定架构这块opus4.6和gpt5.4都不如降智严重的deepseek3.2,人家小日本剽窃谁家都不用就用deepseek,开源协议一删就说是小日本自己开发的,你不服不行

作者: 岳云鹏 时间: 2026-3-31 18:53
gemini很强大

作者: 乐悠悠 时间: 2026-3-31 19:20
小日子严选（刚刚抄袭deepseek），差哪了

作者: 星空之下 时间: 2026-3-31 19:26
deepseek挺好用啊

作者: 766txt 时间: 2026-3-31 20:06
还是nodeseek好回来一看真他吗恶心再也不来了

作者: 金池长老 时间: 2026-3-31 20:23
本帖最后由金池长老于 2026-3-31 20:27 编辑

loc看不得这些，管他好不好用，是国产自研的就行

作者: tokyohot 时间: 2026-3-31 23:07
已经一年多没用这个废物了

作者: marcomarco 时间: 2026-4-1 09:49

全自动挂机赚钱发表于 2026-3-31 16:36
盘子被打脸了，不会承认的。

其实就是偷的，后来openai发现了，偷不成。就完蛋了。

典型的老外说点啥你就当信条了当证据了

作者: kkkhost 时间: 2026-4-1 10:10
作为消费者，我又不是富得流油，每一分钱都想用在刀刃上，地普西克早就不用了，早起就很垃圾，现在也还是不行。什么支持这个，支持那个，有钱才能谈理想，九成九的人只配谈生存

作者: yooooo 时间: 2026-4-2 10:43
很久没回这论坛看了，比推特那粪池还不如了已经

作者: zhoumo310 时间: 2026-4-2 12:59
这么耿耿于怀干嘛呢？你坚持就坚持吧，又没人强迫你

欢迎光临全球主机交流论坛 (https://loc.wget.at/)