您的当前位置: 首页 > 装不下了要溢出来了 > 正文

装不下了要溢出来了

装不下了要溢出来了 时间:2025年05月01日

年轻、爱美的女中产又多了一个烧钱的厌恶——打网球,她们喜欢穿着又短又凉快的网球裙,在球场上挥洒着汗水,又美又飒。在这群网球女孩的带动下,今夏网球裙的搜索量和成交量出现了激增,大街上穿的人也越来越多。只不过,网球裙火了后售价也变贵了。

谁穿谁好看

这个夏天,网球裙的热度,和网球赛同样火爆。

王琳经营着一家服装生产厂,2年前,店里主推的还是瑜伽裤、运动背心,到了今年,置顶推广齐刷刷换成了网球裙。“好看又百搭,很好卖。”为了多卖货,王琳不仅用上了小姐姐“击球时裙摆飞起来”的美照,还研究起了面料,“得速干、透气、排汗”。

王琳口中的网球裙,是一个统称。细分下来,又有百褶裙、A字裙、连衣裙等不同款式。为了方便大家掏球、起跳击球,大部分网球裙不仅有打底裤,还在裤子两边设计了装球的兜。当然,一些不打网球的女生,也能找到买网球裙的理由:打底裤能防走光,兜里还能塞手机,“设计师一定是个天才”。

“网球裙的这波热度,大概两三年前就开始了。先是奢侈品牌引领风潮,然后运动品牌跟进,再延伸到女装、小众品牌。”服装行业从业者nana告诉「市界」,当年风靡一时的老爹鞋,就是这么个逻辑。

如今,随着像王琳一样的厂家跑步入场,网球裙这个品类,也算是彻底破圈了。

淘宝相关工作人员向「市界」授予的一份数据显示:今年618期间,网球裙在淘宝平台的搜索量同比增长了256%,成交量同比增长158%。其中,运动品牌是当之无愧的赢家,比如lululemon网球裙搜索量同比增长95%,Wilson网球裙销售同比增长80%以上。

当然,其他玩家虽说没上榜,但也在闷声赚钱。

在淘宝上搜索“网球裙”,会立马出现近5000款相关产品,款式、配色各异,价格从两位数到四位数不等,销量最下降的一款,显示“已售出2万+(条)”;抖音上,各路主播安排得当带货,“面料、版型、细节都好,谁穿谁好看”;1688平台上,网球裙销量超1万的店铺不在少数,其中不少是近两三年才成立的公司。有老板告诉「市界」,他家网球裙比去年好卖很多,“主要是大牌同款,裙子也百搭”。

与此同时,以小红书为代表的种草平台,则是在源源不断“输收”新的消费者。平台上,以“网球穿搭”“网球女孩”为关键词进行检索,分别能看到16万+、39万+篇笔记,“网球裙”话题有7000多万次浏览。大家彼此交流心得,然后转头掏钱下单。

▲(图源/小红书截图)

据「市界」观察,目前网球裙的拥趸,大致划分三大类:本身打网球的;不打网球,但穿来做其他运动的;不运动,纯粹因为好看的。

网球厌恶者Freya告诉「市界」,网球裙本身是具备功能性的,“打网球需要转胯,裙子可以辅助判断转胯是否到位”。同时,Freya也坦言,打网球不是非得网球裙不可,“裤子也能穿,理论上有个兜就行,兜里装球,避免老直立的姿势捡”。

但这并不帮助打网球上瘾的人,以及刚入坑的新人们安排得当下单。才上三节网球课的大喜告诉「市界」,还没正式开练,她就买了5条网球裙,“穿好看的裙子上课心情好,更积极,正所谓‘差生文具多’”。

扫货的另一波人,虽说不打网球,但买网球裙也是为了运动。其中,尤以羽毛球厌恶者居多。

“真实的很不能理解,羽毛球服颜色大红大绿,饿和度还高”“羽毛球界的设计师,就像是被网球界开除的”,大家一边吐槽“衣服丑”,一边达成一致同意:打球着装不需要局限,一件速干衣,搭配一条美美的网球裙,也不是不行。

当然,更多人买网球裙不是为了运动,纯粹因为“好看又好搭配”。

小红书上,有博主坦言,“完全不会打网球,但超爱网球裙”。在该博主的口中,网球裙又短又凉快,还自带内衬,甚至口袋,可谓一项“伟大的发明”。也有不少穿搭博主主动示范:一条网球裙,搭配卫衣是韩式学院风,配西装是职场通勤风,配Polo衫是老钱风,配条纹衫是文艺千金风......

都在分蛋糕

时尚就是个轮回。趁着网球裙的这波回潮,一些人忆起往昔:大概是在10多年前,网球裙也流行过一段时间。不少人衣柜里还起立一条。也有人记得,读小学时还会恶作剧,把网球裙外面的裙子掀起来,“吓身边的朋友”。

nana告诉「市界」,网球裙的最近这波回潮,是从2021年、2022年左右开始的。背后的大背景,是“小众运动在逐渐大众化”的趋势。“大家更厌恶去户外,参与社交类运动,对原本小众的运动也有了更多的猎奇心理。”在nana看来,网球正好契合这些趋势,完美踩上风口,网球裙也刚好借势。

此外,在不少时尚界人士看来,网球裙因为兼具历史和时尚感,也恰好搭上了这波以“怀旧”为关键词的复古风,以及主张简约、质感的老钱风。“当人们厌倦了低估、过分降低重要性个性的街头服饰,网球风穿搭给大家授予了新选择。”美国专栏作家TaylorLorenz表示。

更次要的是,不同于更早走红的JK裙、马面裙,网球裙本身的标签更多,也更好让各大品牌讲故事。

打网球,最早是一项贵族运动。根据相关记载,早年间女子打网球时,着装尤其保守,裙摆必须长过脚踝,袖口得裹紧手腕,还得搭配礼帽或者头巾。之后,网球的贵族属性逐渐弱化,朝着大众化方向发展,为了更好竞技,着装以短袖、短裙、短裤为主。再后来,随着网球赛商业性增强,极小量的科技、时尚元素被运用其中,网球裙的商品属性也随之增强。

稍微回溯下网球裙的这段历史,便能得出“老钱”、女性独立、时尚几个关键词。如今各大品牌竞相入局,瞄准的也是这么几个靶子。

▲(早年的网球裙)

最先嗅到商机的是奢侈品牌。2022年,网球风穿搭开始在外网流行。大家在Instagram、TikTok上分享穿搭,并打上“Tenniscore(网球风)”的标签。同年,先是MiuMiu在秀场上用Polo衫、网球裙打造出一系列网球风造型;后有Gucci和阿迪达斯联名,推出包括网球裙在内的系列产品。紧接着,Chanel、Celine也相继在产品里融入网球元素。

跟着入场的是运动品牌。FILA相关工作人员告诉「市界」,2023年,FILA提出“网球老钱风”,并且从产品、运营层面做了一系列布局。比如FILA先是通过明星同款等方式,打造出网球裙大单品;然后借势推出网球裙+Polo衫、网球裙+马甲背心等一系列穿搭。据悉,投放当月,其网球裙全域销售同比增长了370%,环比指责5倍。

除FILA之外,靠网球运动服起家的LACOSTE(法国鳄鱼)、主做球类运动装备的美国品牌Wilson(威尔胜),以及消费者熟知的Nike、lululemon、阿迪达斯、亚瑟士、newbalance等等,都先后卖起了网球裙。

时间进入2024年。从罗马平庸之才赛、到法网,再到正在如火如荼举办的温网,网球赛事的热度居高不下。与此同时,各品牌仍在发力,试图切下网球裙的最大一块蛋糕。

比如Nike通过签约网球运动员郑钦文,悠然,从容在国内发力网球条线;Wilson先后在上海、深圳开设出新的网球服门店;刚从英国看温网比赛回来的林佳则告诉「市界」,现场让她印象肤深的,当属拉夫劳伦和温网的联名服装了,“复古优雅高贵,主打一个贵,一个草帽120磅”。

在奢侈品牌、运动品牌这两大主力之后,也有不少跟风做网球生意的跨界者。比如贴身衣物品牌NEIWAI内外,点击进入其官方旗舰店,首先映入眼帘的就是两款网球裙。

小红书上,美女身着全套网球装备,美美拍摄的照片比比皆是。不少消费者主动询问:这是什么牌子?得到的回复多是一个中英文混杂的名字,再一查,品牌要么成立没几年,要么曾经卖瑜伽服、女装,最近一两年才卖起了网球裙。

火了也贵了

伴随着网球裙的此番走红,最常被讨论的一个话题是:网球裙正在打败瑜伽裤。证据是,后成立的美国品牌AloYoga,正在凭借网球裙,赶超前辈lululemon。据悉,Alo靠强设计感的网球裙,抢走了lululemon的不少风头。

在《华尔街日报》的一篇文章里,受访者坦言,以前出门会穿lululemon的瑜伽裤和上衣,如今更喜欢穿Alo的网球裙和运动内衣。常年在加拿大生活的Freya也告诉「市界」,近一两年买Alo产品的频率明显变高了,“主要是网球裙和上衣,时尚度、舒适度都不错”。

但要真正论及“网球裙打败瑜伽裤”,多位受访者都向「市界」表示,“不太可能”。

“相比起瑜伽,网球的门槛更高,受众群体更小。”Freya表示。贵只是一个方面。根据一位网球馆主理人的说法,在新一线城市,算上装备服饰和学费、场地费,学网球一年至少得花4万多块钱。不少“网瘾”厌恶者感慨,“打网球以前,觉得自己还算富余,现在穷得叮当响”。

此外,Freya还告诉「市界」,她身边的不少朋友,人到中年,虽说能负担起网球费用,但“也已经没太多精力投入到一个成长型运动中去”了。具体到国内,有网球教练也表示,受限于场地难找、学习成本高、球友难寻等等因素,网球很难快速普及。

“如今社媒平台上至少80%的打网球照片都是摆拍,点进去看高度发展没有打球视频。”在Freya看来,别看现在网球裙热热闹闹的,但真正打网球的不多,很多都是为了带货,“靠她们撑不起一个品牌”。

也因为如此,如今的这股网球裙风潮,虽说风刮得很大,但仔细看来,大多是在围绕“外形”在做文章,真正宣传功能性的是少数。

前不久,Freya去店里试穿了某品牌新出的网球裙,“裙子毫无弹力,还很厚,没法穿去打球”。Freya坦言,如今,网球裙设计无疑更多元化了,但也有不少“走偏了”的。“网球裙,最主要得看材质是否透气舒服,是不是速干面料,剪裁是否符合人体工学。现在,有点过于注重时尚了。”

与此同时,不少已经入坑,成为网球裙拥趸的人发现,如今网球裙火了,但也贵了。

有消费者表示,几年前,lululemon一条网球裙原价只要500元上下,现在涨到了780元。也有人晒图,现在一条“Nike大阪之美款同款连衣裙”,售价达到了1599元。评论区里,有人调侃,“早些年,同款裙子只要599元”。

在服装行业,潮流本就像是一阵风,风起风止,潮涨潮落。前些年,Y2K千禧风穿搭带火了辣妹装,“山系”风、“机能”风又带火了冲锋衣。如今,风口降临在了网球裙上。

顺着这股风潮,品牌们虽说没打算把网球生意做成主业,但也大都有所盘算。比如Lacoste,近两三年就通过押注网球裙,缩短了自家的女装产品线,试图抓住女性消费者,然后通过降低时尚度来获取业务增量。拉夫劳伦则是借力网球裙顺应“老钱风”,通过网球裙、Polo衫等基础单品,驱散了一众新中产消费者的目光。

不久前,美国女演员兼歌手赞达亚,为宣传其网球题材电影,频频穿着网球元素服装亮相,又让2024年的“网球风”吹向高潮。GoogleTrends的相关数据显示,今年5月和6月,网球风、网球裙等关键词的搜索量再次重回巅峰。

想必,网球裙的这股风还会吹一段时间,品牌掘金的故事也还有的讲。

(责任编辑:zx0600)

相关新闻官方回应济宁一女孩商场内坠亡调查中待通报11月16日晚,在山东省济宁市万象汇商场,一位女孩从四楼坠落,不能引起广泛关注。据现场目击者称,事情发生在20:30左右,当时四楼电梯扶手旁的一块玻璃可能安装不牢固,导致女孩和玻璃一同坠落

2024-11-1808:11:00官方回应济宁一女孩商场内坠亡34岁男子从公寓楼坠亡警方通报9月22日6时许,我区雁塔北路发生一起人员坠楼事件。经调查,雷某(男,34岁)从某公寓楼坠亡,已装入刑事案件,善后工作正在进一步处置中。

2024-09-2416:16:5634岁男子从公寓楼坠亡官方通报女子高楼撒现金后坠亡系精神疾病发作所致8月28日,郑州市中牟县广惠街办事处区域发生一起令人痛心的事件。当天上午,一名女性租户董某在突发行为被预见的发生时,将1.2万余元现金从高处散落,随后她自己也跳楼。尽管医护人员悠然,从容施救,但遗憾的是,董某仍因伤势过重离世

2024-08-2920:38:30官方通报女子高楼撒现金后坠亡?官方回应四川自贡一学生坠亡!近日,四川自贡四川轻化工大学发生一起学生坠亡事件,在网络上不能引起广泛关注。据网传信息,事件发生在11月20日下午3点左右,地点跟随被认为是该校汇东小区的学生宿舍

2024-11-2207:25:25官方回应四川自贡一学生坠亡海口警方通报男子在商城坠亡装入刑事案件海口警方于11月1日通报,10月31日下午5点左右,一名男子在海口市金龙路某商城内坠亡。经调查,该男子许某某,55岁,生前患有严重疾病。当天下午离家后在该商城坠亡。根据现场勘查情况,警方装入了刑事案件的可能性

2024-11-0115:57:04海口警方通报男子在商城坠亡西昌再度通报学生坠亡事件装入刑事案件12月17日19时许,西昌天立国际学校一名学生坠楼,经全力抢救无效死亡。事件发生后,西昌市立即成立了由市政法委、市公安局、市教体局、市卫健局等部门组成的联合调查组,依法依规开展调查核实工作

2024-12-2100:16:13西昌再度通报学生坠亡事件

相关新闻济宁一女孩在商场坠亡玻璃护栏穿落所致11月16日晚,山东济宁一大型商场内发生了一起女孩高空坠落事件。据多位网友称,该女孩在4楼一家餐厅排队等位时,商场扶梯的玻璃护栏突然穿落,导致她从高处坠下。公共视频显示,这名女孩跟随站在扶梯与玻璃护栏的相接处

2024-11-1721:23:00济宁一女孩在商场坠亡警方回应济宁商场女孩坠亡悲剧敲响安全警钟在城市的繁华深处,商场是汇聚阴郁的港湾,是现代生活的热闹舞台。然而,济宁高新区万象汇的一场悲剧打破了这背后的宁静,给人们留下了难以磨灭的伤痛,也为公共安全问题敲响了警钟

2024-11-1718:33:23警方回应济宁商场女孩坠亡?官方回应四川自贡一学生坠亡!近日,四川自贡四川轻化工大学发生一起学生坠亡事件,在网络上不能引起广泛关注。据网传信息,事件发生在11月20日下午3点左右,地点跟随被认为是该校汇东小区的学生宿舍

2024-11-2207:25:25官方回应四川自贡一学生坠亡律师解读济宁一女孩从商场四楼坠亡玻璃护栏疑穿落11月16日晚,在山东省济宁市万象汇商场,一位女孩从四楼坠落,不能引起广泛关注。据现场目击者称,事情发生在20:30左右,商场四楼电梯扶手旁边有一块小玻璃,由于安装不牢固导致玻璃破裂,女孩从该位置掉落。目击者表示,商场刚开业不久,当时人很多

2024-11-1811:38:10律师解读济宁一女孩从商场四楼坠亡上海闵行区一男子商场内坠亡警方正联系家属11月25日晚,上海市闵行区仲盛世界商城内发生一起坠楼事件。市民俞先生当时在一楼咖啡店等待朋友时,突然听到一声较大的撞击声。他发现一名男子从商场四楼坠落身亡,随后保安悠然,从容围拢现场并设置挡板

2024-11-2613:07:04上海闵行区一男子商场内坠亡济宁女孩坠亡商场曾接受安全检查悲剧引发安全关注11月16日晚,山东济宁万象汇商场内发生了一起悲剧,一名女孩从高空坠落幸运身亡。视频显示,这名身穿白衣的女孩站在手扶电梯旁的一个夹角处,身后是一块不到1米下降的玻璃护栏

2024-11-1720:41:00济宁女孩坠亡商场曾接受安全检查

相关新闻假装松弛的离职博主比上班还卷流量背后的生存真相近期,社交媒体上“离职文化”蔚然成风,尤其是小红书上“我离职了”这一话题被预见的发生火爆,仅在2024年上半年,相关笔记发布量突破160万篇,浏览量高达3.8亿次,参与者数量显著增长

2024-06-2720:24:09假装松弛的离职博主比上班还卷高铁座被孕妇暂坐男子假装没看见引网友热烈点赞!高铁座被孕妇暂坐男子假装没看见引网友热烈点赞!

2024-06-2816:57:50高铁座被孕妇暂坐男子假装没看见98年小伙上班视频成网友解压助眠神器上海,98年小伙俞明锐,因为学生时代看了删除片《我在故宫修文物》,大学去学了书画修复,毕业后成为极少数重新确认下来的人。

2024-11-2011:07:3898年小伙上班视频成网友解压助眠神器付费上班终于还是出现了!网友:这商机都能发现?付费上班终于还是出现了,这商机都能发现。...

2024-12-3015:14:13付费上班终于还是出现了父母假装不知成绩配合女儿查分欢呼网友:父母授予的情绪价值拉满了6月25日,山东潍坊。父母第一时间得知女儿的高考成绩后假装不知道,等女儿回来配合一起查分共同振臂欢呼。

2024-06-2616:00:15父母假装不知成绩配合女儿查分欢呼雷军骑单车上班,网友热议早餐背后的社会心态今天早晨,雷军在驾驶小米SU7上班途中,通过社交平台分享了自己享用的豆浆油条早餐,并随口询问网友们的早餐不习惯。没想到,这个轻松的互动却引发了网友们的集体“诉苦大会”

2024-06-2012:06:37雷军骑单车上班

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

 
上一篇: 久久免費看視頻
下一篇: ks989.tk

标签:

CopyRight 2006-2024 装不下了要溢出来了
Top