美团发布并开源高效推理模型LongCat-Flash-Thinking
9月22日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。此前的9月1日,美团曾发布首个大模型LongCat-Flash-Chat。官方称,在保持了LongCat-Flash-Chat极致速度的同时,此次全新发布的LongCat-Flash-Thinking更强大、更专业。
综合评分显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。
具体来看,在通用推理能力方面,LongCat-Flash-Thinking在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。在HMMT和AIME相关基准测试中,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领水平相当。
在LiveCodeBench上,LongCat-Flash-Thinking以79.4分超越参与评估的开源模型,并与闭源模型GPT-5表现相当。在OJBench基准测试中也以40.7的得分接近Gemini2.5-Pro的水平。
智能体能力方面,LongCat-Flash-Thinking 在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出竞争力。
同时,LongCat-Flash-Thinking还扩展了形式化定理证明能力,被认为是国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。
目前, LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。
值得一提的是,此前有媒体爆料称,LongCat-Flash最大的亮点是其训练并非在英伟达GPU上完成,而是在国产加速卡上进行。但由于一些原因,真正的硬件厂商具体名字不方便透露。对此,官方未公开回应。
本文系观察者网独家稿件,未经授权,不得转载。
相关推荐:信誉最好的20个网投网站 沙巴网站是多少 德赢体育vwin
体育平台链接下载
188博金宝
365bet体育正规官方
有没有反水高的平台棋牌
利记平台网址登录
六合神童
体球网即时比分
必威西汉姆联
开元棋下载app1973
和记娱乐体育APP
亚洲AG路线
彩运网客服
欧博官网注册
新宝gg官网买球
永利体育官方下载
澳门网投登录网站
外围足彩平台排行榜
信封图
手机赌博官方网
ag888
必赢亚洲官方手机网址
抢庄牛牛游戏app下载
b体育官网登录入口手机版
鼎尚国际真人打牌
米乐最新版APP
凯发娱乐唯一官网
万博手机APP
注册就送288元
威尼斯电玩中心手机版
雷速体育app官网
宝博游戏官网
乐虎国际平台登录
炸金花软件下载
网际快车官网
亚博在线试玩
凯发娱乐登陆注册页面
宝马会足球
湘西内幕传真B
免费游戏
亚博苹果版
d88尊龙ag平台旗舰厅网站
679体育官网
大发体育赌场网站
九州入口
必威网页手机版
半岛电玩
188网站正规吗?
英皇娱乐手机版登录
im注册体育网站
pokerking扑克王下载
4377线上娱乐
心博天下手机版注册
777te
lol哪里可以下外围
nba竞猜软件有哪些
澳博电竞
网上真人游戏斗牛
fg电子游戏
北京猎豹国际真人cs
ag棋牌网址
国际跳棋真人版对战
火狐入口
博狗下载
大富翁下载官网下载
百老汇网页登陆
火狐体育下载app420
三打一游戏
博狗网投
pg电子游戏官方平台
火狐体育下载官方app
谁知道365bet网址
亚投体育官网
18luck新利官网利app
千亿国际旧版本
凯时app下载地址
伟德官网入口
体育直播比分
日博游戏登录
看球吧体育平台下载
正规买球在哪里买
体育买球
网友评论 查看所有评论>>