同样的内外部氛围、同样的经济动能尚处蓄力期、相似的国资背景股东开始建仓二级市场,熬过了冬季,1999年的夏天见到过5.19行情;不知道2024年会不会也有相似的结果。
作为以融资为第一功能的市场,AH股最大的使命就是由国资带头,支持实体经济发展。
如果一个公司把上半年挣的2个亿利润几乎全拿来回购,会是什么目的?“没人买自己,那就自己回购自己”。此时的你,跟上市公司的利益站在了一起;
如果一个行业内的龙头股纷纷迎来了社保、险资、养老金持股不到5%但跻身前十大,背后有什么意义?此时的你,已经跟国资们站在了一起。
只要是进入二级市场的资金,都不会跟潜在“风报比”过不去。没错,是有一部分国资像财经媒体说的那样很青睐高股息板块,但2023年的中报,以社保为代表的资金就已经从一部分涨幅4倍以上的AIGC品种里套现离场、又在三季报重新回流AI低位的分支,包括但不限于服务器、工业软件、交换机、游戏。
“国资在这个位置,只护盘不做多,目的就是为了让社保、险资买够筹码”。不管这个观点是否偏激,也不管国资增减持以及选择的标的是否有依据和信息不对称,对于在A股和H股混迹多年的韭菜们来说,唯一的盈利模式就是跟有定价权的资金站在一起、低买之后高卖。
“我们只想和国资站在一起,最好不要有别人”。A股的AI公司能做到机构持股中只有国资的,已经不多了,这也是为什么A股的AI板块只有年底公募自救行情和密集上影线。那有没有可能,存在一些被少数短线机构减持、国资背景股东仍然重仓的AI公司?
虽然不多,但不是没有,港股的@百融云-W(6608.HK)就是一个代表,F10当中的机构持股名单可以自行查看,百度百科上也有这些持仓机构的控股股东背景。
这家公司的商业模式很简单,一共两个交付方式,MaaS(模型即服务)和BaaS(业务即服务),前者让B端客户调用AI模型,后者用AI技术帮企业完成KPI。但对于企业客户来说,有一个在业内很棘手、但在二级市场没人提的问题:就是在部署大模型算力时,很多企业拿到服务器后还有很多工作要做,可能需要长达30天甚至更久才能把环境、框架、模型搭建起来,后边还需要Finetune完成私有化。
那这会导致什么后果?就是AI模型开发的技术门槛和团队成本高,而且当企业客户好不容易部署好了AI模型之后,同行竞品就已经完成产品迭代了。
所以这时候需要一个技术,也是百融云在AI大模型研发当中的重点之一:MoE(混合专家模型)。这是什么意思?简单说,其实就是努力实现:在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,因为这往往比用更多的步数训练一个较小的模型效果更好。
而MoE的一个显著优势是能在远少于稠密模型所需的计算资源下进行有效的预训练。这代表着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。特别是在预训练阶段,与稠密模型相比,MoE通常能够更快地达到相同的质量水平。
如果查原版科学文献的话,会看到很多诸如“稀疏性”、“专家容量”、“令牌负载均衡”这种看似专业却很抽象,实际上唯独不告诉你这东西能给客户带来什么效果的词汇。用普通话翻译,客户通过MoE实现用更少训练步数训练更大的私有化AI模型,这样算力成本和本地化就都解决了,就这么回事。
MoE只能以Transformer为基础,与AI大模型天然适配。MoE具体又是由两个部分组成的:
(1)稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”,每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈网络(FFN),但它们也可以是更复杂的网络结构,甚至可以是MoE层本身,从而形成层级式的MoE结构。
也就是说,百融云客户在调用MaaS服务的时候,比如调用了10个模型(即服务),这10个都是独立运行的神经网络,客户就可以在调用更多AI模型和服务的同时,体验更精确的独立运行模式。
(2)门控网络或路由:这个部分用于决定哪些token被发送到哪个“专家”,比如B端客户输入的token为“More”或者“Parameters”,这两个token就会被发往不同的专家。有时,一个token甚至可以被发送到多个专家。Token的路由方式是MoE使用中的一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。
在BaaS的商业模式中,百融云的客户就可以通过这个原理,按照自身KPI涉及到的不同关键词,也就是token或者自然语言,找到百融云BaaS中涉及到最精准的模型分层和“专家”。
百融云这些机构客户中,有一些是国资背景的,也就给百融云的商业模式和AI大模型能力做了背书。
同理思考,如果一些股东也有国资背景,是不是也可以给百融云的股价做背书?有没有观察到每次调整到12.5元附近,都有一股力量在把它的股价拉起来?而且,是在港股大盘这么拉跨的情况下。