085_E85.一位量化老兵的自白：我眼中的公募量化 20 年

[厚望] 先简单介绍一下你的经历。

[田大伟] 我呢算是量化的一个老兵了。2010年博士毕业回国,在光大宝德信基金,从10年到18年。18年到去年在华兴证券支馆,去年来的信权。我大概是2013年就开始管资金,大概情况这样。

[厚望] 其实路过几个量化的基金经历,一开始对这个挺有期待的,但后来发现普遍有点困难,就这个事似乎没办法说得太轻,说太清楚有点像量底库了。但是说不太清楚的话,大家可能又觉得这个事本身就有点抽象,然后又挺黑和的。

[田大伟] 我并不是这样觉得的,我觉得量化的话应该帮它做得更加透明化,因为这样的话我们的量化行业才能够做起来。量化的话它比较会设,其实一些基本的原理可能很多朋友还不是很了解,是需要科普的。至于它的核心的地方,坦率来说它是比较复杂的。甚至有些模型,我就敞开给你看代码,如果你不是那种非常专业的,你也不一定能看得懂。但是不管怎么说的话,我觉得为了量化行业的整体的发展,我们还是要用一些直白的语言去把那个量化的基本的原理表述清楚。我觉得可能是有一个问题,量化它确实是比较的拗口一点,相对来说。同时,做量化的人吧,都是做一些理工科的,可能也不是那么善于或希望去表达,这也是一个原因。

[厚望] 或者大家的预设就是,我说了你也不一定能太听得懂。

[田大伟] 因为大家想法很简单,量化靠业绩,特别是量化师母。你看他的创始人,其实都很年轻,但是我就靠业绩就可以了,业绩就是我最好的宣传。所以他不需要帮他的原理说得特别的清晰。公募量化大概多少年历史了?做一个定义啊,比如说量化我们选股票这样的。基本上也就是从20年前吧,因为像光大保德信有一个叫量化核心的公募基金。它是中国第一支量化基金,就2004年成立的。那个时候光宝的这个产品的基金经理都是保德信那边拍过来的,算是老外了。所以那个时候算是中国第一支量化基金。那么后来随着一些知名的量化从业人员的回国,量化慢慢慢慢发展起来。到目前为止的话,也就是20年。其实发展最快的,也就是过去的10年。从估值期货有过后,量化的发展速度会加快,大概这样的。

[田大伟] 能不能帮大家简单划分一下阶段?我们可以从它的量化投资方法,我觉得可能更好一点。初期的量化投资,比如说在10年前,15年前,还是一种基本面投资为主。对一些基本面的维度金打分。得分越高的股票作为一个组合,我就去购买。还是一种比较朴素的数量化投资。后来的话可能就会比较系统化。系统化就体现在我会研发一些所谓的α因子。这些α因子的数量就会越来越多。同时我跟很多的基准,比如说300,500,都是各种各样的基准,之间做一个匹配,甚至是一对一的匹配。这样的话我就是每一个基准,什么300,500,我都会匹配很多的α因子。每个α因子匹配过后都可以看作为一个300,500的增强的模型。而这一下的话就会有很多的模型储备。

[田大伟] 这个时候就靠一套编程的方法,帮着整个一个过程每天自动化的去运行,去跟踪,去计算。这个时候可能就是系统化投资的一个阶段。现在的话呢,最近的几年,可能五年左右的时间,像一些算法交易,像积极学习的模型的应用就会更多起来了。从练化投资方法这个角度来看的话,可以分为这三个阶段。

[厚望] 听起来是越来越高大上了,或者越来越复杂了,但这个超额是越来越好挖了,还是越来越……

[田大伟] 超额坦虑地说,最近几年超额下降的还是比较明显的。是的,因为15年16年是股灾和熔断嘛,那个时候去练化师母就开始崛起了。练化师母的话,它的限制相对来说少一点。它可以用到很多的高频数据啊,交易系统。它也不需要用公募常用的O32,它有一个比较快的高效的交易系统。所以那个时候的话,市场的参与者相对来说也比较的少。同时像高频数据Level 2数据,也就是从15年代开始交易所的开始提供有的。所以那个时候的话,师母就开始崛起。基本上到2021年,这是我大致的一个自己的感受。应该是量化的一个高峰。你看他们的不管是管理规模还是业绩,基本上在2021年的时候都是一个高峰。最近这几年的话呢,整个超收益整体来看,我个人感觉是下了一个台阶。

[田大伟] 但是呢,像500、300这样的宽地指振的超额还是比较明显的。

[厚望] 你刚才频繁的提到了因子,能不能用最通俗一种的比方,给大家克服一下因子到底为何?

[田大伟] 因子就是一个投资逻辑。但是呢,你可能需要用历史数据做一个检验。举个例子啊,比如说大家常说低估值的股票往往会具有超额收益。如果你有这个理念的话呢,那么你每个月都可以在月初的时候帮全市场的股票的,假设以PB为代表这个估值因子计算一遍。每个月月初计算所有的股票的PB因子,跟这些所有的股票的T加10,比如说T加10时刻的股票的涨跌幅。你做相关性的检验。如果相关性检验的话,你可以每天都这样做。做出来这个相关性的这个值,画一个累加图。如果这个累加图持续向上,说明PB这个因子值和股票未来的收益之间持续的一个正相关。有这个结论过后的话,你就去购买这个PB低的股票就可以了。对吧,TB的股票作为一个整体是可以带来超合收益的。

[田大伟] 这是一个想法需要数据验证。往往这种单因子PB因子效果并不可能理想。所以你可能要跟其他因子做混合,做组合。同时也要在更加严格的环境下做回溯。比如说你帮它控在互生300这个成分股范围之内,显然要求它有规律性,有正相关性的这个难度就会增加不少。如果经过这种检验过后,这个因子都有持续的这种正相关,或者是负相关这种规律,这就是一个好的α因子。我们的工作其实就在寻找这些所谓的α因子,不管是单因子还是做组合。

[厚望] 比如说我们一般看市场可能会有一个监控面板,听起来感觉好像一个一个因子,好像就是一个信号器一样。告诉你它是否现在有效,或者什么时候失效了。通常量化不是这样做的。

[田大伟] 我们量化的话就是帮一个复杂的事情简单化,就是我们描住一个基准,比如说这个基准可能是A500指数,也可能是互生300指数。我们就要寻找哪些因素会引起这个指数的波动,比如说这个指数的行业分布,市值大小等等之类的。那么我们就要在这个成分股里面构建一个新的组合。比如说A500有500支股票嘛,成分股有500支,我们需要在500支里面寻找一个新的组合。这个组合能在行业市值这些方面,跟我对标的这个指数的成分股保持一致。这是我的第一步。那第二步的话呢,如果说我抽取了一个组合,在这方面跟我对标的指数一样的话呢,这两个指数,两个组合就像双胞胎一样,同涨同跌。因为它在很多的风险方面都一样嘛。那我收益怎么来呢?我收益就靠我α因子。

[田大伟] 举个例子,假如说刚才的估值因子就是一个估值越低,收益可能越好,就是一个α因子。那么我就需要我抽取了这个组合的估值,比我对标的这个A500的成分股估值要低。因为我知道估值越低,越有收益嘛,最终就有一套数学上的优化算法。这个算法的最大化就对我α因子得分。同时帮一些行业市值这样的作为我的约束条件,来生成我的这个组合。这种组合的体现的特征就是我的α因子,跟我对标的指数拉开差距。同时在一些行业市值风格上面保持一致。这就是我们的最基本的方法论。所以我们不太看,比如说哪个α因子这个时候有效或无效,或哪个个股会怎么怎么样,或市场风格会怎么怎么样。我们只要保证我们在研发过程中,我们寻找的α因子,或者是混合的α因子,

[田大伟] 作为一个整体持续有效就可以了。当然一个α因子它很容易出现回撤,在某个阶段。这个时候你就要看你的α因子的回撤,有没有超过历史最大回撤。如果超过历史最大回撤的话,你可能这个因子就会比较严峻的挑战。如果在历史的最大回撤范围之内,那么它仍然可以去使用。这有一套方法论和管理流程来规范的。

[厚望] 那是不是一个α因子失效,这个事本身它也是有巨大价值的,说明市场状态变化了,或者说你们某些地方就出问题了。

[田大伟] 通常我们希望我们找的α因子它是持续有效的,但这是有一个度,什么叫持续有效。所以我们在找α因子的时候,我们会做一个流程,就什么样的因子我们会层层的入库。一般来说像估值这样的因子,我们会定期跟踪,定期做刚才讲的那些检验,但是我们检验的指标会非常多。我们都是编程,自动化完成。定期检验过后的话呢,形成一份报告,这个报告也是自动完成的。好的因子,比如说它的IC标准在定范围之内,我们可能会逐日的跟踪,就每天就会计算这个因子值,每天都会计算相关的检验指标。如果我们跟踪下来,我们都有周报嘛,每天的一个评估指标嘛,如果也比较好,那么我就会对这个因子拿出来做大,单因子的增强模型。单因子的增强模型都会比较耗我们的时间和支援,

[田大伟] 但是我们觉得也是值得的。单因子的模型呢,我们也会每天跟踪它算出的这个增强模型的业绩。那么这就有一套流程对因子的一个评价,因子就会有等级。好的因子我就会拿来做模型,做模型的话我就会做因子混合。我尽量的在基本面因子,高频因子和机体学习类的因子里面做一个搭配。那么我混合出来的因子,它的稳定性应该更好,相关度也跟其他因子更低。像这样的因子我们才做实盘。所以你看很多家的因子挖掘都非常多,上千个甚至更多的。所以我们最终上实盘的因子,它就是通过严谨的数据的检验的。基本上一个因子在过去的,我们一般做过去十年的维度,它的跟未来收益之间的相关度,就是比较持续的稳定。我们才会去用它,经过这套流程来管控因子。不会有一个,

[田大伟] 比如说你遇到一个估值因子或引力因子,单映的看,它跟未来收益之间的相关度是很差的。甚至一段时间就相反的。这也是我后面想追问的一个问题。

[厚望] 尤其在A股,大家养成了一个审美,肯定是偏好低估值的,或者有一定安全边际的。那这个事,它和未来的超额,或者跟未来的阿尔法的相关性高吗?或者在某一个时间尺度内,它的相关性高吗?不高呀。

[田大伟] 所以我们量化就是要做因子混合,定量的用更多的数据。大家老是强调,基本面要有逻辑。其实我个人感觉,现在基本面因子的挖掘的,我们花的时间很少了。因为基本上那些基本面因子,我们都已经在很多年前,都已经过滤过一遍了。因为我们会用量化的方法编程,效率很高的。我们现在更多的去寻找一些高频的量价,就是珠碧成交,珠碧委托,做出来量价因子和机器学习类的因子。这些因子,特别是机器学习类的因子,它也许没有四个黑箱,但它的实际效果就是不错。我们然后花很多时间和精力做因子的混合。这个是我们追求的,最终我们看的是结果,就是这个模型的业绩。对公募来讲,你的交易不能高频,但不意味着你不可以用高频因子,对吗?这个是怎么理解高频?

[田大伟] 就是说高频因子它是这样的,比如说我们看行情,你比如看万德或铜花顺,你看到五档行情,买一买买三买四买五,这种数据都是level one的数据,或者是三秒钟一笔的快照数据合成的,算是引力很高了嘛,三秒钟一笔的数据,但是实际上我们用的数据频率更高,我们是level two的数据,就是足笔成交,足笔委托数据,这个都是可以购买得到的数据。这种数据它频率是最密切的,但是我们会做降频,我们会帮它处理成这种分钟数据,分钟数据就可以生成是日频的数据。比如说我们用积极学习的方法,我们预测的那个目标值,也是未来一段时间的股票涨跌幅。我音质是未给模型的可能是分钟级的数据,或者是30分钟的数据。我不用积极学习模型,比如说我这普通的高频量价,

[田大伟] 我就会帮那个数据降频,逐笔的降成分钟的,分钟的降成日度的,然后再去做。它也是个日频音质,这里面大家会问,最终也是日频的对吧,那有什么价值跟其他日频,那完全不一样的。那我这个就可能是半小时的量价,比如说有个音质挺有意思的,量跌价说股票可能会反转,作为一个组合。那我这个量和价,我就不是这个股票当天的成交量和成交价,我就是我抽取出来的大单的,就是我通过足笔成交作为委托,去发现哪些单笔的成交量比较高,我认为它是个大单,大单的背后的信息含量更高,这个股票当天的量和价,都是由这些大单组成的量和价,那个信息含量是完全不一样的。明白。所以最终也是一个日频的音质,但是我这个日频音质的信息含量和它的内涵,跟普通的量价因质是完全不一样的。

[田大伟] 所以我们会通过这种方法,来帮这种高品音质给它纳进去。

[厚望] 股民肯定不具备以上的能力嘛,那如果我还是想说我低估,那我把时间拉得足够长,能等待这个低估的回归或者有效一些吗?其实可以啊,

[田大伟] 低估值的风格其实是比较好的,但是这个低估值的风格到底怎么定义,比如说你是用PB还是用PE,那PE的E你是用过去的盈利,还是用未来的一致预期的盈利,这个都是有讲究的。我觉得更重要的是,这种音质这种风格的选择,它是一个组合的概念,这个一定要跟大家讲清楚。它并不是说这个A股票比B股票的估值低,那么A股票就比B股票要好。它是说作为一个组合,如果你帮整个市场5000只股票,你分成5组或者10组,PB低的那一组,长期看会比PB高的那一组要好,这个是大概率的一个规律。这也是长期和整体组合的概念。它在个股上面,其实是不太实用的,因为个股的它的风格特征,各种各样的属性是很复杂的,但是作为一个组合就可以对冲,最终PB的特征就可能会带来显著的收益的变化。

[田大伟] 所以这一点要强调的,所以我们量化并不研究个股,我们量化研究都是组合。明白,你们因子库的体量大概是怎样?因子库的数量,现在我们的因子库的定期跟踪的大概是超过1000个,每天跟踪的大概是有超过500个。其实我并不觉得这个因子的数量是最关键的,因子的质量以及因子怎么是帮一个差因子变为好因子的流程是很关键的。像技术学习类的遗传规划,它很快很快一天都能发掘上千个因子都可以的,但它的因子的质量不高,通不过我们刚讲的各种各样的检验,或者是说它的相关度跟其他因子非常高。这种我们都不会入库的,都不会入库的。我们也讲究因子的逻辑以及因子的实际的效率。只有好的因子,我们才会去比较细的做跟踪,因为它会占用我们很大的计算资源。

[田大伟] 我觉得因子的质量更重要。那你们策略储别大概?我们现在每天跟踪的因子是有500多个吗?我们对标的基准,比如说各类指数大概有30多个。比如说像我们常见的中正500,互生300,A500,一千两千,创业版,科创版,红利,这些指数我们都是有30多个。包括我们自己之间的因子库,国票库。那么我们每一个因子和基准,我们都会做匹配,做相关的增加模型。因子之间也会做混合。这些都是我们系统自动化完成的一个情况。那如果你通过数据的量来看的话,那就是以T为单位的这个因子值和这个模型的这个数量。

[厚望] 目前量化交易占A股每天的日程交流量的比重大概是多少?

[田大伟] 我没有具体的数据啊。这个当然你要看量化交易到底是什么样的量化交易。大家老是说的那种高频程序化交易,不在我们公募的策略范畴之内。我理解的高频程序化交易,它是依赖于速度来挣钱的。就是说你这个策略,如果速度不够,你就不能挣钱了。换句话说,它是行情触发的买卖信号。就是行情来了,那一刻的行情会触发买或卖。是那一种。像我们公募都不行的,因为我们公募的交易系统必须过O32。所谓的O32就是一个联合分控系统。就是说你要跟其他的产品之间做联合分控。这个时候你的交易速度就会下来。这种策略显然都不适合于公募,或者说不适合使用恒生O32系统的这个管理人。那么我们公募是绕不开这个O32的。

[厚望] 在这个约束下,你们的交易的时间尺度大概在什么频率?

[田大伟] 所以这里边要可以细讲,假设我们的比如说买卖的目标组合是当天晚上形成的。假设是这样。那么我这些目标组合,我需要在第二天成交。这个时候我也需要有算法交易的。比如说我这些单的几百只股票,我几百只股票我要成交,我需要有一套算法。这套算法比如说我需要这些股票在未来的一段时间,比如一小时均匀成交。我希望我的成交价是未来一小时的平均价。这个算法是透明的。你就需要帮你的买卖量,按了未来一小时均匀的下下去就好了。和我刚才讲的靠速度挣钱的高频交易,本质上是完全不同的。我这种算法交易的目的是什么?目的是希望我在未来一段时间均匀成交,拿到均价,提高我的交易效率,降低我的交易成本。我的目标组合是头天晚上就生成好的,我只是帮它执行掉。

[田大伟] 而前面说的高频交易,它是依靠速度行情触发来挣钱的。

[厚望] 能让我感受一下这个所谓的速度的时间尺度吗?

[田大伟] 速度呈现尺度的话,像前者的高频交易,像T0策略,它就是在一秒钟都可以成交好一笔的。我见过这样的高频T0策略,这被公募里面完全就没有见过,只有在私募里面才有。像我们的公募里面下单,这个算法交易,那么在某一刻中三百只股票的报单也是常见的。其实也不是量化,像有些公司据我所知,个股的买卖也需要使用算法的,比如这一只股票它的量比较大,它也需要刚才讲的这种算法,时间加权的算法,帮它去消耗掉。它的目的就是为了降低这个冲击成本,提高交易效率。

[厚望] 很多人说量化会利用人的行为偏差来获利,你能举几个例子让我具体感受一下这种?是呀,

[田大伟] 我们量化的话就是靠最量化的因子抽取一个组合嘛,这个组合抽取过后呢,我们就是完全的买卖,对个股不多人为的干扰,除了那个个股它有些黑名单,或者是一些事件,公司层面的要求剔除,除此之外我们不会对个股做干预的。所以它就克服了这个情绪的变化,那么我为什么去买这个组合?那是因为这个组合的历史回撤的过程当中,这个模型就是效果比较好,历史回溯业绩比较好,我就去购买它,这个过程当中我是没有情绪的干扰的,那么在构建这个模型的时候,有可能你才会选择那些因子,或者因子的权重上面,你可能会有一定的主动性,主动性只体现在这个地方,一旦这个模型成熟了,通常我们一个模型都会这样去做,比如说用15年到2000年的数据来确定一组参数,

[田大伟] 然后用2000年的数据到23年的数据来确定这组参数的稳定性,如果在我们的前面的这个数据和这个后面的数据时间段里面参数结果都比较一致,那么我们用一些实判,所以一旦这个参数确定过后的话呢,我们就对它的生成的组合不做人为的干扰,这就跟情绪上完全不一样。

[厚望] 你那个确定这种某一个时间段和过去一个时间段的相似性的参数的体量大概是多少?

[田大伟] 一样的呀,就是你训练级和你验证级的那个模型参数完全一致的,只是数据不一样,一个数据使用训练级数据就更老了,比如说刚才15年到2000年,验证级的数据就是2023年,它只是数据不一样,模型的其他方面一定是完全一样的,那我们上10盘也是完全一样的。

[厚望] 我刚才为什么问这个呢?因为我想起来,比如说9月份的时候大家说,嗯?比较像519行情,现在马上要12月份了,大家又说现在像14年的行情。对,股民也会有在脑子里面主观的一厢情愿的去做这种历史相似性的比较。我想知道作为您一个量化人来说,您看到这种观点,您的内心的真实想法是怎样的?

[田大伟] 我觉得输入也有专攻,有些人确实能够到市场上博取相应的收益,但是这个不是量化擅长的,量化的方法的话呢,是寻找一个大概率的规律在未来能够复现。所以它天然需要的样本量很高。比如说你看到量化模型失效在什么时候,往往在市场大涨或大跌,这种情况下量化模型会失效。为什么呢?因为这种情况在历史上虽然的概率不高,不高的话模型都学习不到,但是我们认为这些东西它是个小概率事件。我只要帮未来的行情,大多数的行情能够覆盖住,事物的模型有效就可以了。所以我觉得有些人擅长某些领域的一个投资,但量化模型它有它自己擅长的地方,我们各自做好自己的工作就可以了。

[厚望] 所谓的尾部事件或者尾部风险,比如说今年二月份的,我特别好奇这种尾部风险它是不是有多种情况呢?还是说主要就是以流动性风险为主?

[田大伟] 今年二月份我觉得并不完全是这样。今年二月份的量化的回撤主要是风险管控上面的问题。可能某些机构它为了追求收益,它的持仓的范围涵盖了很多小微股票。比如说作为一个中正500的指数增强,成分股就500个。如果你把你的持仓严格控制在成分股发盘之内,你在二月份不会出现这么大的回撤,甚至你还是有超额收益的。假设你的持仓平均市值和中正500都一样,大概200多亿平均市值。你认为你的市值这个风格就中心了吗?但是你的持仓的结构非常偏离,比如说你可能持了一千多只股票里边有百分之二十三十的,都是中正2000甚至更小的股票。中正2000平均市值才40亿,小微股票更小。如果你作为一个整体你是200多亿,但你的持仓的结构非常分散。

[田大伟] 当这些小微股票出现踩踏的时候,你的模型出现回撤,那是什么问题?那不是量化方法出现问题,那是因为你的风险管控,或者是你的产品选择问题。所以你可以对比一下公募这段时间的,中正500或者是300的增强模型,还是有超额的。那么我觉得更好的一个例子,就是9月底和10月初这波大涨,从9月24号开始到10月8号,这个时间你会发现,基本上量化的指针产品都会出现明显的回撤。它即使你在成分股范围之内,你也会出现回撤。这个更好的解释,这种大涨是很少见的,当天指数都有可能会涨停那种。您指的回撤,

[厚望] 真的是回撤还是跑输?跑输指数,

[田大伟] 我的回撤都是指增强模型的超额收益。就是负α。对,就是α为负。我们其实量化就是不太看β,只看α,所以2月份的回撤也是指α回撤,9月底到10月份的回撤也是指超额收益的回撤。那么两点回撤概念完全不同,2月份是一种风险管控的问题。9月底10月初的这个确确是量化模型的一个短板,就在这地方。但是我们理解为它是一个很小概率的事件,历史上出现这种幅度的上涨或下跌的概率很低。

[厚望] 所以尾部事件它只是说概率低,你没见过,但它的表现形式可能是多种多样的。对,

[田大伟] 它的触发的因素是多种多样的,比如说像2014年的12月份的银行股大涨。对。市场上的对通产品的平均回撤也有8个点。只剩那个时候大股票很好补回来,没有踩踏的行为。量化的问题就在于,它是追求一个大概率能够成功的规律。它需要数据,需要按例点的保证积累,一些小的事件的发生,它就会产生问题。

[厚望] 我们说A股的牛熊周期,在你们看来是不是说,就是越偏宏观的事,它的数据点其实是越少的。所以我们更需要人类。

[田大伟] 没有,所以我们就不择时,我们对行业也不择,对这种仓位也不择。我们认为择时,在我看来,我认为有些人是可以做出的。特别是在这种持有人的角度,你如果判断好市场的方向,你就应该置心合一。这个我觉得也是正确的,但是刚讲数据有专攻,这种择时对量化来说,就是有严峻的问题。因为按例点太少,比如说你置硬币一样,你置十次都猜对了,第十一次你能猜对吗?我看过很多量化择时模型,它们的效果都很好,但是问题也很明显,大多数都通过牺牲这个按例点,来提高你的命中率。我觉得你的按例点数量少于30个,这个择时模型都不值得去信赖。量化有一个理论的公式,就是你的最终的效果,等于你的能力乘上你的宽度,开个根号。宽度你就可以视为股票数量,

[田大伟] 或者你择时的次数。择时开个根号过后,天然的这个就很差,很少。股票如果你在500,1000里面选,开个根号也是很多的。所以我们不择时,所以我们做指针,仓位就是满满的,我对行业我都不偏离。

[厚望] 这也是我现在想问的,你做指针不择时,我完全能理解。你做指针的时候,连行业都不去做偏离,那意味着你只在个股上面去做偏离了。我们以鸿利或者是A500为利,你可以带着例子给大家展开讲一讲。好呀,

[田大伟] 比如说你A500这个指针,那么在产品的运动的初期,我可能更严格,基本100%来自于成文股。但这种情况下,我像2月份的内部回忆车,就不会出现了,因为我成文股约说很紧嘛,对吧。然后在行业层面,我就是中性。我这个中性的话,并不是说像大家说的,是一模一样的那种。比如说我们以行业,它有一个中性行业分类,或者生亡行业分类,对吧。你有一个参照,比如说还有一级行业,二级行业,一级行业大概有30个嘛,它每个行业有个比重。我的中性的话,就是我的持上的行业的比例,和我对标的指数,在一个非常窄的范围内。在你写程序的时候,你不能写等号,要求我的组合,跟我对标的基准,是等于它,你的程序就无解的。所以它是一个非常窄的范围,比如说0.05,

[田大伟] 或者是0.05,这都很小了,对吧。有一个优化空间,这个时候,在我们的统计意义上,这个时候,法律合同并没有规定,你要和行业中心。你可以帮你的行业约束,每个行业从0.05%扩大到1%,也是可以的。这个时候,自然会有些行业,超配或低配,在上下1%这个幅度里面。但是,这里面有一个非常核心的问题,这个行业的超配和低配,并不是我主观的,对这个行业,它的未来的涨跌,做个判断得出的。而是说,这个行业的成分股,在我最大化这些α因子的得分上,这些行业的成分股,就是比其他行业要好。这个行业就自然的超配,那些成分股的α因子得分偏低的,它自然的这个约束空间里面,它就低配。所以这个是我们量化的一个规律。当然,我也知道很多的同行,

[田大伟] 他会主观的,对一些行业单独建模型。但这个就是说,大家各自根据自己的相对优势来做。就是大家方法论选择的问题。对,像我们就不太对这个行业做主动的,或者是单独的建则式模型,因子也是一样的。

[厚望] 我理解大家做指增,可能就是两个思路,或者是两个思路都要用。要不然是中观上做偏离,要不然是微观上做偏离。

[田大伟] 像我们的偏离,就像我刚讲的,首先你可以列为我们就是行业风格上不做偏离,我们会在个股上做偏离。个股,我虽然都是来自于这个成分股,可能中的A500有500个成分股,我可能最终的一个模型有200只股票入选了。200只股票它的权重,跟它之前在成分股里的权重是不一样的。但是这是靠优化算法的计算得出的。优化算法就是最大化这些股票的得分,α因子得分,自然而然的给出一个权重。它不是我主观的人说,这个股票要配多少钱,比那个股票要高。就跟解方程一样,这个方程自然会给出你一个解,满足你的约束条件。

[厚望] 在个股上的偏离,具体又是怎么落地的呢?我知道优化算法,

[田大伟] 所以基本上你就不做干预了。不做干预了。不做干预啊,但是它约束条件在实操作中会很多。我刚才只讲,你的目标函数最大化,α因子得分。约束条件由你的行业中心,风格中性。但还有换手率的约束,调畅频率的约束,跟踪误差的约束,以及对单独股票的一个,权重上下轨的一个约束。这个就是每一家,每个经营经理自己的一些不同的地方了。所以在那个片里,

[厚望] 到底是更集中还是更分散,你并不太有去干预?

[田大伟] 我不干预啊,我只要看历史回溯。当我满足我的产品合同,满足我的收益目标特征的情况之下,我就完全的看历史回测业绩。历史回测业绩好,我就认为这个模型的未来,能够获取到这个历史回溯业绩,我就帮它用于实盘呀。

[厚望] 你刚才说A500,

[田大伟] 80%是?沉稳股。对,那剩你的20%呢?像我开始先期的时候,我就会基本来自于成分股,保持更加的稳定。后期的话,你就是做一个扩展。比如说你扩展到在A500的市值周边的,比如说到800或者1000,这个就是你自己的定义。这里面其实是蛮有讲究的,也涉及到一些核心的东西。对,就是我说的不能料太具体。也不一定呀,方法论就很简单,就是你要造个股票库。这个股票库的股票数量要稍微增强一点,但是你的历史业绩不会比你A500要差,这么一个股票库。最后股票库的目标就是这个。因为股票的数量越多,按照刚才讲的那种公式,效果就越好。但是你造个股票库的逻辑又不能太复杂。太复杂过后,你后面的增强就很差了。当然你知道的股票库的业绩也不能比你的原来的股票要差。

[田大伟] 所以造了这个股票库过后,你可以在股票库的范围之内,把20%的仓位放过去就好了。

[厚望] 那你觉得咱就说,比如都是跟中A500的支撑。大家的这个Alpha的差异的这个胜负手,这个胜负手是在那个80%那儿呢?还是在20%这儿呢?它应该也是一个历史数据告诉你的。

[田大伟] 关键在那个Alpha因子上。其实我们做Alpha因子检验的时候呢,我们就会很严格,就是这个Alpha因子在全市场范围内是怎么样的。在2000,1800,300,500是怎么样的。我们认为一个好的Alpha因子,应该在各个范围之内都有规律性。其实一个因子在一个群市场范围内很容易有效的,但是在300,500的范围之内就不是这样的了。

[厚望] 在某一个特定市值约数内特别有效的Alpha,如果在其他地方并不有效,你并不认为它是个好Alpha是吗?对啊,

[田大伟] 那看我的产品,你在全市场有效的因子,你在A500上不一定有效的。所以这种情况之下的话,如果我按照这种规则挑选出Alpha因子,即使我的成分股20%是来自于成分股之外的,那么它仍然是比较不错的。这就是看你各家每一个人是怎么把控你的因子了。我自己看过300,

[厚望] 500,1000,2000的公募的指增,我发现一个特点,就是当我把他们业绩曲线全部都放到一块,我又发现300的超额,大家是没有那么夸张的。对啊,但是市值越下沉,到500,到1000,到2000,非常大的Alpha的区别。

[田大伟] 是这样的,按照刚才的理论公式来看的话,正常情况下的话,股票数量越多,你可能效果会越好,这个长期大概率是这个分布的。就是广度越大,理论上的Alpha空间是越足的。因为你的Alpha因子的这个效果会越好,你寻找一个大概率的规律更加稳定,你在一个很窄的范围之内,比如说红利,你很少听到哪家实母去做这个红利增强,也有,但是很少,它特别受某只股票的干扰,你这个股票你配不到,或者这个股票受它特定时间的影响,超数也就产生不稳定。所以你需要股票数量进行对冲的。

[厚望] 既然是我们继续聊聊红利的增强,因为你也有相关的产品吧。对。那红利的增强,你的思路是什么呢?

[田大伟] 红利增强,其实我们跟500增强和它的共用一套体系,很多的Alpha因子也是共用的,但是有它的特殊的一个地方,比如说我们有一类Alpha因子在500里边就不太会用,但是在红利里边我们就非常重视,就是对上市公司它未来分红金额能否持续的建模。这个是我们觉得很重要的对红利这个资产的一个Alpha因子。你看美国的那种大的红利ETF更多指数它的编制方法,基本上都强调它的这个分红金额要一年比一年高。因为它红利资产之所以受欢迎,就是因为它是要每年分派股息,你不能说今年分配了,明年不分配了,那你的红利资产的本质属性就降低了。但是如果在中国市场你强调分红金额连续增长,那么它作为一个组合,它的股息率就会降低。全市场里边你先按股息率排序选100个,

[田大伟] 那么股息率可能就无连几。如果你说先强调连续三年分红金额都连续上涨,然后再在里边挑选100个股息率最高的,那你的股息率就要小很多。所以这个时候你就需要量化方法来对股息率能够持续增长建模。这个就是我们在红利里边比较独特的一个地方。

[厚望] 因为分红这个事它有可能是分红比例的问题,分红意愿的问题,这些事都能。所以你要建模呀,所以你想那些研究公司派的人天天在那琢磨,然后看,跑调研。对呀。那你们远程就是通过数据也能部分逼近这个事吗?

[田大伟] 你想想我们有一致预期数据呀,他们分析师写的报告里面不都会对这个上车公司未来的业绩做一个判断吗?

[厚望] 你给分析师的一致预期的这个数据的置信度高吗?

[田大伟] 那你要看你的处理方法,有很多方法可以处理的。比如说一只股票,覆盖度有10个分析师覆盖。每个分析师都会对这个股票未来的业绩做一个值。这个时候我就需要对这些分析师做一个付权。这个付权怎么付是非常关键的。你怎么给他付权?有很多的文章已经做过研究了呀。比如说这个分析师,他的从业的时间长度,团队大小,覆盖的股票数量,还有他过去预测的准确度,你都可以做检验。不是说他拿奖了就一定好的。逻辑上会影响他盈利预测准确度的这些指标,维度,做一个统计,自然会得出哪些分析师可以给更高的权重。最终你通过你的权重,再给大业分析师对上市公司的盈利预测做一个付权。那么你这个业绩的准确度就会相对的提高。所以它是有一套标准的方法和逻辑处理的。

[田大伟] 当然也不一定完全准确。我们并不强调单个股票的准确度,我们是强调一个组合。就我做出来这个盈利帧数高的组合,准确度要比我的成分股高。就行了。所以量化的本质你一定要盯住。我是有个参照的。我有个参照,我相对来说就好做很多。

[厚望] 我再问一个细节问题。大家买红利其实很多时候也是相当看重股息率的分红的。对。那对于比如说红利增强来说,我能拿到那个股息吗?红利增强能拿到股息?

[田大伟] 并且红利增强的话可能会比ETF更加的好一点。因为股息有股息税。在初天日的那一天你的持有的股票市值就会分解为扣掉红利那一部分的市值以及分红的现金。并且现金部分还要纳一部分税。其实我们是做个研究的,很多股票在它初天日之后的股价表现作为一个整体会弱。这个时候你不如在初天日之前给它卖出,这时候你还不需要纳红利税了。对吧。我们量化方法可能这方面更加的灵活。因为你是ETF,你是指数的,你的成分股不变的情况下,你是不能轻易的买卖的。但我量化的可以做的点事情。当然它也是双人件,也可能会产生过多的交易费用。就看你模型的准确度如何了。那是不是比如说红利增强它的交易便利会更低一些?那显然是这样的。因为红利增强的难度其实是比较高的。

[田大伟] 因为它的成分股很少。它对它的很多的交易因子,机器学习的因子在红利上面都不太有效。所以分红金额可持续增长建模就很关键。这一类的这个因子,在A500上面用的就比较的少。那基本面因子在红利增强这个领域,大家还能卷出来什么差异吗?就是我刚才讲的呀,那个就很关键。因为你对分红金额可持续增长建模,分解下来就是,这个上市公司它首先需要盈利增加。同时股息支付率,就是分红的意愿要稳定。那么就分解为两块了,对盈利的预测和股息支付率的预测。盈利的预测,你就可以进一步拆解,除了用到这个上市卖方的一致预期数据之外,你可能在这个上市公司所处的行业,比如说它资本开支,资产负债率,它处的阶段做一个分析。就是你不断的延伸。

[厚望] 诶,处于阶段的这些,这是人的来定,还是数据来定?

[田大伟] 所以越往基本面分析的话,你对数据的这个数量有一定要求的。但是我们不可能用人为来判断,你还要基于数据,那数据要可得,比如说它的资本开支,资产负债率,这种数据你就可以用上。再细放下分的话,就可能越来越难。

[厚望] 就是在红利增强上,你会做行业上的偏离吗?也是一样的,这个是我个人的一个。

[田大伟] 方法论的选择问题。对,或者风格,我是偏保守的,我需要我的产品有长期持续的超额,对我来说更重要。那么我就会对这种成分股,行业非常看重。但是红利这个产品,它不是标准的指针,它是一个主题产品。我的考核范围,也有很多红利的主动的产品。那么我在这个行业偏离上,就会比像A500这样的,应该来说有更大的空间。合理的。对,但是像我刚才说的一样,我并不擅长对这个行业,做那个单独的涨跌的判断,从来哲视。哪怕是我这个行业,在有超配和低配,也是因为我的约束条件,从0.05%放宽到1%,有些行业就超配到1%,或低配到1%,还是因为它的成分股的α英尺的得分高所超配,或者是低所低配,我不会主动的去选择。

[厚望] 我站在机民的立场再问一个,指增肯定是在β的层面做α,但这是你的工作。对,对投资者而言,比如站在当下这个时点,如果我能选出来一个未来表现更好的β,其实是事半功倍的。所以我想问β则是难吗?或者说不管它难不难,我是一个投资者,当我要买一个公目指增,那我必然要面临的一个问题就是,比如说红利,变弓混合,300,500,500,12000,我总得选吧,你有没有什么思路,能帮我去做这个决策,给我一些思路。

[田大伟] 好呀,也不妨分享一下个人的经验,市场上的话,比如说这种红利,拉长看的收益就比较不错,红利资产,红利的全收益指数,比如说价格指数,它基本上是一种类绝对收益,它在18年也会跌10个点以上,但是拉长看,它只有类绝对收益属性,所以这一类红利资产的本质,还是它的低估值,高盈利,这一类资产的话,持续有长期配置价值的,如果你做一个资产的配置,在个利率下行的年代,帮你的资金配在这个红利资产上,不管是国际,国际还是国内,都是一个很好的选择,我根本是想理解的。还有一类,因为红利资产落到行业层面,你会发现它有银行股占比过高,大家可能会觉得,单个行业的占比过高,这个时候还有一类策略叫PBIOE策略,你都帮全市场的IOE,

[田大伟] 大于15%的股票拿出来,再在里边按照股息率高低,寻找股息率高的一半,简单的一个划分,你会发现过去几年的业绩也是很不错的。

[厚望] 为什么18年之前和之后,就这个红利,它这个股息率有如此明显的抬升?

[田大伟] 对啊,股息率水平应该处在历史的一个高位,对吧?虽然最近一年多有点往下,但真的来讲还是一个高位。是。这个是根据上市公司的它的成熟的程度,以及这个监管部门对这个分红的强调,是有密切关系的。你看一下那个分红的上市公司它的种类,分红最高的就是银行,煤炭,煤炭,公用事业,通讯商,这些板块。四大金刚。对啊,这些行当它就是一个也是有央企国企背景的居多,同时它确实处在一个比较成熟的一个行业里边。随着我们国家的这个股市的发展和数量,和对这个分红回购的这种重视程度,它自然的就会提高。我觉得这次的一种趋势,未来可能会很高。其实我估计比较我们上市公司的每年的分红的次数,数量,行业分布,其实都有提升空间。其实我们现在这方面还在大步向前的一个阶段。

[田大伟] 你看美国的那个红利ETF单支规模都是大几百亿美元的。是。因为分红确实它每年都有一部分的落贷为安。整个利率这么低,越来越低,现在我们的央行的政策帮助房贷利率降低了。你到时候的那种收益,比如说存款的收益,可能还跑不运通胀。这个时候你不得钱做一个配置盘。配置啊,我不是说你所有的钱,一部分的钱,你去配什么?你去配红利资产。红利资产的波动也许短期看略微大一点,但是拉长看,它性价比就很高。所以在国际市场很多人,就是帮红利资产当做工资的订投的很好的一个资产。每个月我就订投一部分,那么它的最终的结果也就不错的。所以在这个利率下行的大的背景之下,在我们国家上市公司分红的这个质量,越来越高的情况之下,红利资产的配置价值是比较好的。

[田大伟] 也许你看到比如说过去一两年,特别今年红利资产涨了很多,对吧,你觉得会有担心。这是你看一个比较窄的一个,比较短的一个市场。而我们的产品的生命力在于更长期,我们都是要长期的规模不断的上涨的。我们不是说看很短,从这个角度来看的话,红利资产它就是比较好的一类资产。

[厚望] 那我继续问,因为18年那个上台阶,导致很多人喜欢通过股息率的百分位来判断,它就导致你怎么看它都是低估的,但因为它股息率比较高,在高位,你怎么看它这种,因为它是有一个特别大的像变异一样,就是18年之前和之后真的是完全两个阶段。比如说我看我这个股息率百分位,那我是否还要去看18年之前的呢?还是?

[田大伟] 这个问题还是在于你做一个简化,不能看个股,还得看组合。这个组合你就标注一些核心的指数,比如说中正红利指数,中正胡港生高股息指数,这些指数就是在A股或者港股里面,股息率最高的就是100个股票,简单看就是这样的。那么就是这个市场这个时间段,股息率最高的股票。历史上它可能股息率整体有个跳跃,没有关系,但是我就跟股息率低的那个股票进行比较。我帮我股息率最高的100个股票作为我的成分股,这个指数过去的表现就是相对比较好。大家常看,也有些时段不好,那么就可以了呀。你如果是看单个股票,某一个时间段确实是,但是你要这样角度看的话就简单点了。

[厚望] 比如神奇公事这个标准,你们自己回测过吗?

[田大伟] 回测过啊。效果很好?对,做得不错的。就是很简单的一个标准,不错的,大家都可以去测。或者说它的风险收益特征是还OK的。可以OK的,你可以回去自己做个检验。像这一类的话,它就是平衡型的,估值也低,因为最终在ROE高里面去找股息率高的股票嘛。ROE高它这个竞争力就比较强,ROE高的里面在寻找股息率高的,那么估值上面又有相对的优势。这个拉长看是不错的。还有一个就是宽基。宽基的话,好处在于它的超额更容易做,更好做,它超额会高。像这几类,都是投资者去选择β的我的一个建议。我觉得我应该当然的话,就是谁更好的这个想法。也不用太别的敏感和建议,这所有的一切都是历史数据的一个结果。未来会怎么样?我们只认为我们过去的检验,

[田大伟] 它没有用到未来数据,它在未来就应该能够延续。但是所有的好和坏的评价,都是基于历史的数据。

[厚望] 我发现我聊过的所有的做量化的老师,都有这个特点,就是特别偏本能的去价值观。

[田大伟] 对啊,量化就是一个类工具,一个像个机器一样的,最终靠你的业绩来说话。它是一个很简单的,能够说清楚的一个事情。

[厚望] 我再落实到选择产品上。比如说,我这个变态我选完了。像我刚才说的那个工作,我把所有跟踪A500的,所有跟踪互认300的这个指增,我都列出来。我一普通机民,我的信息,还有分析能力都非常有限。但是呢,这个净值是一目了然的,然后超额是能看出来的。那我能不能仅通过我非常有限的这些能力,通过这个方法来判断,谁跟我投资价值呢?

[田大伟] 这个其实来说的话,你要看你的业绩看有多长,这个你如果看的很短的时间内,也不一定是最好的一种评判。我觉得你还是要看他的公司,相关产品的业绩,团队从业者的这个经验,以及他管的产品的业绩,都还是要综合考量的。我也觉得你要观测的业绩的变化,及时的做出调整。综合下来看,对于宽基指振的话呢,作为一个整体公募啊,超额还是比较明显的。如果你只看两个月,显然是不可取的。因为我们还是觉得我们的α因子,它是一个长期有效的。你不排除这两个月就失效。但是跟刚才讲的问题是两个问题。一个模型在过去的比如说五年里边,它是有一个明显的超额的。可在过去的五年里边,百分之八十的月份都有超额。也许第二者,它整体的超额会比第一个要低,那我可能也是首选第二个。

[田大伟] 因为它超额更稳定。这个道理就是一样,我们做量化,我们的α因子,我们就是要它持续有效。这是我们的要求。就是概率对你们是更有诱惑的。我还是希望它在未来能够持续。在未来能够持续的前提就是说,它在历史每个月份的不同的时间段,它都能够相对的有效。它未来才能够有效。你说它忽高忽低,这个月没有有效,另一个月有效了,过去五年有效。那它未来不是这样的。

[厚望] 能不能给大家介绍,或者是安利几个,判断一个公募执政产品,还能用的评判指标。比如说刚才你就提到了,这个阅读超额胜率这个指标。但好像一般的软件,也没有提供这个数据统计,可能还得大家自己去算。这个比较容易算呀,

[田大伟] 因为公募基因的净值每天都是公高的,你就拉出来看就很好。

[厚望] 还有什么类似的指标,除了像我刚才说的,我拉走势看一眼之外呢?

[田大伟] 就像我刚才讲的公司和经营经理,团队的一些情况,我觉得这些都蛮重要的。

[厚望] 那我们来聊聊你和你的团队呗。

[田大伟] 可以呀,没问题。就给大家介绍一些情况。我们团队的话呢,有几个特点还是非常值得讲的。第一个特点的话,是我们团队的个人的经验还都比较丰富,因为量化的话是需要积累的,对吧?你的量化因子,你别看你人很多,如果你都是新人,你没有量化因子的累积的,你可能每年都会挖很多的因子,那你挖了十年,那你因子的数量就不一样。我觉得应该是人数乘以你的时长,最终还是量化因为你因子的数量和质量,这是一个很重要的地方。这很量化。另外一个地方,我觉得你这个团队的配合度非常关键。你别看有些团队人很多,但还是各自为战。就是说,正常情况下,一个公司都有一个公共的因子库。对吧,我们说因子非常重要嘛,公共的因子库。这个基金经理有自己的一个因子库。

[田大伟] 自然而然的每个人,不太愿意帮自己的因子贡献出来。都想从公共因子库里面获取,而不愿意帮自己的因子交出去。这很自然而然的一个现象嘛。他觉得这个因子核心竞争力嘛。那我能通过奖励机制,把这个事摆一摆吗?你如果奖励机制,我们有一种方法,我觉得可能更好一点,也是过去跟很多拭目接触,不断地带团队总结出来的。就是我们要求就有一个因子库。大家不能有自己的,或者你的因子必须来自于公共因子库里。这个因子库我们要充分共享。我的共享是充分共享。就是说你的因子值,因子的检验,因子的代码,因子的说明文档。我都是要放在公共的服务器里面,大家都能看到,不会对某个人遮遮掩掩的。在什么地方下不共享呢?就是你用哪些因子,因子怎么付权,

[田大伟] 这个代码部分,你是可以封装的。每个基金经理,你不需要跟其他人共享。就跟大家共用一套厨房的设备一样,和食材一样。但是你最终炒菜的酌料,和用哪些食材,你是自己的。因为最终产品也是基金经理负责之。如果你的业绩越好,你自己越好。所以公共因子库的质量越高,你的产品业绩不会差的。所以它既有一种合作性,又有一种基金性的保护。在我们的团队里面,我们帮它到规则,充分的讨论,大家都认可。自定下来,我们就严格的执行。这就是我们团队的一个特征,它形成真正的团队性。规模大概多少的认输?符合这个特征的人,有四位同事。四位同事有三位,从业时间都非常长,基本上都是十年。我自己十四年,另外一个也是十多年,还有一个是八九年的。就有一个比较年轻。

[田大伟] 另外就是你的交易系统,数据,服务器,这一块。有个很重要的一个维度,我觉得大家可能是接触不到。我们这个量化,它需要一串代码和系统平台。这个每天都会自动运维。因子的计算,模型的计算,一些跟踪,都是代码自动完成的。那么这个系统的,它的稳定性,或者是出错率,就非常重要。基本上,在我第二家公司的时候,我们的系统,就不太会出错。这个就是你的,整个一个策略平台的架构问题。所以你看,我们的数据库里面,有很多的中间表,很多代码,偶合性很松。某个地方出错过后,剩下的地方还能够融错。比如说,啪,它是不能自动的识别和甄别。这个都需要你的数据库,你编程的时候,有个很好的架构框架的,来保证你不太容易出错。当你的音质数量很多,

[田大伟] 指数很多,产品很多的时候,你都会手毛脚乱。万一哪天出错了,你要去备份,你要去回滚,你要去检查,你都是很大的麻烦的。所以你这个模型架构,不容易出错。这个是考验一个团队,水平的一个非常重要的因素。这个因素的话,外界很难观察到,只有你自己才知道。

[厚望] 可以聊聊数据,你可以补充一些你想分享的。大家老是觉得,

[田大伟] 通过基本面来找些东西,要有逻辑性,当然是非常重要的了。但现在我们的很多的Level 2数据,像逐币成交,逐币委托数据,它含有信息含量是很高的。比如说,挖掘比如说机构单,大资金的成交的量和价,和你全天量和价的信息含量是不一样的。特定时段的量价又不一样,比如说收盘前半小时的信息,和你全天信息又是不一样的。这些都要通过高频数据来获取。

[厚望] 我想问一下,你这个挖是现在啊,研究员挖和比如算法来挖,AI来挖,它占比是多少,或者分布是多少?

[田大伟] 我们因此数量上面也差不多,但是我们时间分配上,机器学习模型的花了我们大量的时间,包括高频数据的处理上。其实它跟机器挖和人工挖,我觉得并没有特别本质的区别,因为那些模型也是你做的,也是你设置的。比如说我们说机器学习模型吧,我们有个机器学习模型的框架,网上很多开源的框架代码都是有限程的,但是过去我带团队,发现每个人编着机器学习的模型的代码,我都要做审核吗?不一样,看起来就会很吃力,不保证它的代码哪个地方就会出现错误,所以你需要一套框架。这套框架,你像机器学习本质原理,比如高开低收这些数据,输到模型当中,去寻找它跟未来股票涨跌,比如说未来股票10天的涨跌幅之间的关系,寻找出一个规律出来,通过训练机验证机得到一个规律定下来过后,

[田大伟] 本质上就是一个非线性的组合,你会帮高开低收做一些公式的计算,生成很多特征,比如说上百个特征,这叫做成为特征工程,帮这些特征彼此进行非线性的组合,来预测出股票的未来时间的一个涨跌幅,预测的涨跌幅在你训练数据集里边,跟你真实的涨跌幅做一个比较,它可能会有差异,然后你会调整各个参数,使得差异越来越小,最终确定一组参数,这种参数确定过后,在这个验证集数据集里边,再做一次验证,如果有效的就固定下来,这套方法论,但是你会发现它有几个关键点,首先你的原始数据要统一,你不能说A用了一组,B用了另外一组,你的特征计算怎么进行加点称除,都进行合成,你需要有个统一的公式,不是说你随便自己去写这个因子和那个因子之间,做一个证交,做一个加点称除,

[田大伟] 不用你写,你很容易出错的,比如说你的训练级,比如说15年到2000年,他可能会选的15年到2001年,这些你也不要自己写了,你就用统一的一个标准就好了,比如说你用模型,你总共生成多少个特征,这个特征通过多少轮的传递,你需要用到哪些激活函数,这些我都需要你在一个配置文件里边,我集中起来,你不要东一块西一块,这个参数在这个代码里边,另外一个参数在另外一个地方,我需要一个统一的配置文件,我要看这个配置文件,我就一目了然,最终你的模型,你要存在一个固定的地方,你能够通用一个通用的指标做展示,你不能说你展示的就是,全市场的表现情况,它展示的互生300的表现情况,我无法对比,这些都要一套框架,帮助你规范管理,

[田大伟] 降低你的出错率,以及提高你的工作效率,这些都很考验量化团队的,虽然本质的模型都说那么些,但是这个框架本身,其实就很考验你的团队力量,有很多的模块你可以调,它确实是很好时间和精力的,你看机器学习模型,大家用的,本质上你有一个博士生,或者是一个实习生,你都可以做机器学习模型的,效果也还可以,但是你想提高,你想找到你这个因子,和其他因子相关度低的模型,非常难,为什么?因为你对机器学习理论不了解,你对数据不了解,你只能会调用第三方的包,你无法改进,离开那些包,你就不知道怎么弄了,你需要帮那些包打开,模型的结构,你做一些深化,原始数据的处理方式,你做一些优化,这些你没有经验和理论基础,你是做不了的,它不像我基本面投资,

[田大伟] 我这个估值PB,有些里面现金我可以处理处理,商与我可以处理处理,这个逻辑很难很好,但是能想明白,机器学习你想不明白的,你说我这个数量从60变成100,变成80,有什么意义吗?没有太大的意义,你要知道它的后面的逻辑,然后能够得到一个精巧的提高,你看机器学习模型的一个眼镜,都是一些很精巧的一种思路,获得了一个很脏台这次的效果的提升,这些你没有理论背景做基础,你不是做很多年的数据的清洗和挖掘,你很难做得出来的,我觉得这个上面以后会蛮考验的,也不是说以后大家都用到这种方法论,用到这数据,业绩就会趋一致,或者月绩就会越来越少,这方面其实是蛮考验一个团队的。

[厚望] 我好奇麦方的进攻团队,至于你们是什么关系呢?

[田大伟] 麦方进攻团队现在做的越来越好了,他们做到很多的报告,我们都会拿来去作为我们灵感之一吧,我们也会对他的报告的因子做一个复现,因为量化的团队他们往往的报告的结论这一块,各不一样,有些是做严格的指数增强,比如行业都是中性,都在这里成分股,有些就不是这样的,所以他的结论也很难做一个统一的比较,或者说很难一目了然,所以这个时候我就会帮他的帮法拿过来,跟他来讨论,然后我们去复现,复现出来过后的这个效果,其实我们的检验模块如果比较不错的,我们可以纳入到我们的体系当中去,这个也是蛮有帮助的,量化它需要交流和讨论的,但对卖方来说的话呢,讨论就比较的充分,但不像同行之间,你很难特别的去聊,确实也是这样的,因为那些做得比较经验的,

[田大伟] 我可以从里面的一些信息,对我很有启发,这个基本的方法认,我觉得是需要普及和科普的,但对卖方进攻团队来说的话,我们可以聊得更深,我们录演的时候,像我一般都会邀请,他的报告好,我会邀请他们过来录演,录演的时候我也非常重视他们,我在之前会对报告都会看,之后的话我一般会浮现,提出自己的一些思考和要求,跟他们一起进步,我觉得我们要讲成这种习惯,互相的彼此成就,不能帮他们当做很孤立的去看待他们的问题,我觉得对我们来说,卖方确实也有一定的帮助,

[厚望] 叔叔你典型的一天呗,一个交易日理的一天,

[田大伟] 基本上我的一天就早上起来开成会,我虽然做量化,但是对咱们公司主动管理做的,成会我肯定会听的,成会过后的话就看看产品,我每天晚上会复盘,但是第二天的话呢,我们会有系统帮所有的模型,它的这个业绩都会做一个展示,我都会看一下,包括A500的模型我也储备到十几个,甚至更多,这些模型的表现是什么样的,我都会看一下,它就会有数据自动的就过来了,如果等一下要做交易,你就肯定要处理的交易了,你的目标组合和你的职商之间要做匹配,这个我们也是有系统帮助我们。抱歉我想打断一下,

[厚望] 就是你刚才说A500的模型你有十几个,

[田大伟] 对啊,

[厚望] 但落实到18你是会传一个付权呢,还是说就是选一个呢?

[田大伟] 它是这样的,它是根据你的产品规模大小,基本上我们单个模型的持股数量在200个左右,如果你是10个亿以内的产品,上一个模型,就我个人感觉就可以了,如果你的产品规模更大,你可能就需要更多的这个模型,还有一个就是,你需要对你的模型做一个业绩跟踪,就是说你一个模型配好过后,像我们一个模型,到了我们的生产环境当中去做样本外的跟踪,我们即使帮它扣费,各种都算过后,加入了滑点,你这个产品的模型的样本外跟踪业绩,和你10盘的业绩还是有偏差的,这个时候我们可能就会帮我好的模型,上到我10盘当中去,看看10盘的交易的充金成本,对我模型的影响到底有多少,那么我就会选择主模型和卫星模型,这个其实便于我以后,帮那个资金仓位配的更高的时候,

[田大伟] 它更加稳定,这也是我的选择,所以我一定会储备很多模型的,

[厚望] 那一个模型内部应该是多因子策略的吧?

[田大伟] 每个模型都多因子,都要符合例子回溯啊,稳健性各种检验你才能上,我们有一个严格的制度,什么样的模型能够上到生产环境里面去,要么外跟踪,它是有一套审批流程的,

[厚望] 基本上看所有的量化的采访啊,基本上都是,我们是多因子策略的,就是你不太能看到第二个答案,但你能不能给我介绍一下,这个名词背后多展开一些?可以啊,

[田大伟] 这个是这样理解的,所以因子就是,比如我刚才讲的估值,盈利,算是一个因子,但是我们就称为单因子嘛,主要的问题是单因子它不稳定,PB算是一个单因子,就不能再分解下去啊,但它不太稳定,所以你就要进行因子合成一个多因子,最终你合成的这个因子,也需要通过历史的检验,但是这里面有一个地方就在于,我们有类因子,就叫混合因子,这个因子就是其他因子混合的,如果混合的因子你怎么看,对它来说也是一个因子搭类,也就是一个单因子,但这个因子是其他因子构成的,这就是因子混合的概念,我举个例子,你在你目标函数中,你有10个因子,对吧,10个因子负一个权重,最大化这个10个因子,加权后的一个值,这是一种做法,你也可以帮那个10个因子,

[田大伟] 先给它付好权重,放到你的因子库里边,这个因子就当到单因子进去检验,那这个时候你目标函数,就最大化这个复合因子的得分,两个本质上是蛮有差异的,它这个多因子的背后,想表述的意思就是说,单因子不稳定,我希望我的超额收益更加稳定,所以我努力的去寻找不同的收益来源,使它干扰的地方能够相互对冲,让它收益的地方给它体现出来,精词爱意我觉得。对,那我们回到您典型的一天。典型的一天就是如果有调仓,那么我就去交易,这个也有系统帮助我们,其实我们现在的系统,在我们信息基础部和分控同时的帮助之下,还是比较不错的,不会占用我过多时间,然后我们交易者也用算法交易,整个成交的过程也有系统帮助我们跟踪的。我们有中央交易士,专门有执行交易的同事,

[田大伟] 那么我更多的时间就去研发我的策略,新的因子,新的模型,有少数时间可能跟客户进行交流。我基本上大多的时间还是做策略原发上。

[厚望] 比如说你们做指针,肯定是奔得超额去的。对。有没有思路,比如说我能不能把波动也能控住。因为是这样,比如说护盛300,它的价佛率是足够低的。它前期都可能说能不能我长期拿到一个更好的收益,但实际拿上才发现,你真正承受不起的那个是波动之重。我似乎没有看到过说指针说,我就笨着,让你能长期逼近护盛300的那个Kager,但是我通过我这个所谓另一种思路的指针,尽量帮你降低这个持有过程当中的波动,让你持有的更幸福一点。好像没有看到过这种思路的产品。这个就是波动,

[田大伟] 我们应该定义为超收益的波动,不是β加α的波动。因为β的波动确实很难以把控,但是α的波动的话,其实有各种各样方法的。比如说成分股的约束,行业的约束,市值的约束,以及我的多因子权重的一个配比,都是来保证我的超收益的稳定性。

[厚望] 但是如果你α为正,最后α加β的年度收益为负,其实作为一个普通的基民它还是会,因为α的稳定性可能作为一个普通的基民,它未必能深刻的感知到。

[田大伟] 我能感知到你这个问题的一个重要性。是的,

[厚望] 因为如果大家能在这种层面都对齐的话,我相信很多基金销售问题也就迎刃而解了。

[田大伟] 事实上大家,我给你讲个例子,我也蛮有关键的改变的。你要要求,比如说看未来一个月,有可能会出现β和α双亏的现象。那都这种很差,对吧?但是这还是比较短。但是以前我在去支管之前,在网脑海当中,我也觉得量化师母,它应该做绝对收益,都应该做对冲产品,不管市场涨跌都能挣钱。那就是我们的目标,我在公务里面,团队里面也有做量化对冲。后来我接触了很多的师母,特别在我去支管过后,因为我们有FOF,我们投了也不少家的师母。发现师母管理产品的大头,都是指数增强。指数增强不像刚才我们理解的高β,高风险,高收益吗?但是为什么大头都指针呢?那是因为它的超收益比较好。像在21年之前,你说这个β,当年跌20个点以上的概率,其实是不高的,

[田大伟] 但是那个时候超额都有20个点,很多。所以这个时候,你的β加α就是正收益。事实上大家不要被指数所误导,像我们讲,户生300,或者老是3000点保卫战等等之类的,对吧?这里面有个很大的误导,就是我们看似价格指数,不是全收益指数。你帮户生300的全收益指数拿出来,它的平均的年涨幅跟我们的GDP差不多的。但你有没有想过,

[厚望] 你的业绩波动会直接缩短它的持股,或者持鸡的时间,那这个时间一缩短,谈全收益指数,它只是一个理论上很美好的。所以这个就是问题的关键,

[田大伟] 客户或机名的持有人不好,这并不是说这个市场表现一直很差,而是在于你的仓位的高低,市场产品波动的过大,使你错过那些机会。往往的机名都是在市场涨的时候,仓位很低,越涨仓位越高,当仓位很高的时候,怕市场不好,一下子就不行了。所以这个时候你需要怎么去克服,为什么我们的ETF规模很大?规模为什么很大?因为老百姓觉得它自己具有折视能力,这个产品的属性看得很清楚。其实指针也是一样的,β加α,α是我们的能力,β交给持有人,他们来进行折视。所以这种产品的规模,应该来说是能够做出来的,因为它相对简单。你看很多年份我管的产品,β低的时候,客户也能够理解。跟大家说得很清楚,β是市场造成的,你可以自己去生熟来折β,α是我的能力。

[田大伟] 只要我有超额,它往往能够理解和接受。这个东西还要强调一点,跟我们团队是一样的。你觉得很多管理人的团队,他做失败了是因为他业绩不好吗?不是这样的。他业绩好的时候,管理规模很小,业绩越好,管理规模越大。规模很大的时候,或者一下子有很多升购的时候,底下的模型失效了,收益很差,花输回,他就再也没有机会翻身了。我们的这个经历和持有人是一样的,我们做了这个指针,就是把那个产品简单化,就是β和α,α是交给我们,β交给持有人。这样的话,他才能够拿得住。如果我们有长期稳定的α,我们帮我们的约束条件都说得很清楚,他就更加相信我们能够这样,那么他就跟着我们长期的持有在一块。最终的效果是不错的,这也是从一定程度避开了他的自己的一个判断,

[田大伟] 最长沙跌最大收益的一种损害。

[厚望] 因为你说了,现在是用一个策略,你怎么看某一个策略,它的规模舒适区,这个事是能预测到呢?还是说通过超额的空间,超额的胜率,它是告诉你的呢?还是怎么样?

[田大伟] 这个是一个大致的一个基准,就是你的对标的指数的成分股,它自己的数量和它的市值,像A500这样的指数,500个成分股,平均的市值1100亿。你选的股票如果都是来自于成分股,都是这些大众股票。这种大众股票,你说你持有栽埃股股票的这个市值0.01%,0.1%,这是完全可以的。所以它的规模的容量就自然很大,如果你是对标的,比如说像中仲2000这样的股票,也许股票数量是比较多,但是它单个的市值比较小,那规模也就是比较小。凡是这种宽积指振的,规模其实来说的话在百亿左右,这些都是可以的。有些单化石木,单个产品规模可能没有这么大,但是多一个整体它是有这么多的。它的这个超的损失,下降的幅度就会稍微小一点,也会,因为你最好的因子,

[田大伟] 好的股票就那么多嘛,但是它的交友超额的情况之下,它的规模还是不错的,对于宽积指数来说的。

[厚望] 因为A500应该是上规模上的最猛的一个指数了。比如说现在已经过千亿的规模,我单指ETF啊。对,两千亿了都。那这个东西跟,比如说你们做指增的这个Alpha之间有什么关系吗?还是没啥关系?A500这个指数确实在编制方法上它就是比较好。

[田大伟] 它有ESG排除法,互通互联,又是行业比较均匀,具有代表性。所以大家都真的想要布局它,觉得这个产品的规模能够长大。就是因为它编制方法好,所以大家都去规模也会迅速地提高。这个对于我们来说,我们的超额相对来说也比较容易做。你看现在市场上的主要的公募指针,就是互通300指针和中正500指针,还有中正1000也有一些。那未来A500指针一定是一个非常重要的指针。为什么呢?它的成分股数量多,又是大宗股票,行业个股又比较均匀。它天然的就比较适合做指针。你看成分股如果在100个的时候,指针就比较难做。互通300其实都挺难做的,但中正500相对好做,做一个整体。那么A500更是这样。整体而言的话,A500它是一个非常重要的指数。

[田大伟] 另外一个,它确实对量化的超额相对来说,稍微好做一点。

[厚望] 红利增强你的规模呢?你怎么看待这个事?

[田大伟] 红利增强其实也是大股票居多,但有一部分股票的市值比较小的也有。红利增强的话呢,它的成分股数量比较少。它的规模可能就会比A500,从数数来看来的规模应该更少一点。如果你真觉得突破到你的舒适区了,我单值规模,你会限额吗?我们不会为了追求规模来牺牲业绩的。我们是想要规模,但是规模是靠业绩来支撑的。就像我刚才讲的,是因为规模上去过后业绩不好,客户受到损害。一旦出现这种情况,它的杀伤力是非常强的。我们也不追求过高的超额。过高的超额就会伴随着过高的风险。我们只要能够有一个持续的稳定的超额,我们就可能帮我们的规模不断地做起来了。这是我们的生存之道。

[厚望] 我站在鸡皮的角度,我再问一个问题啊。就比如说我想买一个指数的指增产品,列了之后,超额一看。人之常情,我肯定是说那就买超额最好的那个呗。你怎么看待这个行为?

[田大伟] 就这个超额越好,看它的分控,约束,管理能力,以及各种情况嘛。我觉得还是要综合来看,这个公司它的文化强调什么?这个一点都不虚的,因为那个公司的传承,和公司的文化建设,它是个日积月累的过程。最终就会显现在你产品业绩的稳定性上。其实这是很重要的。但它是无形的。它是无形的,这种口碑传递。像你刚才讲的,鸡鸣他的吃亏的地方在什么地方?并不是他选不对产品,而是产品的波动太高了,他正好错过了,车辆被甩下来了。是那样他的产品周一台受损的。他如果寻找到一个比较优质的管理人,哪怕短期的业绩不是这么明显,但他只要对他长期的业绩的稳定性包有信心,他就可以长期持有。一旦他做有长期持有的理念的话,他的收益就是比较好的。互生300的全收益指数,

[田大伟] 拉长看,

[厚望] 就是跟经济的真数是相匹配的。或者说如果我能持有个三到五年,我就不用去看价格指数,而是应该去看以全收益指数作为我的预期收益率的毛,是吗?

[田大伟] 其实就是应该看全收益指数,不管看长看短,因为价格指数本来就是失真的指数,因为它分红给你的现金部分是不算进去的,那显然是不对的。

[厚望] 就量化基金经理的基金报告,是不是没什么可能必要?

[田大伟] 因为它跟主动型的不太一样。也不尽然,我也会进到复盘看同行的一些,有些他会写到,比如说我用哪些音质的未来表现情况,这种还是很有价值的。其实他对市场的判断,我觉得也有定的参考性的。只要这个报告是他用心写的,就可以了。你打算怎么写呢?我可能对我的每一份报告,我都是蛮用心的去写呀,对市场的判断,对音质的判断,模型未来的操作的大的框架。

[厚望] 那你觉得看量化基金经理的基金报告,有什么特别要注意的地方吗?或者哪些字眼,你看到了,你得留意一下,或者哪些章节要重点看?

[田大伟] 对量化基金的话,我还是比较喜欢看它对它的音质的观点。它所用它的音质,不管是基本面的音质,量量的音质,它会整体说,这批音质它过去有效或无效。这个东西对我来说也是蛮有启发性的,我也会看的。执行度高吗?给这些东西?不用执行度,这些东西太多了。就像你说的一样,它就要说一些东西,我都可以很敏锐地捕捉到一些信息的。我也通常对这批音质做相关的研究,我也会去参考。但是我们有自己的一套方法论,不会轻易地改变。坦白说,对这种研究报告看的时间,相对来说是偏少的。我们还是专注于自己的策略研发上面去。

[厚望] 你能不能给大家一些,比如说对500红利的预期?像我们公司,

[田大伟] 它不是轻易地发一个产品的,也是有深远的考虑。像那个红利资产,我们就观察过,不管是国际国内,红利资产在利率下行的时代,它具有长期的生命力,这是一个很重要的一个观点。

[厚望] 这个在多国别是验证过的是吗?

[田大伟] 验证过的呀,特别是美国为例吧,它的红利资产的规模逐年提高的,最近几年也是一年比一年高的,按理说它的国票市场的时间是比较长的,但它的规模也是逐年提高的,就是因为它的红利资产,能够跟老百姓的定投的文化相匹配,能够获取拉长看类绝对收益的属性。这红利资产的长期生命力,在中国会越来越高。另外一个,我们也观察到现在我们的红利指数的编制方法的一些问题,过于近代的历史,像我刚才讲的,我们非常强调分红金额的可持续增长,我们觉得我们这个方法,这个思想能够落实下来过后呢,能够带来一定的相对更好的一个收益,所以我们就是帮这个产品就发行出来了。像A500一样,A500它这个指数本来就具有很大的整个市场代表性,我们认为这个指数也比较适合做增强,

[田大伟] 所以我们就发相应的产品。其实我们有很多选择,像刚才我们讲的,我们的系统里面更多30多个基准,那么我们在30个基准里面去观察,哪些β是市场未来相对来说比较好的,哪些α是我们能够做得更优秀的,那么我们选择承受一个发一个,承受一个发一个,我们也不限于目前两只产品,未来可能还会有系列产品,因为我们做量化这种类工具,这批α因子系统策略交易,都可以共享的,所以我们天然的就是一种类工具属性,帮我们的复杂的工作简单化,所以我们可能会发行一系列的产品,但我们也向各位也要说一声,我选了一个产品,还是要看稍微长一点,就要听过我们刚才聊了这么多,本质上还是寻找一个比较值得信赖的资产管理人,跟他长期一块成长,因为你的持有的收益,

[田大伟] 往往就是因为中间的一个波动导致的。

[厚望] 最后再帮大家对量化去去魅,或者说合理化一点,这个这是大家好像不太懂的人吧,既觉得又抽象又高大上,然后容易带一些比较高的预期。

[田大伟] 其实我自己内心很排斥量化是个黑箱的,我一直想帮量化方法尽量的给它透明化,我觉得量化的最大的一个特征就是守纪律,就是我们做一个组合过后呢,我们就是复制这个组合,不对个股做判断,另外量化就是组合的概念,我们不会对个股是界模型,我们是对一个组合,对一个特征,这是我们强调的α因子,组合的概念。第二个的话,我觉得量化确实方法上还是比较与时俱进的。这个可能一个不恰当的例子,像中医和西医。西医的话,你觉得他就在实验室里做实验,中医的话其实也是一种实验,只是你的各种各样病例的经验累积。但是西医呢,可能在实验室里面呢,很快就把你的很多实验重复掉了。所以很多的基本情况西医都能解决,但是中医里面最核心的那个成分,可能西医永远也找不到答案。

[田大伟] 量化也是一样,量化我们用我们的编程方法,快速的去找到一个规律,但是也可能有些主动的经理经理的,它自己的独特的部分,我们是赶不上的。这也像写文章一样,以前应该十几年前,二十年前读书的时候,都是定性的文章。现在的文章里没有实证,没有数据,没有模型,都发表不了。量化也是一种方法论的眼镜,以及算力的进步,其实我们量化能够处理的东西,也会越来越好。它是方法上的一个进步。OK,

[厚望] 我没什么问题。好呀好呀,感谢。