时来说是未来)设计理念的transforr模型架构。
接着,是数据的准备。赵志强的数据中心团队火力全开,清洗、整理了高达数tb的高质量中文语料数据(包括互联网网页、 digitized 古籍、百科知识、新闻资讯、以及部分经过严格脱敏和授权的公司内部数据),构建了当时全球范围内规模最大、质量最高的中文训练数据集!
然后,就是最关键、也最“烧钱”的——模型训练!
未来智能科技那庞大的、由数万颗“启明一号”ai芯片组成的超级计算集群,开始为了“风ai”的诞生而日夜轰鸣!
经过长达一年多的、消耗了天文数字般的计算资源和电力(幸好有国家电网的合作和ai优化调度,成本可控)的艰苦训练……
终于,在2014年底!
“风ai”大语言模型,训练成功!
内部测试结果显示,“风ai”不仅在中文的理解、生成、翻译、问答、摘要等各项能力上,全面超越了当时所有已知的语言模型,达到了惊人的流畅度和准确性,表现出令人赞叹的“智能”!
更令人惊喜的是,在许多通用的英文nlp评测基准(benchark)上,“风ai”的表现,也完全不输于、甚至在部分指标上超越了同期最强的openai gpt模型(假设此时gpt-3尚未发布或刚发布不久)!
“我们……成功了!”当看到最终的评测报告时,饶是陈薇、周明这些见惯了风浪的技术大牛,也激动得热泪盈眶!
这是属于华夏ai的里程碑!
2015年初春。
未来智能科技,在首都京城,国家会议中心,举办了一场吸引了全球目光的、空前盛大的新闻发布会!
林风,再次站在了聚光灯下。
他身后的大屏幕上,只显示着两个简洁而充满力量的汉字——“风 ai”!
“今天,我非常荣幸地向大家宣布,”林风的声音沉稳而自豪,“未来智能科技,自主研发的、全球领先的、专注于中文理解与生成的超大规模预训练语言模型——‘风ai’,正式发布!”
随后,林风和陈薇博士一起,现场演示了“风ai”的