温馨提示:这篇文章已超过463天没有更新,请注意相关的内容是否还可用!
【合合信息利用AI技术构建新质生产力,推出Embedding模型助力专业知识应用。该模型具备强大的自然语言处理能力,能够深度挖掘信息价值,提高知识应用的效率和准确性。此举标志着AI技术在知识应用领域的进一步发展,有望为各行各业带来革命性的变革。
一、合合信息acge模型获MTEB中文榜单第一
现阶段,大语言模型的飞速发展吸引了社会各界的目光,背后支撑大型语言模型应用落地的Embedding模型也成为业内关注的焦点,合合信息发布了文本向量化模型acge_text_embedding,简称“acge模型”,获得了MTEB中文榜单(C-MTEB)的第一名。
MTEB与C-MTEB
MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型的评估指标的合集,是目前业内评测文本向量模型性能的重要参考,而C-MTEB则是专门针对中文文本向量的评测基准,涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务,共计35个数据集,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。
Embedding模型的意义
互联网时代中,随着信息量的急剧膨胀,人们接触信息的渠道不断拓展,大量无关的信息已成为信息检索的干扰项,Embedding模型通过理解查询的深层含义和上下文,能够显著提高搜索和问答的质量、效率和准确性,Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,捕捉到数据的语义特征和关系,被广泛应用于搜索、推荐、问答、数据挖掘等领域。
合合信息acge模型
为了更好地发挥大模型在应用过程中的价值,合合信息技术团队从数据集、训练策略等方面针对Embedding模型进行了优化,打造了acge模型,技术人员构造了大量的数据集以保证训练的质量和场景覆盖面;在模型训练方面,团队引入了多种有效的模型调优技术。
(一)acge模型特点
据合合信息技术团队成员介绍,acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,且应用成本相对较低,相较于传统的预训练或微调垂直领域模型,acge模型可帮助大模型在多个行业中快速创造价值,推动科技创新和产业升级。
(二)acge模型功能
为做好不同任务的针对性学习,团队采用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能,通过引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到相对优秀的收敛空间。
(三)acge模型优势
与目前C-MTEB榜单上排名前五的开源模型相比,合合信息本次发布的acge模型较小,占用资源少,输入文本长度为1024,满足绝大部分场景的需求,更重要的是,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源,这一点在业内是较为突出的优势之一。
公司介绍
合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务,公司的C端产品已覆盖全球百余个国家和地区的亿级用户,B端服务则覆盖了近30个行业的企业客户。《财富》杂志2022年发布的世界500强公司名单中,公司客户已覆盖超过125家,通过不断努力和创新,合合信息致力于为社会各界提供更智能、更高效的服务和产品。
还没有评论,来说两句吧...