《可信开源人工智能大模型案例汇编.docx》由会员分享,可在线阅读,更多相关《可信开源人工智能大模型案例汇编.docx(78页珍藏版)》请在优知文库上搜索。
1、“目录开源人工智能大模型发展背景和发展现状开源正成为推动人工智能大模型创新发展的关键引擎开源人工智能大模型发展历程全球开源人工智能大模型罪关键问题开源人工智能大模型开源成熟度4全球开源人工智能大模型商业模式基本形态开源人工智能大模型治理疑我国开源人工智能大模期展洞察开源人工智能大模型开源程度统计7开源人工智能大模型商业落地情况8开源人工智能大模型基础配套设施建设情况9开源人工智能人工智能大模型优势与不足9开源人工智能大模型安全风险与合规情况10开源人工智能大模型未来发展展望11可信开源大模型产业推进方阵相关工作大模型案例ChatGLM大模型14通义干问大模型21紫东太初大模型24Baichua
2、n大模型28DataCanvasAlaya九章元识大模型31TigerBot大模型34ChatLaw大模型38元象大模型41聚宝盆(Cornucopia)金融大模型45基础设施案例CoIossaI-AI47DingoDB多模向量数据库54Xtremel57AutoDev59HyperAI超神经61OpenBayes贝式计算63Milvus65.开源人工智能大模型发展背景和发展现状O开源正成为推动人工智能大模型创新发展的关键引擎在人工智能大模型领域,开源能够激发技术创新活力,推动数字时代科技创新。开源汇聚众智、促进多方协同,有效实现了优势互补,激发技术创新活力。开源开放的创新模式相比于工业时代封
3、闭专利的创新模式,更Jl质应数字时代技术迭代快、应用范围广的发展规律,解决单一主体创新成本过高问题,通过去中心化的异步协作激发各类主体的创新创造活力,以开放协作实现智慧累积,对创新效率和创新质量带来巨大提升。Meta在Llama基础上开源Llama2并允许免费用于商业用途。Llama2为初创企业和科研机构等主体提供了一个强大的免费选择,可以作为OPenAl和谷歌出售的专有模型的补充,有效激发了人工智能大模型共创浪潮。仅Llama2开源几日后,在其基础上衍生的大模型FreeWilly2便实现对Llama2的性能超越。与此同时,Llama2凭借其开放可拓展的优势,衍生出IaWyer-Ilama、E
4、dUChat等垂直领域的模型产品,加速推动人工智能大模型场景化应用创新。开源人工智能大模型发展历程大语言模型的开源推动了深度学习和人工智能的持续发展,也催生了一系列前沿探索和落地应用。2017年,Google发表论文AttentionisAllYouNeed”,首次提出了Transformer架构,该架构成为后续人工智能大模型构建的基础。2018年11月,Google提出SOTANLP预训练模型BERT并将其源代码开源,BERT在SQuADvl.l和GLUEBenchmark上得到最高水平评分。2020年2月,Google发布T5模型,通过text-to-text格式训练,可以学习通用语言表征
5、,并通过微调适应特定任务。2022年5月,MetaAI发布OPT175B并开源了预训练模型及源代码,OPT-175B禁止商用但允许学术单位及科研机构使甩2022年6月,BigScience社区发布BLOOM,具备1760亿个参数,支持59种语言,旨在为公众提供GPT-3的开源替代品。2022年8月,清华大学开源中英双语预训I练模型GLM-130B,使用通用语言模型算法进行预训练。2023年2月,MetaAI开源SOTA基座大语言模型LLaMA,训练数据全部来源于公海据集,参数范围7B-65B02023年6月,百川智能发布开源可商用大规模预训练语言模型Baichuan-7B,支持中英双语,上下文
6、窗口长度4096o2023年10月,智谱AI开源ChatGLM3系列模型,包括ChatGLM3-6B(32k)、多模态CogVLM-17B.以及智能体AgentLM。2023年12月,阿里云在通义千问发布会上开源Qwen-72B.Qwen-1.8B和Qwen-AudioQwen3个大模型八(3Q)AIMX*M20202022J。随着开源人工智能大模型不断发展,由BLOOM、LLaMA等主流开源大模型逐渐衍生出其他开源人工智能大模型。1.LaMA2023年2月,MetaAI开源SC)TA基座大语言模型,同年7月,MetaAl再次发布LLaMA2,训僦据相较于LLaMA1提升了40%,上下文长度翻
7、倍。同时,LLaMA2还允许商用,由此衍生了众多开源大模型。2023年3月,斯坦福大学微调LLaMA-7B推出Alpaca-7B,Alpaca仅供学术研究使用,禁止商用。2023年3月,哈工大科大讯飞联合实验室发布了基于中文LLaMA模型和指令精调的Alpaca大模型Chinese-LLaMA-AIpaca,进一步促进大模型在中文NLP社区的开放研究。2023年3月,LMSYSOrg发布基于LLaMA的开源大模型Vicuna-13B,它是Y用ShareGPT收集的用户对话训练的开源聊天机器人。2023年6月,清华大学联合面壁智能等企业推出基于LLaMA-13B的大模型UltraLM-13B。2
8、023年8月,度小满研究团队开源了基于LLaMA2-70B进行中文增强的一系列金融大模型XuanYuan-70BoBLM2022年6月,BigScience社区发布BLOOMo2023年5月,度小满基于BLOOM-176B开源千亿级中文金融大模型轩辕(XuanYuan)o2023年5月,链家科技基于BLOOM和LLaMA开源了中文对话大模型BELLEe2023年6月,虎博科技基于GPT和BLOOM两个开源模型,发布自研多模态大模型TigerBot0大数据系统计算技术国家工程实验室团队正在研发基于BLOOM中文增量训练的中文基硒莫型LinIy-Chinese-BLOOM,包含7B和175B模型量
9、级,可用于商业场景。M全球开源人工智能大模型发展关键问题O开源人工智能大模型开源成熟度AT智能大模型的部署应用需要经历期居准备、模型设计、模型训练、模型优脩多个环节,落地后仍需要根据实际需求以及应用反馈进行调整与维护。其中,模型框架、模型代码、模型参数、训练数据四个方面是衡量其开源成熟度的重要评定等级。开源程度等级开源成熟度说明模登微架模变电X开JI人工-IK大假费开!A度的第一UUH.8堵TR别中,可以过公开大接熨蒙,使具他使用可以观9并使川.开雪9Eltlt美系CI开大田的开发豉.枝末水平.Stt.5行性方.模型代码里代研弁人工tfi大熨开M厦的第二吸索,-三,可以il过公开立模嬖代码时里
10、班行训CM.B代借开蹩了人工大F的京口,MIIf允杵企业的开发人员在电的色上蹙行里制化开X,定网训数M.懵道Bet假更“效开3星人工篇大事更开成飘度的第三吸冽,i4W,可以遇过公开立便更代码与!时接电遇h*京和优化.一期,H开书管7解第Mle的力懈艮,为企业气力成*,榄动大电京化.修内企业可以ItIlm定均时费进行优化.希篇数开人工Flfi大/0开普Jt汽厦的第四!窈,Sig-三,/盘的训$0的也可以公开敬得.通过公开WM9.檀正第可期发后透的度再一步堪怪.同时公开Ullm也遂一告偃7企成M闲户K垂簌以的J1.命全球开源人工智能大模型商业模式基本形态开源人工智能大模型的商业模式基本分为两类:类
11、OPen-COre商:open-core商业软件模式是指核心代码开源,但是部分功能代码是闭源,最终形成了闭源的代码软件进行售卖。在开源人工智能大模型企业中,企业开源较低参数规模的大模型,并提供较大参数规模的付费版本。企业根据自身场景和业务需求,为客户定制专属大模型,并针对部署的定制化版本提供更全面的支持、咨询、培训和托管服务。专三务模式专业服务模式由传统商业软件的以产品为卖点转向以服务为卖点,是开源商业公司采用的一种全新的商业模式。由于开源人工智能大模型一种技术密集型产品,需要对大模型进行持续维护、优化、迭代升级才能发挥软件的最大价值。专业服务模式下的开源商业公司针对免费的开源项目提供收费月器
12、,如技术文档、二欠开发支寺、用户培训等技术月的实现盈利。开源人工智能大模型治理开源人工智能大模型的治理分为黝居治理与模型治理两部分。在数据治理中,开源人工智能大模型关注数据隐私与数据安全质量。开源人工智能大模型训练数据的非法泄露可能会导致敏感信息的暴露,因此确保数据隐私的安全成为治理的重要环节之一。在开发和使用过程中,需确保数据采集、存储和处理符合相关法规。数据的安全质量对于开源人工智能大模型同样重要。为确保数据安全质量,需关注数据的准确性、完整性、代表性等,并关注数据偏差和数据集的平衡性,避免模型在特定群体或场景下产生不公平偏见。高质量的麴g能为模型提供更好的基础,从而使其在实际应用中发挥更
13、大的价值。在模型治理中,应注重开源协议使用与模型伦理道德问题。开源协议通过明确规定开源项目的使用、修改和分发方式,为企业和用户提供了一定程度的保障。开源许可证保障了开源大模型的自由使用和共享,促进了创新和协作,同时也为开源大模型的作者和用户提供了一定的法律保护。目前,部分开源人工智能大模型使用常用的许可协议如Apache许可证等,同时部分模型采用自己定义的许可证。开源人工智能大模型的开发和应用还需关注伦理道德问题。这包括确保模型的公平性、透明度和可解释性,避免歧视性结果,评估和管理模型可能带来的社会影响。此外,还需关注模型在特定领域的合规性和符合道德标准的使用,以确保技术的正面推动作用。我国开
14、源人工智能大模型发展洞察O开源人工智能大模型开源程度统计在入选本次案例集的大模型中,模型框架开源的企业占比为100%,模型代码开源的企业占比为100%,模型参数开源的企业占比达到100%。在本次调研的所有开源大模型中,用户均可以实现本地部署并针对实际使用情况进行微调。另有22%的大模型对其训练数据进行开源,方便用户对模型进行微调和二次开发。同时,部分大模型对外公布其训练细节,方便用户研究大模型训练过程以及进行模型继续训练。模型框架KIN代码模P电教训炼教板般;开源人工智能大模型商业落地情况应用占比目前,开源人工智能大理已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等
15、多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%o在金融领域中,部分开源大模型已经应用于智能客服、智能运营、智能办公等场景,通过智能客服与用户进行多轮对话,提出具体的、可行的解决方案,同时通过开源人工智能大模型生成广告和营销内容,提升营销效率,运用开源人工智能大模型了解国内夕假)宏观政策、行业信息、产品信息,自动生成文章、报告,提供专业建议不昉案辅助交流。在法律领域中,应用开源大模型提供全流程智能辅助办案应用,对法律案件进行拆解、提取关键事件,构建智能审查、量刑预测、文书生成、自动编目、笔录生成等业务能力,通过智能技术辅助办案人员的常规工作,实现案件分析速度的提升。在企业服务中,开源人工智能大模型实现智能化业务运营。i逐据分析和预测能力,洞察企业运营、识别潜在的业务风险和机会,并提供智能化的解决方案,从而提高经营决策水平和业务运营效率,赋能企业构建高度自动化与智能化的企业知识库,并进行企业相关文档的摘要、总结、溯源。在制造业领域,开源人工智能大模型已应用于产线运营效率