仅成立4年的国产GPU龙头，单卡可运行千亿参数大模型。

2024-07-17 13:41#1 标记1

大家都知道国产GPU很多很多，特别是初创公司，例如壁仞、沐曦、天数智芯等等。但别小瞧这些初创公司，越小的公司更容易出乎意料的推出“不可思议”的产品，下面我给大家介绍下这家公司。

海飞科（Hexaflake）是一家成立于2019 年的高科技初创企业，致力于GPU芯片研发，并建立通用并行计算的软件开发生态。以为人工智能和大数据处理提供高性能并行处理器为使命，汇集了一批行业内的顶级专家，研发自主创新的并行计算架构，GPU 芯片、板卡和全栈软件平台，并支持服务器厂商提供软硬件解决方案，使产品在算力的通用可编程性、有效利用率、密度和规模等主要指标具备核心竞争力，推动和引领并行处理器的发展。

01/
海飞科-产品介绍概括
1、创新处理器架构与指令集设计：海飞科致力于前沿的通用并行处理器架构及定制指令集的研发，这些创新成果针对人工智能、高保真图形渲染及复杂科学计算等核心应用场景进行了深度优化。
2、云端与服务器算力芯片研发：公司精心打造了通用性强、可编程性高、算力强大且能效比出众的云端及服务器端处理器芯片产品。这些芯片不仅具备高性价比，更在应对大规模数据处理、深度学习模型训练与推理等任务时展现出卓越性能。
3、全栈软件生态构建：海飞科不仅专注于硬件研发，还致力于打造完善的软件生态体系。公司开发了一套包含编译器、内核（Kernel）、运行时环境（Runtime）、驱动程序以及广泛支持主流深度学习框架与并行计算库的完整工具链。

02/
海飞科-C10
SIMT 架构，128G内存
1、Compass C10
Compass C10，作为海飞科倾力打造的首代人工智能通用并行处理器（AIGPU）。这款芯片搭载了公司独有的、全自主研发的SIMT架构与精细粒度指令集。内置了数千条高效能的通用计算线程，能够灵活应对从FP32高精度浮点数到BF16半精度浮点数，乃至INT8低精度整数的多样化计算需求，为AI模型训练、推理及多种数据处理任务提供了强有力的支持。
C10集成的LPDDR5高速内存接口，使得该芯片能够轻松管理高达128GB的内存资源，为大规模数据处理和复杂AI算法的运行提供了坚实的基础。同时，PCIe 4.0接口的加入，进一步增强了C10与各类服务器CPU的协同能力，实现了高速、低延迟的数据交换.还内置了先进的图像编解码器，专为高并发、多路视频AI处理而设计，能够显著提升视频处理效率，满足日益增长的视频监控、智能安防等应用场景的需求。

2、Compass C10 S1X
Compass C10 S1X 高效计算加速解决方案融合了海飞科自主研发的Compass C10 人工智能芯片，辅以高速LPDDR5/4X存储模块及精密的电源与管理体系，专为高性能计算需求量身打造。该加速卡全面拥抱PCIe 4.0标准，采用双槽位设计，全高全长规格，确保在各类数据中心与服务器环境中均能稳定发挥效能。其散热设计灵活多样，包括主动式高效散热与被动式静音散热两种方案，满足不同应用场景下的散热需求。
Compass C10 S1X计算加速卡能够无缝对接市场主流服务器CPU，实现算力与存储资源的深度融合与协同作业。在存储容量方面，该卡提供128GB、64GB及32GB等多种规格选项，用户可根据具体工作负载灵活选择，以最优配置实现计算效率与成本效益的最大化。无论是深度学习训练与推理、大规模数据分析、复杂图形图像处理，还是高性能科学计算与自动驾驶场景，Compass C10 S1X加速卡都能提供强劲的计算加速能力，助力用户快速解锁数据价值，推动业务创新与发展。

单卡运行千亿大模型
海飞科的多领域AI解决方案涵盖了海飞科服务器、AIPC和边缘大模型一体机解决方案。海飞科服务器解决方案通过分布式推理构建高效推理集群，全面支持AI2.0大模型和AI1.0模型的部署和推理，同时支持AI1.0模型训练和AI2.0大模型精调训练。海飞科AIPC是集成了海飞科算力卡和智能应用的PC，专为智能办公、创意生成和个人智能助手等领域设计。它搭载的大容量内存技术，单卡即可运行高达1000亿参数的复杂模型，实现高效运行和无缝切换。边缘大模型一体机内置海飞科大内存算力卡，支持单机多模运行和无缝切换，能够独立加载并即时切换针对不同垂直领域的AI大模型，提供一体化设计和便携式相结合的解决方案。

03/
海飞科-软件平台
无缝兼容TensorFlow
海飞科精心打造的软件平台，根植于Linux操作系统之上，无缝兼容TensorFlow、PyTorch、Caffe2、MxNet等业界主流深度学习框架，为用户构建了一个全面而强大的计算生态。该平台不仅集成了编译器、内核（Kernel）、运行时（Runtime）及驱动程序等全栈软件组件，还配备了完善的工具链，包括Debugger和Profiler等调试与性能分析工具，确保开发流程的顺畅与高效。
该平台的核心优势在于其广泛的编程支持能力，不仅兼容OpenCL、CUDA C等通用并行编程语言，还提供了C和Python的推理接口，极大地方便了开发者的跨语言编程需求。此外，海飞科还精心构建了BLAS、DNN、CV等一系列高性能加速库，旨在提升并行计算任务的执行效率，助力用户在云端或服务器端轻松部署深度学习推理/训练、机器学习模型、大数据分析、图形图像处理、语音识别、自然语言处理、科学计算以及自动驾驶等领域的复杂应用。通过这些努力，海飞科致力于为用户打造一个更加灵活、高效、易用的计算平台，加速人工智能与大数据技术的创新与发展。

海飞科与多家服务器厂商合作，联合推出集成海飞科CompassC10 S1X 计算加速卡在内的高性能服务器产品，可根据用户需求灵活配置多张C10 S1X加速卡；可广泛应用于计算机视觉、语音、自然语言、数据分析等人工智能领域，亦可用于大数据处理、科学计算等场景；可为各类数据中心、计算中心、私有云、公有云等提供高性价比、高能效比的算力解决方案。
© THE END
转载请联系本公众号获得授权