在Cerebras上的推理速度 ‣ Llama3.1-70B:每秒处理450token…

在Cerebras上的推理速度 ‣ Llama3.1-70B:每秒处理450token…
2024年08月28日 09:10 新智元
#你好人工智能时代# 在Cerebras上的推理速度‣ Llama3.1-70B:每秒处理450token,比GPU快20倍‣ Llama 3.1 8B:每秒1,700token‣ 每百万个token的费用为60美分,价格仅为超大规模计算提供商的五分之一‣ 全16位精度,确保模型的完整准确性‣ 为开发者提供宽松的速率限制#AI探索计划# 立即试用:

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部