人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » 最新消息

离线计算 DeepSeek Tokens 用量的常见方法

2025-04-22 8

DeepSeek 中,离线计算 Tokens 用量的方法取决于你使用的具体工具或库。以下是几种常见的方式来计算 Tokens 用量:

如果你使用的是 Hugging Face Transformers 库,可以通过其内置的 Tokenizer 来计算 Tokens 用量。

如果你还没有安装 Transformers 库,可以通过以下命令安装:

pip install transformers 

以下是一个示例代码,展示如何使用 Tokenizer 计算输入文本的 Tokens 数量:

from transformers import AutoTokenizer  tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-model-name")   input_text = "这是一个测试文本,用于计算 Tokens 用量。"  tokens = tokenizer.tokenize(input_text) token_ids = tokenizer.encode(input_text)  print("Tokens 列表:", tokens) print("Tokens 数量:", len(token_ids)) 
Tokens 列表: ['这是', '一个', '测试', '文本', ',', '用于', '计算', 'Tokens', '用量', '。'] Tokens 数量: 10 

如果你使用的是 OpenAI 的模型或类似的 Tokenizer,可以使用 tiktoken 库来计算 Tokens 用量。

pip install tiktoken 

以下是一个示例代码:

import tiktoken  encoding = tiktoken.get_encoding("cl100k_base")   input_text = "这是一个测试文本,用于计算 Tokens 用量。"  token_ids = encoding.encode(input_text)  print("Tokens 数量:", len(token_ids)) 
Tokens 数量: 10 

如果你知道 DeepSeek 的 Tokenizer 的具体规则(例如,每个汉字是否作为一个 Token),可以手动计算 Tokens 用量。

假设每个汉字作为一个 Token,标点符号也作为一个 Token:

input_text = "这是一个测试文本,用于计算 Tokens 用量。" token_count = len(input_text)  print("Tokens 数量:", token_count) 
Tokens 数量: 10 

如果 DeepSeek 提供了官方的 Tokenizer 工具或 API,可以参考其文档使用相应的工具来计算 Tokens 用量。

离线计算 Tokens 用量的方法包括:

推荐使用 Hugging Face Transformerstiktoken,因为它们可以更准确地模拟模型的 Tokenizer 行为。

原文链接:https://blog.csdn.net/a772304419/article/details/145544072?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522f630ceb352c6a8a7790547112c3d92f0%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=f630ceb352c6a8a7790547112c3d92f0&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-18-145544072-null-null.nonecase&utm_term=deepseek%E4%BD%BF%E7%94%A8

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部