Crawl4LLM

简介:

一个用于LLM预训练的高效网络爬虫工具,专注于高效爬取高质量网页数据。

功能:

支持多种文档评分方法,如基于长度、基于fastText模型评分等

灵活的配置选项,允许用户自定义爬取策略和参数

高效的数据爬取能力,支持多线程和大规模数据处理

与DCLM框架集成,便于后续的LLM预训练和评估

支持从ClueWeb22等大规模数据集中爬取数据

提供日志记录和状态保存功能,方便监控和恢复爬取过程

支持随机、基于入度等多种基线爬虫策略

需求人群:

"该产品主要面向需要高效爬取网页数据以用于LLM预训练的研究人员和开发者。它适合那些希望在有限的资源下获取高质量训练语料的用户,尤其是在自然语言处理和人工智能领域的专业人士。"

浏览量:19

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图