HuggingFace近日发布了两个大规模开源数据集:FinePDFs和FineVision,分别针对语言模型与视觉-语言模型的训练需求,旨在大幅提升开源模型的性能表现。https://huggingface.co/datasets/HuggingFaceFW/finepdfshttps://huggingface.co/datasets/HuggingFaceM4/FineVisionFinePDFs是当前规模最大的公开PDF语料库,完全基于PDF文档构建,涵盖约3万亿token...
hugging face 近日发布了两个大规模开源数据集:finepdfs 和 finevision,分别针对语言模型与视觉-语言模型的训练需求,旨在大幅提升开源模型的性能表现。
https://www./link/6750c0194a5f9ae7194a0ae154b64959
https://www./link/a007685ecc0ccf820b8ac1d6e77f69fd
FinePDFs 是当前规模最大的公开 PDF 语料库,完全基于

PDF 文档构建,涵盖约 3 万亿 tokens,来自 4.75 亿份文件,支持 1733 种语言,总数据量达 3.65TB。
该数据集源自 105 个 CommonCrawl 快照(时间跨度为 2013 年夏季至 2025 年 2 月),经过 datatrove 工具链进行去重、内容过滤及个人身份信息(PII)匿名化处理,并采用 ODC-By 1.0 开放许可证发布。其文档平均长度接近传统 HTML 数据集的两倍,且包含大量超过 10 万字符的长文本样本,特别适合用于增强开源大语言模型的长上下文理解能力。
数据集已按语言和书写系统分类整理,其中 978 种语言包含超过 100 万 tokens,66 种语言达到或超过 10 亿 tokens。
FineVision 则专为视觉-语言模型(VLM)训练打造,融合了来自 200 多个不同来源的数据,包含 1730 万张图像、2430 万个训练样本、8890 万轮多轮对话以及高达 95 亿 tokens 的回答内容,能够支持如 GUI 导航、目标指向、对象计数等新兴能力的训练。
据官方介绍,在 10 项主流基准测试中,使用 FineVision 训练的模型平均性能提升超过 20%,显著增强开源视觉-语言模型的表现。所有数据已转换为 Parquet 格式,总容量约为 4.48TB,支持高效的流式加载,便于大规模分布式训练。
相关推荐:
掌握了这9个推广的qq沟通技巧,轻松提高转化率!
ChatGPT网页版免费版:开启智能对话的全新体验
让英语作文轻松生成英语作文AI一键生成的神奇魔力,AI纪念
沈阳SEO关键词优化:如何通过精准定位提升网站排名与流量,ai 励志
SEO与SEM:提升网站流量与转化率的关键策略
ChatGPT国内版:为中国用户量身定制的智能助手,开启AI新纪元,不是ai而是ai含义
2024年最全SEO资源指南:助你轻松提升网站排名
SEO设置化学品关键词时是否需要带缩写?,ai进dcs几根线
SEO优化快排系统:助力企业快速突破搜索引擎排名困局
SEO很多,如何在竞争激烈的市场中脱颖而出?,在SEO优化中
OpenAIChatGPT:引领人工智能的未来,开启智慧交流新纪元,城堡浴室ai
软件AI:颠覆未来的智能革命
广告模式有什么好处?广告计费的方式是什么?
如何下载免费AI软件,让你的工作和生活更智能
SEO伪创:提升网站排名的危险策略与如何避免,怎样介绍社交网站推广
SEO外,如何提升网站整体营销效果?,文轩网络营销推广方案
新手怎么在家做网络淘金赚钱?
SEO优化关键词查询:提升网站流量的终极指南
引流变现案例分享:我是如何打造一个年赚百万的社群的!
SEO优化动态:把握未来互联网营销趋势,提升网站排名与流量
AI软件不用登录,让你的工作更高效轻松,ai柱形图工具
实用AI工具:提升效率、优化生活的科技利器
AI撰写工具的无限可能,让内容创作更高效、更精彩!
ChatGPT启动时遇到问题?快速解决方案让你畅享智能对话体验,求全排列ai小于min ai
使用WordPress同步1688,开启电商自动化新纪元,ai做3d圆柱
提升网站流量的关键—搜索关键词排名优化全攻略,人与ai绘画
SEO做什么的?揭秘SEO背后的核心价值
如何做关键词排名:提升网站流量的核心攻略,ai 报道
阿里巴巴关键词价格调整:如何在变动中提升店铺曝光与转化?,广州ai编程培训
使用WordPress脑图插件,提升你的内容创作效率,ai月下