本项目用于下载、解析和清洗中文维基百科数据,将其转换为适合预训练模型使用的JSONL格式。 这将生成包含1000条示例记录的样本文件,用于演示数据格式和清洗效果。