korean-data-to-jsonl

AIHub, 모두의 말뭉치 등 한국어 데이터셋의 JSONL 파일 포맷 전처리 저장소 입니다.
Preprocesses Korean datasets from AIHub and Moducorpus into JSONL format

데이터 접근 및 세팅

접근

본 저장소의 모든 데이터는 다음 소스에서 개별적으로 신청 후 접근할 수 있습니다.

세팅

각 소스에 맞는 데이터셋을 다운로드 후, ./data에 위치. 혹은 settings.json의 path 수정
./preprocess의 source와 datasetname 일치 확인 후 preprocess.py 실행
동일 위치의 preprocess_task.ipynb 실행 (추후 수정 예정)

데이터 기록 Notion [link]

각 데이터별 Task 및 세부사항은 위 Notion link에 기록됩니다.

History

2024.07.31 AIHub, 모두의 말뭉치, 국립국어원(NIKL) 갱신
2024.10.07 Repo 정리

데이터 전처리

AI Hub와 모두의 말뭉치에서 한국어 LLM에 사용할 수 있는 데이터셋을 수집하고, 이 데이터셋의 구조를 그대로 유지하여 jsonl 형식으로 전처리합니다. 데이터셋별 Task를 식별하여 필요한 요소만 남겨 다시 전처리합니다.

데이터 리스트 및 규모

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
preprocess		preprocess
.gitignore		.gitignore
README.md		README.md
data_sample.ipynb		data_sample.ipynb
dataset2task.json		dataset2task.json
jsonl_file_sizes.txt		jsonl_file_sizes.txt
settings.json		settings.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

korean-data-to-jsonl

데이터 접근 및 세팅

접근

세팅

데이터 기록 Notion [link]

History

데이터 전처리

TODO List

About

Releases

Packages

Languages

whitepurple/korean-data-to-jsonl

Folders and files

Latest commit

History

Repository files navigation

korean-data-to-jsonl

데이터 접근 및 세팅

접근

세팅

데이터 기록 Notion [link]

History

데이터 전처리

TODO List

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages