Spaces:

scademy
/

distilbert-sentiment-analysis

Running

feat: add dataset preparator script

11d3b20 10 months ago

No virus

641 Bytes

	from datasets import load_dataset
	import pandas as pd

	divider = 1
	data_size = 25000 // divider
	case_size = data_size // 2

	dataset = load_dataset("imdb")

	train_df = pd.DataFrame(dataset['train'])
	test_df = pd.DataFrame(dataset['test'])

	train_df = train_df.iloc[::divider, :]
	test_df = test_df.iloc[::divider, :]

	train_df['label'] = train_df['label'].apply(lambda x: 'NEGATIVE' if x == 0 else 'POSITIVE')
	test_df['label'] = test_df['label'].apply(lambda x: 'NEGATIVE' if x == 0 else 'POSITIVE')

	train_df.to_csv(f'imdb_train_{case_size}_{case_size}.csv', index=False)
	test_df.to_csv(f'imdb_test_{case_size}_{case_size}.csv', index=False)