به طور کلی دادههای که در حوزه یادگیری ماشین با آن سروکار داریم یا به سه دسته تقسیم میشوند:
دادههای ساختار یافته (structured data) :
در ساده ترین حالت ممکن هر دادهای که در جدولی مانند اکسل یا دیتابیسها ذخیره کنیم دادههای ساختار یافته نامیده میشوند.
دادههای بدون ساختار(unstructured data):
دادههای مانند تصویر، ویدیو، متن و صوت که در جدولی مانند اکسل نتوانیم ذخیره کنیم را دادههای بدون ساختار مینامند.
دادههای نیمه ساختار یافته (semi-structured data) :
این دادهها برخلاف دادههای ساختار یافته نمیتواند در جداول ذخیره شوند اما دارای علائمی هستند که یک سلسله مراتب از دادهها را ایجاد کنند.
این دستهبندی یک دسته بندی کلی است، اما فقط دادهها از این طریق دستهبندی نمیشوند، دستهبندی دیگری از دادهها که در علم یادگیری ماشین اهمیت بالایی دارد، دادهها یا کمی هستند یا کیفی.
کیفی:
دادههای کیفی دادههای هستند که شامل متغییرهای طبقهبندی هستند، مانند نام یک برند، نوع یک محصول، رنگ آن
کمی:
دادههای هستند که میتوان بر اساس معیارهای اندازهگیری بزرگتر و یا کوچکتر، سنگینتر یا سبکتر آنها را اندازه گیری کرد.
دادههای کمی خود به دو دسته گسسته و پیوسته تقسیم میشود.
دادههای گسسته:
دادههای است که نمیتوان بین دو واحد آن واحد دیگری در نظر گرفت، به طور مثلا تعداد فرزندان یک خانواده یک داده گسسته است.
دادههای پیوسته:
دادههای هستند که بین هر واحد از آن میتوان مقداری در نظر گرفت، به عنوان مثال دمای هوا، بین دمای 25 درجه و 26 درجه ما میتوانیم دمای 25.4 درجه نیز داشته باشیم.