Εισαγωγή στην Επιστήμη Δεδομένων με Python: SQL, Pandas, Μηχανική Μάθηση και Πραγματικά Παραδείγματα

Ενημερώθηκε για το April 22, 2025 3 λεπτά ανάγνωση

Εισαγωγή στην Επιστήμη Δεδομένων με Python: SQL, Pandas, Μηχανική Μάθηση και Πραγματικά Παραδείγματα cover image

Η επιστήμη δεδομένων (data science) αποτελεί σήμερα μία από τις πιο δημοφιλείς και καλοπληρωμένες ειδικότητες στον χώρο της τεχνολογίας. Στο παρόν άρθρο, θα δούμε βήμα‑βήμα πώς μπορείτε να ξεκινήσετε την εκμάθηση Python για Data Science, πώς να αξιοποιήσετε SQL και Pandas, και πώς να εφαρμόσετε βασικές τεχνικές μηχανικής μάθησης με παραδείγματα.


Γιατί να επιλέξετε την Python για επιστήμη δεδομένων

  1. Ευκολία εκμάθησης: Η Python έχει καθαρή σύνταξη και πληθώρα βιβλιοθηκών.

  2. Μεγάλη κοινότητα: Υποστήριξη από χιλιάδες tutorials, forums και open‑source έργα.

  3. Εξειδικευμένες βιβλιοθήκες: NumPy, Pandas, Matplotlib, Scikit‑learn, TensorFlow κ.ά.

Tip: Ξεκινήστε με τον επίσημο οδηγό της Python ή ένα εισαγωγικό μάθημα Python to be sure you master the basics.


Βασικές έννοιες SQL για Data Science

Η SQL (Structured Query Language) είναι η γλώσσα ερωτημάτων για σχεσιακές βάσεις δεδομένων. Σε κάθε έργο επιστήμης δεδομένων, συχνά τα δεδομένα αποθηκεύονται σε RDBMS (π.χ. MySQL, PostgreSQL).

Κύριες εντολές SQL

  • SELECT: Ανάκτηση δεδομένων

  • FROM: Ορισμός πίνακα

  • WHERE: Φίλτρο γραμμών

  • GROUP BY & HAVING: Ομαδοποίηση και φίλτρο ομάδων

  • JOIN: Συνένωση πινάκων

-- Παράδειγμα: Εύρεση μέσης τιμής πωλήσεων ανά προϊόν
SELECT product_id, AVG(sales_amount) AS avg_sales
FROM sales
WHERE sale_date BETWEEN '2024-01-01' AND '2024-12-31'
GROUP BY product_id
HAVING AVG(sales_amount) > 1000;

Συμβουλή SEO: Χρησιμοποιήστε long‑tail keyword “SQL για Data Science” στο meta description του άρθρου σας.


Επεξεργασία δεδομένων με Pandas

Το Pandas είναι η δημοφιλέστερη βιβλιοθήκη Python για δεδομένα σε πίνακες (DataFrames).

1. Εγκατάσταση και εισαγωγή

pip install pandas
import pandas as pd

2. Φόρτωση δεδομένων

  • CSV:
df = pd.read_csv('data/sales.csv')

-

  • SQL (μέσω SQLAlchemy):
from sqlalchemy import create_engine
engine = create_engine('postgresql://user:pass@localhost/dbname')
df = pd.read_sql('SELECT * FROM sales', engine)

3. Βασικές λειτουργίες

ΕντολήΣκοπός
df.head()Εμφανίζει τις πρώτες 5 γραμμές
df.info()Πληροφορίες τύπων και μη‑null τιμών
df.describe()Στατιστικά περιγραφικά
df.dropna()Αφαίρεση κενών τιμών
df.fillna(value=0)Αντικατάσταση κενών τιμών
df.groupby(‘col’).sum()Ομαδοποίηση και άθροιση

4. Παραδείγματα καθαρισμού δεδομένων

# Αφαίρεση διπλών
df = df.drop_duplicates()

# Μετατροπή τύπων
df['sale_date'] = pd.to_datetime(df['sale_date'])

# Δημιουργία νέας στήλης
df['year'] = df['sale_date'].dt.year

Εισαγωγή στη μηχανική μάθηση με Scikit‑learn

Η μηχανική μάθηση (machine learning) σας επιτρέπει να χτίζετε μοντέλα που “μαθαίνουν” από τα δεδομένα.

1. Εγκατάσταση

pip install scikit-learn

2. Προετοιμασία δεδομένων

from sklearn.model_selection import train_test_split

X = df[['feature1', 'feature2', 'feature3']]
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

3. Δημιουργία απλού μοντέλου ταξινόμησης

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

predictions = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))
print(classification_report(y_test, predictions))
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
}

grid = GridSearchCV(
    RandomForestClassifier(random_state=42),
    param_grid,
    cv=5
)
grid.fit(X_train, y_train)
print("Best Parameters:", grid.best_params_)

Πραγματικά παραδείγματα έργων

  1. Ανάλυση πωλήσεων: Προβλεπτικά μοντέλα για forecasting εσόδων

  2. Ανίχνευση απάτης: Ταξινόμηση συναλλαγών σε κατηγορίες “απάτη”/“νόμιμη”

  3. Αναλύσεις στα μέσα κοινωνικής δικτύωσης: Συναισθηματική ανάλυση tweets με NLP

Κάθε έργο απαιτεί:

  • Φόρτωση & καθαρισμό δεδομένων (Pandas)

  • Εξερεύνηση δεδομένων (exploratory data analysis)

  • Κατασκευή μοντέλου (Scikit‑learn, TensorFlow)

  • Αξιολόγηση αποτελεσμάτων (metrics)


Συμπέρασμα & Επόμενα βήματα

Η Επιστήμη Δεδομένων με Python συνδυάζει την ευελιξία της γλώσσας Python, τη δύναμη του SQL για διαχείριση δεδομένων, τις δυνατότητες του Pandas για επεξεργασία και την τεχνογνωσία της μηχανικής μάθησης για τη δημιουργία έξυπνων εφαρμογών.

Επόμενα βήματα:

  1. Γεμίστε τα κενά με πρακτικά projects στον τομέα σας.

  2. Εμβαθύνετε σε βιβλιοθήκες όπως TensorFlow ή PyTorch.

  3. Παρακολουθήστε ένα ολοκληρωμένο bootcamp Data Science.


Εγγραφείτε στο Code Labs Academy

Εάν θέλετε να μάθετε επιστήμη δεδομένων σε βάθος και να χτίσετε portfolio projects, δείτε το Bootcamp Επιστήμης Δεδομένων μας. Ξεκινήστε σήμερα και αποκτήστε πιστοποίηση στον κλάδο που εξελίσσεται ραγδαία!