Ανάκτηση Πληροφορίας (ΤΒ2)
Διδάσκων/ουσα: Καναβός Ανδρέας, Παλαμάς Στέργιος
Κωδικός: HY330
Τύπος Μαθήματος: Μάθημα Επιλογής
Επίπεδο Μαθήματος: Προπτυχιακό
Γλώσσα Μαθήματος: Ελληνικά
Τρόπος Παράδοσης: Στην τάξη
Εξάμηνο: ΣΤ΄
ECTS: 5
Διδακτικές Μονάδες: 3
Ώρες Διάλεξης: 2
Ώρες Εργαστηρίου/Φροντιστηρίου: 2Ε
Σύνολο Ωρών: 4
Σελίδα E Class: https://opencourses.ionio.gr/courses/DDI176/
Προγράμματα Σπουδών: Αναμορφωμένο ΠΠΣ Πληροφορικής από 2025
Το μάθημα «Ανάκτηση Πληροφορίας» εισάγει τους φοιτητές στις θεωρητικές αρχές και πρακτικές τεχνικές της αναζήτησης και φιλτραρίσματος πληροφορίας σε μεγάλα σώματα δεδομένων, με έμφαση σε κείμενο.
Εξετάζονται βασικά μοντέλα ανάκτησης (Boolean, διανυσματικό, πιθανοκρατικό/ probabilistic), τεχνικές ευρετηρίασης, επεξεργασίας φυσικής γλώσσας και αξιολόγησης συστημάτων.
Παράλληλα, το μάθημα εμπλουτίζεται με πρακτικά εργαστήρια σε Python χρησιμοποιώντας τη βιβλιοθήκη NLTK, μέσω των οποίων οι φοιτητές αναπτύσσουν και αξιολογούν βασικά υποσυστήματα μηχανών αναζήτησης, αποκτώντας εμπειρία σε πραγματικά δεδομένα κειμένου και εργαλεία NLP.
Μαθησιακοί στόχοι:
Με την ολοκλήρωση του μαθήματος, οι φοιτητές θα:
- Κατανοούν τις βασικές αρχές, μοντέλα και τεχνικές της Ανάκτησης Πληροφορίας.
- Αξιολογούν την αποτελεσματικότητα συστημάτων ανάκτησης.
- Εφαρμόζουν θεωρητικές έννοιες στην πράξη, υλοποιώντας βασικά υποσυστήματα σε Python/NLTK.
- Αντιλαμβάνονται τη σύνδεση ΑΠ με το NLP και τη μηχανική μάθηση.
Μαθησιακά Αποτελέσματα :
Οι φοιτητές θα είναι σε θέση να:
- Περιγράφουν τις βασικές δομές και λειτουργίες ενός συστήματος ανάκτησης πληροφορίας.
- Εφαρμόζουν τεχνικές προεπεξεργασίας κειμένου με Python/NLTK.
- Κατασκευάζουν αντίστροφα ευρετήρια (Inverted indexes) και εφαρμόζουν Boolean & vector space retrieval.
- Υλοποιούν μοντέλα ανάκτησης όπως TF-IDF και BM25.
- Αξιολογούν την απόδοση συστημάτων αναζήτησης με μετρικές όπως Precision/Recall/MAP.
- Συγκρίνουν διαφορετικά μοντέλα κατάταξης και feedback τεχνικές.
Εβδομάδα 1 – Εισαγωγή στην Ανάκτηση Πληροφορίας
- Ορισμός και στόχοι της Ανάκτησης Πληροφορίας (ΑΠ)
- Εφαρμογές σε μηχανές αναζήτησης, ψηφιακές βιβλιοθήκες, Big Data
- Διάκριση ανάμεσα σε ΑΠ και ανάκτηση δεδομένων
- Εισαγωγή στις βασικές λειτουργίες ενός συστήματος ΑΠ
Εβδομάδα 2 – Boolean Μοντέλο & Αντιστροφή Ευρετηρίου
- Λογικά queries (AND, OR, NOT)
- Αναπαράσταση εγγράφων ως συνόλων όρων
- Δημιουργία αντιστραμμένου ευρετηρίου (inverted index)
- Βασικές λειτουργίες αναζήτησης με Boolean μοντέλο
Εβδομάδα 3 – Προεπεξεργασία Κειμένου
- Κανονικοποίηση κειμένου (case folding, punctuation removal)
- Tokenization (διαχωρισμός λέξεων)
- Stop word removal
- Stemming και Lemmatization
- Εισαγωγή στο NLTK για αυτές τις διεργασίες
Εβδομάδα 4 – Διανυσματικό Μοντέλο Αναπαράστασης
- Αναπαράσταση εγγράφων ως διανύσματα σε χώρο όρων
- Ομοιότητα εγγράφου-ερωτήματος (cosine similarity)
- Θεωρία βαρύτητας όρων (term weighting)
- Πρακτική εφαρμογή TF, IDF και TF-IDF
Εβδομάδα 5 – Μέτρηση Απόδοσης Συστήματος ΑΠ
- Precision, Recall, F-measure
- Μέσοι όροι (MAP, MRR)
- Καμπύλες Precision-Recall
- Αξιολόγηση συστήματος με test queries και gold standards
Εβδομάδα 6 – Ανάδραση Συνάφειας και Επέκταση Ερωτημάτων
- Relevance Feedback: Πώς το σύστημα "μαθαίνει" από τον χρήστη
- Τεχνικές επέκτασης ερωτήματος (Query Expansion)
- Αλγόριθμος Rocchio
- Βελτίωση απόδοσης με χρήση feedback
Εβδομάδα 7 – Πιθανολογικά (Probabilistic) Μοντέλα Ανάκτησης
- Θεωρία πιθανοτήτων στην ΑΠ
- Βασική αρχή μέγιστης πιθανότητας (Probability Ranking Principle)
- Εισαγωγή στο BM25 και σύγκριση με TF-IDF
- Παραδείγματα εφαρμογής και υλοποίηση
Εβδομάδα 8 – Αποδοτική Ευρετηρίαση και Συμπίεση
- Ανάγκη για αποδοτική αποθήκευση
- Gap encoding
- Variable byte encoding
- Επιπτώσεις της συμπίεσης στις επιδόσεις αναζήτησης
Εβδομάδα 9 – Ανάκτηση Πληροφορίας στον Ιστό
- Web crawling: αρχιτεκτονική και στρατηγικές
- txt, polite crawling
- Indexing και διαχείριση μεγάλης κλίμακας
- Search engine architecture (harvesting, crawling, indexing, ranking)
Εβδομάδα 10 – Εξαγωγή Γλωσσικών και Σημασιολογικών Χαρακτηριστικών
- Μέρη του λόγου (POS tagging)
- Εντοπισμός οντοτήτων (Named Entity Recognition)
- Λέξεις-κλειδιά και συνάφεια
- Πρακτική εξάσκηση με NLTK
Εβδομάδα 11 – Αλγόριθμοι Κατάταξης Βασισμένοι σε Συνδέσμους
- Χρήση υπερσυνδέσμων για κατάταξη
- Αλγόριθμος PageRank
- Εισαγωγή στον αλγόριθμο HITS
- Αναπαράσταση ιστοσελίδων ως γράφοι και εφαρμογή ranking
Εβδομάδα 12 – Μηχανική Μάθηση στην Ανάκτηση Πληροφορίας
- Εφαρμογή ταξινομητών για κατηγοριοποίηση εγγράφων
- Text classification με Naive Bayes
- Feature extraction από κείμενα
- Εκπαίδευση και αξιολόγηση μοντέλου με Python/NLTK
Εβδομάδα 13 – Επισκόπηση, Εφαρμογές και Παρουσίαση Project
- Επανεξέταση βασικών εννοιών
- Σύγχρονες τάσεις: NLP, semantic search, LLMs
- Παρουσιάσεις φοιτητικών εργασιών
- Συζήτηση αξιολόγησης και ανατροφοδότησης
An Introduction to Information Retrieval , Christopher D. Manning, Prabhakar Raghavan,Hinrich Schütze, Cambridge University Press, 2009
Εισαγωγή στην ανάκτηση πληροφοριών, Christopher D. Manning, Prabhakar Raghavan,Hinrich Schütze, Εκδόσεις Κλειδάριθμος, 2012
Ανάκτηση Πληροφορίας (2η έκδοση), Baeza-Yates R., Ribeiro-Neto B., Εκδόσεις Τζιόλα, 2014
Natural Language Processing with Python, Steven Bird, Ewan Klein, and Edward Loper, O'Reilly Media, 2009
Ανάκτηση Πληροφορίας, Παπαδόπουλος Α. , Μανωλόπουλος Ι., Τσίχλας Κ. , Ανοικτές Ακαδημαϊκές Εκδόσεις Κάλλιπος, 2015
ΤΡΟΠΟΣ ΠΑΡΑΔΟΣΗΣ: Στην τάξη και σε εργαστήριο Η/Υ
Δραστηριότητα |
Φόρτος Εργασίας Εξαμήνου |
Θεωρητικές Διαλέξεις |
30 |
Εργαστηριακές Διαλέξεις |
30 |
Εκπόνηση Εργασιών |
25 |
Αυτοτελής Μελέτη |
40 |
Σύνολο Μαθήματος (25 ώρες φόρτου ανά πιστωτική μονάδα)) |
125 |
Χρήση Ηλεκτρονικών Εποπτικών μέσων , Εργαστηρίου Η/Υ, υποστήριξη μέσω πλατφόρμας ασύγχρονης τηλεκπαίδευσης και διαχείρισης τάξης, χρήση εξειδικευμένου λογισμικού σε εργαστηριακό περιβάλλον.
70% - Γραπτή Εξέταση
30% - Ατομικές & Ομαδικές Εργασίες
Επιστροφή
Σπουδές
e-mail: cs@ionio.gr
<< | < | Οκτώβριος 2025 |
> | >> | ||
Δε | Τρ | Τε | Πε | Πα | Σα | Κυ |
1 |
2 |
3 |
4 |
5 |
||
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
31 |