Ανάκτηση Πληροφορίας (ΤΒ2)


Διδάσκων/ουσα: Καναβός Ανδρέας, Παλαμάς Στέργιος
Κωδικός: HY330
Τύπος Μαθήματος: Μάθημα Επιλογής
Επίπεδο Μαθήματος: Προπτυχιακό
Γλώσσα Μαθήματος: Ελληνικά
Τρόπος Παράδοσης: Στην τάξη
Εξάμηνο: ΣΤ΄
ECTS: 5
Διδακτικές Μονάδες: 3
Ώρες Διάλεξης: 2
Ώρες Εργαστηρίου/Φροντιστηρίου: 2Ε
Σύνολο Ωρών: 4
Σελίδα E Class: https://opencourses.ionio.gr/courses/DDI176/
Προγράμματα Σπουδών: Αναμορφωμένο ΠΠΣ Πληροφορικής από 2025
Σύντομη Περιγραφή:

Το μάθημα «Ανάκτηση Πληροφορίας» εισάγει τους φοιτητές στις θεωρητικές αρχές και πρακτικές τεχνικές της αναζήτησης και φιλτραρίσματος πληροφορίας σε μεγάλα σώματα δεδομένων, με έμφαση σε κείμενο.

Εξετάζονται βασικά μοντέλα ανάκτησης (Boolean, διανυσματικό, πιθανοκρατικό/ probabilistic), τεχνικές ευρετηρίασης, επεξεργασίας φυσικής γλώσσας και αξιολόγησης συστημάτων.

Παράλληλα, το μάθημα εμπλουτίζεται με πρακτικά εργαστήρια σε Python χρησιμοποιώντας τη βιβλιοθήκη NLTK, μέσω των οποίων οι φοιτητές αναπτύσσουν και αξιολογούν βασικά υποσυστήματα μηχανών αναζήτησης, αποκτώντας εμπειρία σε πραγματικά δεδομένα κειμένου και εργαλεία NLP.

Αντικειμενικοί Στόχοι - Επιδιωκόμενα Μαθησιακά Αποτελέσματα:

Μαθησιακοί στόχοι:

Με την ολοκλήρωση του μαθήματος, οι φοιτητές θα:

  1. Κατανοούν τις βασικές αρχές, μοντέλα και τεχνικές της Ανάκτησης Πληροφορίας.
  2. Αξιολογούν την αποτελεσματικότητα συστημάτων ανάκτησης.
  3. Εφαρμόζουν θεωρητικές έννοιες στην πράξη, υλοποιώντας βασικά υποσυστήματα σε Python/NLTK.
  4. Αντιλαμβάνονται τη σύνδεση ΑΠ με το NLP και τη μηχανική μάθηση.

 

Μαθησιακά Αποτελέσματα :

Οι φοιτητές θα είναι σε θέση να:

  1. Περιγράφουν τις βασικές δομές και λειτουργίες ενός συστήματος ανάκτησης πληροφορίας.
  2. Εφαρμόζουν τεχνικές προεπεξεργασίας κειμένου με Python/NLTK.
  3. Κατασκευάζουν αντίστροφα ευρετήρια (Inverted indexes) και εφαρμόζουν Boolean & vector space retrieval.
  4. Υλοποιούν μοντέλα ανάκτησης όπως TF-IDF και BM25.
  5. Αξιολογούν την απόδοση συστημάτων αναζήτησης με μετρικές όπως Precision/Recall/MAP.
  6. Συγκρίνουν διαφορετικά μοντέλα κατάταξης και feedback τεχνικές.
Περιεχόμενο (Syllabus):

Εβδομάδα 1 – Εισαγωγή στην Ανάκτηση Πληροφορίας

  • Ορισμός και στόχοι της Ανάκτησης Πληροφορίας (ΑΠ)
  • Εφαρμογές σε μηχανές αναζήτησης, ψηφιακές βιβλιοθήκες, Big Data
  • Διάκριση ανάμεσα σε ΑΠ και ανάκτηση δεδομένων
  • Εισαγωγή στις βασικές λειτουργίες ενός συστήματος ΑΠ

Εβδομάδα 2 – Boolean Μοντέλο & Αντιστροφή Ευρετηρίου

  • Λογικά queries (AND, OR, NOT)
  • Αναπαράσταση εγγράφων ως συνόλων όρων
  • Δημιουργία αντιστραμμένου ευρετηρίου (inverted index)
  • Βασικές λειτουργίες αναζήτησης με Boolean μοντέλο

Εβδομάδα 3 – Προεπεξεργασία Κειμένου

  • Κανονικοποίηση κειμένου (case folding, punctuation removal)
  • Tokenization (διαχωρισμός λέξεων)
  • Stop word removal
  • Stemming και Lemmatization
  • Εισαγωγή στο NLTK για αυτές τις διεργασίες

Εβδομάδα 4 – Διανυσματικό Μοντέλο Αναπαράστασης

  • Αναπαράσταση εγγράφων ως διανύσματα σε χώρο όρων
  • Ομοιότητα εγγράφου-ερωτήματος (cosine similarity)
  • Θεωρία βαρύτητας όρων (term weighting)
  • Πρακτική εφαρμογή TF, IDF και TF-IDF

Εβδομάδα 5 – Μέτρηση Απόδοσης Συστήματος ΑΠ

  • Precision, Recall, F-measure
  • Μέσοι όροι (MAP, MRR)
  • Καμπύλες Precision-Recall
  • Αξιολόγηση συστήματος με test queries και gold standards

Εβδομάδα 6 – Ανάδραση Συνάφειας και Επέκταση Ερωτημάτων

  • Relevance Feedback: Πώς το σύστημα "μαθαίνει" από τον χρήστη
  • Τεχνικές επέκτασης ερωτήματος (Query Expansion)
  • Αλγόριθμος Rocchio
  • Βελτίωση απόδοσης με χρήση feedback

Εβδομάδα 7 – Πιθανολογικά (Probabilistic) Μοντέλα Ανάκτησης

  • Θεωρία πιθανοτήτων στην ΑΠ
  • Βασική αρχή μέγιστης πιθανότητας (Probability Ranking Principle)
  • Εισαγωγή στο BM25 και σύγκριση με TF-IDF
  • Παραδείγματα εφαρμογής και υλοποίηση

Εβδομάδα 8 – Αποδοτική Ευρετηρίαση και Συμπίεση

  • Ανάγκη για αποδοτική αποθήκευση
  • Gap encoding
  • Variable byte encoding
  • Επιπτώσεις της συμπίεσης στις επιδόσεις αναζήτησης

Εβδομάδα 9 – Ανάκτηση Πληροφορίας στον Ιστό

  • Web crawling: αρχιτεκτονική και στρατηγικές
  • txt, polite crawling
  • Indexing και διαχείριση μεγάλης κλίμακας
  • Search engine architecture (harvesting, crawling, indexing, ranking)

Εβδομάδα 10 – Εξαγωγή Γλωσσικών και Σημασιολογικών Χαρακτηριστικών

  • Μέρη του λόγου (POS tagging)
  • Εντοπισμός οντοτήτων (Named Entity Recognition)
  • Λέξεις-κλειδιά και συνάφεια
  • Πρακτική εξάσκηση με NLTK

Εβδομάδα 11 – Αλγόριθμοι Κατάταξης Βασισμένοι σε Συνδέσμους

  • Χρήση υπερσυνδέσμων για κατάταξη
  • Αλγόριθμος PageRank
  • Εισαγωγή στον αλγόριθμο HITS
  • Αναπαράσταση ιστοσελίδων ως γράφοι και εφαρμογή ranking

Εβδομάδα 12 – Μηχανική Μάθηση στην Ανάκτηση Πληροφορίας

  • Εφαρμογή ταξινομητών για κατηγοριοποίηση εγγράφων
  • Text classification με Naive Bayes
  • Feature extraction από κείμενα
  • Εκπαίδευση και αξιολόγηση μοντέλου με Python/NLTK

Εβδομάδα 13 – Επισκόπηση, Εφαρμογές και Παρουσίαση Project

  • Επανεξέταση βασικών εννοιών
  • Σύγχρονες τάσεις: NLP, semantic search, LLMs
  • Παρουσιάσεις φοιτητικών εργασιών
  • Συζήτηση αξιολόγησης και ανατροφοδότησης
Συνιστώμενη βιβλιογραφία προς μελέτη:

An Introduction to Information Retrieval , Christopher D. Manning, Prabhakar Raghavan,Hinrich Schütze, Cambridge University Press, 2009

Εισαγωγή στην ανάκτηση πληροφοριών, Christopher D. Manning, Prabhakar Raghavan,Hinrich Schütze, Εκδόσεις Κλειδάριθμος, 2012

Ανάκτηση Πληροφορίας (2η έκδοση), Baeza-Yates R.,  Ribeiro-Neto B., Εκδόσεις Τζιόλα, 2014

Natural Language Processing with Python, Steven Bird, Ewan Klein, and Edward Loper, O'Reilly Media, 2009

Ανάκτηση Πληροφορίας, Παπαδόπουλος Α. , Μανωλόπουλος Ι., Τσίχλας Κ. , Ανοικτές Ακαδημαϊκές Εκδόσεις Κάλλιπος,  2015

Διδακτικές και μαθησιακές μέθοδοι:

ΤΡΟΠΟΣ ΠΑΡΑΔΟΣΗΣ: Στην τάξη και σε εργαστήριο Η/Υ 

Δραστηριότητα

Φόρτος Εργασίας Εξαμήνου

Θεωρητικές Διαλέξεις

30

Εργαστηριακές Διαλέξεις

30

Εκπόνηση Εργασιών

25

Αυτοτελής Μελέτη

40

Σύνολο Μαθήματος (25 ώρες φόρτου ανά πιστωτική μονάδα))

125

Χρηση Τεχνολογιών Πληροφορίας και Επικοινωνίας:

Χρήση Ηλεκτρονικών Εποπτικών μέσων , Εργαστηρίου Η/Υ, υποστήριξη μέσω πλατφόρμας ασύγχρονης τηλεκπαίδευσης και διαχείρισης τάξης, χρήση εξειδικευμένου λογισμικού σε εργαστηριακό περιβάλλον.

Μέθοδοι αξιολόγησης/βαθμολόγησης:

70% - Γραπτή Εξέταση

30% - Ατομικές & Ομαδικές Εργασίες


Επιστροφή

Σπουδές

Κτίριο Γραμματειών (Κτίριο 3) Πλατεία Τσιριγώτη 7 (πρώην Πλατεία Παλιού Ψυχιατρείου) Κέρκυρα, 49100 τηλ:26610 87760 / 87761 / 87763
e-mail: cs@ionio.gr
certification
<< <
Οκτώβριος 2025
> >>
Δε Τρ Τε Πε Πα Σα Κυ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Ανάγνωση ΚειμένουΑνάγνωση Κειμένου Αναγνωσιμότητα ΚειμένουΑναγνωσιμότητα Κειμένου Αντίθεση ΧρωμάτωνΑντίθεση Χρωμάτων
Επιλογές Προσβασιμότητας