banner
Casa / Blog / Estrazione delle informazioni sui materiali tramite corpus generato automaticamente
Blog

Estrazione delle informazioni sui materiali tramite corpus generato automaticamente

Aug 15, 2023Aug 15, 2023

Dati scientifici volume 9, numero articolo: 401 (2022) Citare questo articolo

2603 accessi

1 Citazioni

1 Altmetrico

Dettagli sulle metriche

L'estrazione delle informazioni (IE) nell'elaborazione del linguaggio naturale (NLP) mira a estrarre informazioni strutturate da testo non strutturato per assistere un computer nella comprensione del linguaggio naturale. I metodi IE basati sull'apprendimento automatico apportano più intelligenza e possibilità, ma richiedono un corpus etichettato ampio e accurato. Nel campo della scienza dei materiali, fornire etichette affidabili è un compito laborioso che richiede l’impegno di molti professionisti. Per ridurre l'intervento manuale e generare automaticamente il corpus dei materiali durante l'IE, in questo lavoro proponiamo un framework IE semi-supervisionato per i materiali tramite un corpus generato automaticamente. Prendendo come esempio l'estrazione dei dati della superlega nel nostro lavoro precedente, il framework proposto utilizzando Snorkel etichetta automaticamente il corpus contenente i valori delle proprietà. Quindi viene adottata la rete Ordered Neurons-Long Short-Term Memory (ON-LSTM) per addestrare un modello di estrazione delle informazioni sul corpus generato. I risultati sperimentali mostrano che il punteggio F1 della temperatura solvus γ', della densità e della temperatura solidus delle superleghe sono rispettivamente 83,90%, 94,02%, 89,27%. Inoltre, conduciamo esperimenti simili su altri materiali, i risultati sperimentali mostrano che il quadro proposto è universale nel campo dei materiali.

L'elaborazione del linguaggio naturale (NLP) si concentra sulla comprensione da parte del computer della conoscenza del testo in modo che un computer possa analizzare ed elaborare il linguaggio naturale1. L'Information Extraction (IE) nella PNL è una delle tecnologie di text mining più importanti e mira a estrarre informazioni strutturate da testo non strutturato2. La letteratura scientifica nel campo dei materiali contiene un gran numero di dati affidabili, che promuovono la ricerca e lo sviluppo di materiali basati sui dati3,4,5. Affidarsi esclusivamente all’estrazione manuale umana6 richiede molto tempo. Pertanto, l’estrazione automatica dei dati di sostanze chimiche organiche e inorganiche da articoli nei campi della chimica e della scienza dei materiali ha acquisito senso utilizzando tecniche di PNL7,8,9,10,11.

Con lo sviluppo dell’apprendimento automatico e della PNL, la tecnologia IE si è sviluppata rapidamente6, in particolare nel campo della biologia e della medicina. Sunil et al. ha proposto che l'IE sia un processo di rilevamento e classificazione delle relazioni semantiche e ha utilizzato una rete neurale convoluzionale (CNN) per ottenere caratteristiche semantiche per estrarre le informazioni nel dominio biomedico12. Molti articoli hanno applicato modelli di deep learning per l’ottimizzazione delle funzionalità; per esempio, Xinbo et al. ha utilizzato campi casuali condizionali (CRF) per classificare le caratteristiche del contesto e ha utilizzato codificatori automatici e limitazioni di scarsità per risolvere il problema della sparsità delle parole13. Recentemente sono stati studiati anche altri sistemi IE alla ricerca di possibili informazioni con la memoria a breve termine (LSTM). Raghavendra et al. parole incorporate in LSTM bidirezionale e CRF. Hanno utilizzato una rete neurale ricorrente per ottenere caratteristiche e completare l'estrazione del concetto clinico14. Arshad et al. ha presentato un metodo LSTM per comprendere la grammatica della lingua e dedurre la relazione tra le parole15. Tuttavia, tutte le reti neurali di cui sopra richiedono un corpus etichettato ampio e accurato per addestrare la rete.

Sfortunatamente, ci sono relativamente pochi articoli su molti argomenti relativi ai materiali, come le superleghe, estraendo le informazioni richieste dall'articolo diventa un lavoro complicato. Nel nostro lavoro precedente11, abbiamo sviluppato una pipeline NLP per acquisire sia la composizione chimica che i dati sulle proprietà dalla letteratura scientifica sulle superleghe. Sono stati proposti un metodo NER (Named Entity Recognition) basato su regole e un algoritmo di estrazione euristico di relazioni multiple basato sulla distanza per la pipeline per superare lo svantaggio delle etichette limitate del corpus di addestramento e ottenere un'elevata precisione e un richiamo simultaneo. L'algoritmo IE proposto è un metodo basato su regole, mentre il metodo di apprendimento automatico è stato abbandonato dopo il confronto perché il corpus etichettato non era sufficiente per l'addestramento. È un compito laborioso che richiede l’impegno di molti professionisti se portato a termine solo dagli esseri umani. La strategia basata su regole è efficiente in tali condizioni ma senza la capacità di apprendere e aggiornarsi in modo indipendente. Pertanto, la generazione automatica di corpus nel dominio materiale, consentendo di ridurre l’intervento manuale, è necessaria per l’IE basata sull’apprendimento automatico, che renderà una realtà la lettura di documenti ed estrazione di set di dati da parte dei computer.