Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych | Zendy

Daniel Borysowski | Zendy

Open Access

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Author(s) -

Daniel Borysowski

Publication year - 2021

Publication title -

prace językoznawcze

Language(s) - Polish

Resource type - Journals

eISSN - 2450-0801

pISSN - 1509-5304

DOI - 10.31648/pj.6838

Subject(s) - theology , physics , philosophy

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych.Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlinguw odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestiistrukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawieniewybranych aspektów analizy danych strukturyzowanych w ten sposób. Autorrozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikującychi charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcjize stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarzamożliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej(dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywyuwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonegomateriału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytychz tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Accelerating Research