Text Preprocessing

Murugan Anandarajan; Chelsey Hill; Thomas Nolan

doi:10.1007/978-3-319-95663-3_4

Back

Book chapter

Text Preprocessing

Murugan Anandarajan, Chelsey Hill and Thomas Nolan

Practical Text Analytics, pp 45-59

20 Oct 2018

DOI: https://doi.org/10.1007/978-3-319-95663-3_4

Additional Links

Abstract

Lemmatization

n-grams

Natural language processing

POS tagging

Stemming

Stop words

Text parsing

Text preprocessing

Tokens

This chapter starts the process of preparing text data for analysis. This chapter introduces the choices that can be made to cleanse text data, including tokenizing, standardizing and cleaning, removing stop words, and stemming. The chapter also covers advanced topics in text preprocessing, such as n-grams, part-of-speech tagging, and custom dictionaries. The text preprocessing decisions influence the text document representation created for analysis.

Metrics

35 Record Views

Details

Title: Text Preprocessing
Creators: Murugan Anandarajan
Chelsey Hill
Thomas Nolan
Publication Details: Practical Text Analytics, pp 45-59
Series: Advances in Analytics and Data Science
Publisher: Springer International Publishing; Cham
Resource Type: Book chapter
Language: English
Academic Unit: Decision Sciences (and Management Information Systems); Bennett S. LeBow College of Business; Television (and Media) Management; Drexel University
Other Identifier: 991019551544304721

Text Preprocessing

Additional Links

Abstract

Metrics

Details

Drexel University Social media