Bienvenue sur Scribd !

Ignorer le carrousel

Data Science Assignment No. 2 - Text Analysis and Word Frequency

Transféré par

Ashish

0% ont trouvé ce document utile (0 vote)

3 vues5 pages

Data Science _ to download data from webpage and performing few basic operations in Python

Titre original

Assgn_2_rev01

Copyright

Formats disponibles

DOCX, PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Data Science _ to download data from webpage and performing few basic operations in Python

Droits d'auteur :

Formats disponibles

Téléchargez comme DOCX, PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

3 vues5 pages

Data Science Assignment No. 2 - Text Analysis and Word Frequency

Transféré par

Ashish

Data Science _ to download data from webpage and performing few basic operations in Python

Droits d'auteur :

Formats disponibles

Téléchargez comme DOCX, PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 5

Rechercher à l'intérieur du document

Data Science 1: Assignment No.

2
Date: Sept 26, 2016

By,
Ashish Menkudale
UIN: 656130575
amenku2@uic.edu

import timeit
import numpy as np
import pandas as pd
import bs4
import requests
from bs4 import BeautifulSoup

start = timeit.default_timer()
#timer started

import urllib2
data = urllib2.urlopen("https://archive.org/stream/ataleoftwocities00098gut/98.txt")
l = []
str = ''
for line in data.readlines():
l.append(line)
str = '\n'.join(l)

print str
# got all the text here

import lxml.html
import re, htmlentitydefs
filtered_str = re.sub('<[^<]+?>', '', str)
print filtered_str
# cleared html tags

import re

removed_punct = re.sub(r'[^\w\s]','',filtered_str)
print removed_punct
#removed punctuation over here
stopwords = ['had', 'has' ,'your' ,'you' ,'with' ,'i' ,'his', 'she', 'he', 'are' ,
'not' ,'the' ,'a','was','an','and','of','at','on','over','under','to',
'from','what','if','else','also','in','is','it','by','this','that','his',
'have','be', 'as', 'were', 'for', 'so', 'him', 'her', 'but', 'she', 'or',
'no', 'will', 'my', 'up', 'its', 'there', 'away', 'me', 'we' , 'they', 'only',
'too', 'down', 'upon', 'into', 'their', 'here', 'could', 'would', 'been',
'after', 'us','1','2','3','4','5','6','7','8','9','0']
querywords = removed_punct.split()
resultwords = [word for word in querywords if word.lower() not in stopwords]
result = ' '.join(resultwords)
print result
#removed the common occurrences

list = reduce(lambda d, c: d.update([(c, d.get(c,0)+1)]) or d, result.split(), {})

sorted_list = list.items()
sorted_list.sort(key = lambda item: item[1])
for word in sorted_list:
print word
# got the frequency and sorted it over here

wordList = re.sub("[^\w]", " ", result).split()

print wordlist
# changed the datatype over here

from collections import Counter

import numpy as np

import matplotlib.pyplot as plt

word_counts = Counter(wordList)
def plot_bar_from_counter(counter, ax=None):

if ax is None:
fig = plt.figure()
ax = fig.add_subplot(111)
frequencies = counter.values()
names = counter.keys()
x_coordinates = np.arange(len(counter))
ax.bar(x_coordinates, frequencies, align='center')
ax.xaxis.set_major_locator(plt.FixedLocator(x_coordinates))
ax.xaxis.set_major_formatter(plt.FixedFormatter(names))
return ax

plot_bar_from_counter(word_counts)
plt.show()
# plotted histogram

print timeit.default_timer()-start
# got the time

6.86172139321

Vous aimerez peut-être aussi

Data Structures Lab Manual
Document41 pages
Data Structures Lab Manual
rakshajain287
Pas encore d'évaluation
Ossem 5
Document102 pages
Ossem 5
Sandipa Shinde
Pas encore d'évaluation
TYBCS Java Slips Solution 2022
Document82 pages
TYBCS Java Slips Solution 2022
payalwani73
Pas encore d'évaluation
Python Note 3
Document11 pages
Python Note 3
Coding Knowledge
Pas encore d'évaluation
Machine Learning Algorithms PDF
Document148 pages
Machine Learning Algorithms PDF
jeff omanga
Pas encore d'évaluation
Mitu21btcs0616 - Siri Rao - Assignment 8
Document3 pages
Mitu21btcs0616 - Siri Rao - Assignment 8
Shubham Pal
Pas encore d'évaluation
Practical File Python
Document25 pages
Practical File Python
kaizenpro01
Pas encore d'évaluation
Computer Science Project For Class 12th
Document84 pages
Computer Science Project For Class 12th
mohsin
0% (1)
Aryaman Sharma (20bcs4206)
Document7 pages
Aryaman Sharma (20bcs4206)
Aryaman Sharma
Pas encore d'évaluation
Subjective Portion: Name: Ehtisham Haider
Document7 pages
Subjective Portion: Name: Ehtisham Haider
zohaib idrees
Pas encore d'évaluation
C++ PROGRAMS TO MANIPULATE FILES & STRINGS
Document15 pages
C++ PROGRAMS TO MANIPULATE FILES & STRINGS
bennysatinder
Pas encore d'évaluation
Assignment1 DSA
Document23 pages
Assignment1 DSA
Shivam
Pas encore d'évaluation
Ids Asgn-1
Document15 pages
Ids Asgn-1
RAUSHAN KUMAR
Pas encore d'évaluation
Java Script
Document14 pages
Java Script
Ansu Man
Pas encore d'évaluation
DS LAB Data Structure Practical File
Document16 pages
DS LAB Data Structure Practical File
Rohit Arora
Pas encore d'évaluation
Aman
Document3 pages
Aman
Sajan Kumar Singh
Pas encore d'évaluation
Shell Scripts and Unix Commands
Document8 pages
Shell Scripts and Unix Commands
sandeep
Pas encore d'évaluation
Week 4 Assignment: Functionality 4
Document7 pages
Week 4 Assignment: Functionality 4
Myca Ladrillo Veraye
Pas encore d'évaluation
Design and Analysis of Algorithms Laboratory Manual-15CSL47 4 Semester CSE Department, CIT-Mandya Cbcs Scheme
Document30 pages
Design and Analysis of Algorithms Laboratory Manual-15CSL47 4 Semester CSE Department, CIT-Mandya Cbcs Scheme
sachu195
100% (1)
PIC-CT-2-QB-Solutions-By-Th3_
Document12 pages
PIC-CT-2-QB-Solutions-By-Th3_
th3noob8389
Pas encore d'évaluation
Python Odt
Document11 pages
Python Odt
Miguel Clovis Kam
Pas encore d'évaluation
Bhayani Nirav
Document86 pages
Bhayani Nirav
GOPANI PARTH
Pas encore d'évaluation
Data Structures & System Programming Lab File
Document29 pages
Data Structures & System Programming Lab File
Cutie
0% (1)
Pointers Pointers To Arrays Storing Elements in A Array Using Pointer
Document13 pages
Pointers Pointers To Arrays Storing Elements in A Array Using Pointer
karri maheswar
Pas encore d'évaluation
Ada File Tina
Document23 pages
Ada File Tina
tina mittal
Pas encore d'évaluation
IR - 754 All Practical
Document21 pages
IR - 754 All Practical
754Durgesh Vishwakarma
Pas encore d'évaluation
10 Pthread Examples
Document28 pages
10 Pthread Examples
Madhu Sudhan
Pas encore d'évaluation
Mumbai Educational Trust: MET Institute of Computer Science
Document11 pages
Mumbai Educational Trust: MET Institute of Computer Science
Sarika Singh
Pas encore d'évaluation
Java Practicals
Document8 pages
Java Practicals
mehaksamra777
Pas encore d'évaluation
CSE-310 Lab Report 01 Sorting Array FCFS Algorithm
Document10 pages
CSE-310 Lab Report 01 Sorting Array FCFS Algorithm
MD Shariful Islam181182
Pas encore d'évaluation
Pattern Recognition Lab
Document24 pages
Pattern Recognition Lab
Prashant Kumar
Pas encore d'évaluation
Aditya 4
Document13 pages
Aditya 4
saksham arora
Pas encore d'évaluation
FCFS, SSTF & C-Look Disk Scheduling Algorithms
Document38 pages
FCFS, SSTF & C-Look Disk Scheduling Algorithms
Anjali Pokhrel
Pas encore d'évaluation
MCSE-102 & MCSE-104 Lab File Experiments
Document35 pages
MCSE-102 & MCSE-104 Lab File Experiments
rajneesh pachouri
Pas encore d'évaluation
Python GTU Study Material E-Notes 3 16012021061619AM
Document36 pages
Python GTU Study Material E-Notes 3 16012021061619AM
Zainab Khatri
Pas encore d'évaluation
Latihan Array 2 Dimensi
Document4 pages
Latihan Array 2 Dimensi
Frutang
Pas encore d'évaluation
Program - 1:: Lab - Data Structure Using C
Document50 pages
Program - 1:: Lab - Data Structure Using C
eshmnash9298
Pas encore d'évaluation
Computer
Document18 pages
Computer
Chandan Patra
Pas encore d'évaluation
C++ Standard Library Functions
Document3 pages
C++ Standard Library Functions
Rachna Anand
Pas encore d'évaluation
Java Lab Record
Document74 pages
Java Lab Record
saketh bhargava
Pas encore d'évaluation
C++ Class Const Objects & Dynamic Memory
Document20 pages
C++ Class Const Objects & Dynamic Memory
Rupali Kaul
Pas encore d'évaluation
Linear Regression Python Sklearn Numpy P PDF
Document2 pages
Linear Regression Python Sklearn Numpy P PDF
Pranabesh Chatterjee
Pas encore d'évaluation
WAP for Strassen's Matrix Multiplication
Document38 pages
WAP for Strassen's Matrix Multiplication
Prince J Harsh
Pas encore d'évaluation
Angadi Institute of Technology and Management
Document34 pages
Angadi Institute of Technology and Management
ABHISHEK YAKKUNDI
Pas encore d'évaluation
BNMIT File Structure Lab Manual
Document106 pages
BNMIT File Structure Lab Manual
Amitkumar55555
75% (8)
Nada Andini Rahmah 20320246 2TB03
Document3 pages
Nada Andini Rahmah 20320246 2TB03
Nada Andini
Pas encore d'évaluation
OOP LAb 7
Document11 pages
OOP LAb 7
Adnan Ahmad
Pas encore d'évaluation
Ex (1b)
Document9 pages
Ex (1b)
harikumar2210451
Pas encore d'évaluation
C++ With Outputs
Document28 pages
C++ With Outputs
Austin Rebby
Pas encore d'évaluation
OS File67
Document78 pages
OS File67
Raj Nish
Pas encore d'évaluation
Dsa Lab
Document34 pages
Dsa Lab
judithcindhiya
Pas encore d'évaluation
Lab7 Hameed 211086
Document4 pages
Lab7 Hameed 211086
Abdul Moaid
Pas encore d'évaluation
CSE100 Wk11 Files
Document21 pages
CSE100 Wk11 Files
Razia Sultana Ankhy Student
Pas encore d'évaluation
Implementation of File System Calls
Document17 pages
Implementation of File System Calls
nisha kareem
Pas encore d'évaluation
The VTU Blogger: Data Structures Lab Programs
Document40 pages
The VTU Blogger: Data Structures Lab Programs
Rashmi Gangatkar
Pas encore d'évaluation
Vanshita PST Merged Organized
Document51 pages
Vanshita PST Merged Organized
Jitisha Gupta
Pas encore d'évaluation
Pandas
Document49 pages
Pandas
subodhaade2
Pas encore d'évaluation
Lab Manual Ds - 2021
Document57 pages
Lab Manual Ds - 2021
Priti Priti
Pas encore d'évaluation
Maharana Pratap College OF Technology: 4 Semester
Document61 pages
Maharana Pratap College OF Technology: 4 Semester
aman
Pas encore d'évaluation
Profound Python Data Science
D'Everand
Profound Python Data Science
Onder Teker
Pas encore d'évaluation