人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » 最新消息

基于 Python 对百度热搜 “Manus 推出引发科技圈震动” 的数据分析

2025-03-12 4

一、案例背景

二、代码实现

2.1 数据收集

2.2 数据探索性分析

2.3 数据清洗

2.4 关键词提取与词频统计

2.5 情感分析(简单示例,实际可采用更复杂模型)

2.6 数据可视化

三、主要的代码难点解析

3.1 数据收集

3.2 数据清洗 – 文本预处理

3.3 关键词提取与词频统计

3.4 情感分析

3.5 数据可视化

四、可能改进的代码

4.1 数据收集改进

4.2 文本预处理改进

4.3 关键词提取改进

4.4 情感分析改进

4.5 可视化改进

在近期的网络热搜中,“Manus 推出引发科技圈震动” 这一话题热度居高不下。2025 年 3 月 6 日,来自中国创业公司 Monica 的通用型 AI Agent 产品 Manus 正式对外发布,其在 GAIA 基准测试中取得了 SOTA 成绩,性能超越 OpenAI 同层次大模型,这一消息瞬间点燃了科技圈的热情。Manus 被称为全球首款真正意义上的通用 AI Agent,它不仅能对话,更能将想法付诸实践,解决实际问题,如完成人力资源筛选简历、复杂购房筛选、旅行规划等任务。本案例将运用 Python 对围绕 Manus 的网络舆情、市场反应等数据进行收集、分析与可视化,深入洞察这一新兴技术在社会各界引发的影响 。

import requests import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from wordcloud import WordCloud from sklearn.feature_extraction.text import TfidfVectorizer 
# 模拟请求科技新闻网站获取相关新闻数据 # 实际需注意网站的robots协议和版权问题 url = 'https://tech_example_website.com/search?q=Manus AI' response = requests.get(url) data = response.json() news_list = [] for item in data['articles']: news = { 'title': item['title'], 'content': item['content'], 'date': item['date'] } news_list.append(news) df = pd.DataFrame(news_list) 
print('数据基本信息:') df.info() # 查看数据集行数和列数 rows, columns = df.shape if rows < 1000: # 小数据集(行数少于1000)查看全量数据信息 print('数据全部内容信息:') print(df.to_csv(sep='\t', na_rep='nan')) else: # 大数据集查看数据前几行信息 print('数据前几行内容信息:') print(df.head().to_csv(sep='\t', na_rep='nan')) 
# 处理缺失值 df = df.dropna(subset=['title', 'content']) # 去除重复新闻 df = df.drop_duplicates(subset=['title', 'content']) # 文本预处理(去除标点符号、转换为小写等) import re def clean_text(text): text = re.sub(r'[^\w\s]', '', text) text = text.lower() return text df['clean_content'] = df['content'].apply(clean_text) 
from collections import Counter words = [] for content in df['clean_content']: word_list = content.split() words.extend(word_list) word_counter = Counter(words) top_words = word_counter.most_common(20) 
from textblob import TextBlob df['sentiment'] = df['clean_content'].apply(lambda x: TextBlob(x).sentiment.polarity) 
# 新闻发布时间分布 df['date'] = pd.to_datetime(df['date']) df.set_index('date', inplace=True) plt.figure(figsize=(10, 6)) df.resample('D').size().plot() plt.title('Manus相关新闻发布时间分布') plt.xlabel('日期') plt.

原文链接:https://blog.csdn.net/daqsdfas/article/details/146107937?ops_request_misc=%257B%2522request%255Fid%2522%253A%25223de406629c9b297bb1c9eba21213abbe%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=3de406629c9b297bb1c9eba21213abbe&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-22-146107937-null-null.nonecase&utm_term=manus

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部