Java爬取酷狗音乐歌单

            AHA

目录

前言

一、分析

二、构想实现

三、代码实现

1.引入jar包(使用工具来简化开发)

2.写入代码

         3.完成

总结


前言

最近表姐想让我帮她U盘下载几首车载音乐,感觉挺简单的,直接打开谷歌浏览器搜索酷狗音乐(表姐要的歌单是酷狗),播放一首歌页面跳转到播放器,然后老规矩F12+Ctrl+F搜索audio标签得到src链接,点进去就能下载了,可是她要的可不止一首啊,要整个歌单,那只能采用爬虫来获取我们想要的东西了。


一、分析

爬虫之前我们需要熟悉爬虫的基本流程:

        1.发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息。

        2.获取响应内容:如果服务器正常响应,那我们将会收到一个response,response即为我们所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。

        3.解析内容:如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件进行进一步处理。

        4.保存数据:可以保存到本地文件,也可以保存到数据库


附上歌单链接:https://www.kugou.com/yy/special/single/3337103.html


        首先我们要的是歌单里面的每一首歌曲,从上面可以发现每一首歌都有一个a标签,而且这个a标签都有一个data值,而href指向的不是一个具体的地址,所以可以判定的采用JS代码控制来跳转的,再看看下面的图片是新跳转的播放器页面的URL,可知每一首歌对应的hash的值和歌单页面的歌曲a标签的data值一致,这就可以知道hash了,但是这个album_id是怎么来的呢?

        我们再点开一首歌曲,可以看出变化的只是hashalbum_id


        也就是说这个hashalbum_id是从歌单页面跳转到播放页面的,那要找这个album_id也得从歌单页面找,作者在歌单页面里的JS文件找到了album_id的出处,其实在页面加载时就已经从后端接口请求这个歌单的所有歌曲信息,后来找到了这个data变量藏在了head标签里

 

         光有这些参数其实还不行,还得找到对应的后端请求接口,就像水管漏水了,空有一身修水管的功夫但是找不到哪个地方漏水也是虚劳的。因为我们的点击音乐会跳到播放页面,所以可以断定获取歌曲的请求是在播放页面上的,我们简单地抓一下包,打开F12,点击NetworkCtrl+R键刷新一下(因为页面在我们调试器打开之前就已经加载好了),一堆数据包我们只要其中的JS或者PHP文件,最终我们找到了我们的请求接口。

        而这个接口里面变化的只有hashalbum_id,所以我们可以拿取歌单的data变量里的hashalbum_id去请求这个接口获取我们要的数据了

        打开这个接口,往下翻可以找到这个资源就是我们要下载的东西 


二、构想实现

        每一个程序的功能的诞生离不开程序猿(媛)们的奇妙构想,所以我们也得先把总的实现思路构建起来才来进行下一步。

        1.获取歌单所有的hashalbum_id值。    既然我们要的是歌单所有的歌曲,而歌曲的获取唯一判别他们的可不是歌名,就像你的名字叫张三,他的名字也叫张三,那要是他犯法了抓不到,抓到了你这个张三那肯定不行,所以歌曲也一样,不能以歌名区分,只能用album_id来区分,和身份证号是一个道理,那我们就可以先获取歌单页的data变量,再把他们储存起来,匹配的话我们统一采用正则表达式。

        2.接口地址拼接hashalbum_id。   我们将获取到的歌曲请求接口按照我们匹配出来的hashalbum_id拼接起来再去请求就能得到我们所要的数据。

        3.下载到本地。   到了这一步已经是完成了,借助JavaIO流把数据传输到本地文件或者数据库上。(这边是准备上传到U盘里面所以就没必要放入数据库了)

三、代码实现

1.引入jar包(使用工具来简化开发)

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.13</version>
</dependency>

<dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.9.0</version>
</dependency>
        
<dependency>
    <groupId>com.fasterxml.jackson.core</groupId>
    <artifactId>jackson-databind</artifactId>
    <version>2.11.4</version>
</dependency>

        Jsoup:一款Java 的HTML解析器,它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

        HttpComponents:是专门设计来简化HTTP客户端与服务器进行各种通讯编程,主要是提供对http服务器的访问功能。

        Commons-io:使用Java原生的IO流操作比较繁琐,可以利用IO工具库来简化。

        Jackson:用来解析序列化和反序列化Json数据。

        关于上面的工具库不再赘述了,有兴趣的小伙伴可以自行了解

2.写入代码

/**
 * @author Ember
 */
public class SpiderKugou {

    /**
     * 1.歌曲的hash值 [正则匹配]
     * 2.歌曲的album_id [正则匹配]
     * 3.歌名 [正则匹配]
     * 4.歌曲下载地址 [正则匹配]
     * 5.unicode转中文 [正则匹配]
     */
    private static final String hashRegex = ",\"hash\":\"(.*?)\",\"brief\":";
    private static final String albumIdRegex = "\"album_id\":(.*?),\"hash\"";
    private static final String audioNameRegex = "\"audio_name\":\"(.*?)\",\"have_album\"";
    private static final String playUrlRegex = "\"play_url\":\"(.*?)\",\"authors\":";
    private static final String unicodeRegex = "(\\\\u(\\p{XDigit}{4}))";

    private static String baseUrl = "https://www.kugou.com/yy/special/single/3953033.html";
    private static String downloadSrc = "E:/2021-8-8酷狗歌曲/download/";

    public static void main(String[] args) throws Exception {
        System.out.println("下载中...");
        parameter(baseUrl);
        System.out.println("歌单下载已完成!");
    }

    /**
     * 爬取歌单的每一首歌曲
     * @param baseUrl 酷狗歌单链接地址
     * @throws Exception
     */
    public static void parameter(String baseUrl) throws Exception {
        //JSON工具
        ObjectMapper mapper = new ObjectMapper();
        //获取歌单的Document
        Document musicList = Jsoup.connect(baseUrl).get();
        //正则表达式匹配出歌单所有hash和album_id对应的值
        List<String> musicHash = myRegexpList(musicList.toString(), hashRegex);
        List<String> musicId = myRegexpList(musicList.toString(), albumIdRegex);
        for (int i = 0;i < musicId.size();i++) {
            //调出歌单每首歌的接口
            String mp3 = "https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jQuery191043744424319789976_1628418579111" +
                    "&hash="+musicHash.get(i)+"&dfid=08yAMj3R2Rtq2vHAnv0NSCKV&mid=94bf13b027c6ce8289bdfa422f5e783e&platid=4" +
                    "&album_id="+musicId.get(i)+"&_=1628418579112";
            //获取歌曲的doc
            Document musicPlayer = parsUrl(mp3);
            //获取歌曲的歌名
            String unicodeName = myRegexpOne(musicPlayer.toString(), audioNameRegex);
            //将unicode编码的歌名转换为中文
            String musicName= unicodeToString(unicodeName);
            //将接口的数据转为JSON对象
            String mp3Doc = mapper.writeValueAsString(musicPlayer.body().text());
            //转JSON有反斜杠,将反斜杠替换掉即可
            mp3Doc = mp3Doc.replaceAll("\\\\", "");
            //得到歌曲下载地址
            String playUrl = myRegexpOne(mp3Doc, playUrlRegex);
            //下载
            downLoadMusic(playUrl,musicName);
            System.out.println((i+1) + "--->【" + musicName + "】 >ω< 下载完成");
            Thread.sleep(1000);
        }
    }

public static void downLoadMusic(String musicUrl,String musicName){
        try {
            System.out.println("\n" + musicName + "源地址->" + musicUrl);
            Connection.Response response = Jsoup.connect(musicUrl)
                    //忽略ContentType
                    .ignoreContentType(true)
                    //解除最大字节限制
                    .maxBodySize(0)
                    //模拟浏览器用户代理
                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
                    //执行
                    .execute();
            ByteArrayInputStream stream = new ByteArrayInputStream(response.bodyAsBytes());
            FileUtils.copyInputStreamToFile(stream,new File(downloadSrc + musicName + ".mp3"));
        } catch (Exception e) {
            System.out.println("链接->"+musicUrl+" >﹏< 下载失败");
            e.printStackTrace();
        }
    }

    /**
     * 获取Doc工具类
     * @param url
     * @return
     * @throws Exception
     */
    public static Document parsUrl(String url) throws Exception {
        try {
            Document document = Jsoup.connect(url)
                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
                    .timeout(2000)
                    .get();
            return document;
        }catch (Exception e){
            e.printStackTrace();
            return null;
        }
    }

    /**
     * 正则匹配字符串集合工具类
     * @param str
     * @param keyWords
     * @return
     */
    public static List<String> myRegexpList(String str,String keyWords){
        List<String> list = new ArrayList<>();
        Pattern compile = compile(keyWords);
        Matcher matcher = compile.matcher(str);
        while (matcher.find()) {
            list.add(matcher.group(1));
        }
        return list;
    }

    /**
     * 正则匹配单个字符串工具类
     * @param str
     * @param keyWords
     * @return
     */
    public static String myRegexpOne(String str,String keyWords){
        String result = "";
        Pattern compile = compile(keyWords);
        Matcher matcher = compile.matcher(str);
        while (matcher.find()) {
            result = matcher.group(1);
        }
        return result;
    }

    /**
     * unicode转码中文字符
     * @param str
     * @return
     */
    public static String unicodeToString(String str) {
        Pattern pattern = compile(unicodeRegex);
        Matcher matcher = pattern.matcher(str);
        char ch;
        while (matcher.find()) {
            ch = (char) Integer.parseInt(matcher.group(2), 16);
            str = str.replace(matcher.group(1), ch+"" );
        }
        return str;
    }
}

3.完成

 

        可以看到我们下载成功了


 

总结

        为什么使用Java爬虫来抓取酷狗资源呢,一个是目前大多都是Python教程,Java爬取酷狗比较少,也有一些小伙伴可能只接触到Java这门编程语言或者就没接触Python的,想要了解了解如何使用Java进行抓取。二是作者也是刚接触到Java爬虫,Python并没了解过,但Java和Python都能做到相同的东西,只是工程量的事,还有表姐突如其来的要求也让我萌生了使用Java练手一下。
        以上就是今天要讲的内容,本文仅仅简单介绍了Java如何爬取网页数据的使用,还有如何使用第三方类库更加方便地进行开发。有需要的小伙伴可供参考,如果觉得本文对你有一定的帮助的话不妨帮我点个赞,收藏一下~感谢!

热门文章

暂无图片
编程学习 ·

exe4j详细使用教程(附下载安装链接)

一、exe4j介绍 ​ exe4j是一个帮助你集成Java应用程序到Windows操作环境的java可执行文件生成工具&#xff0c;无论这些应用是用于服务器&#xff0c;还是图形用户界面&#xff08;GUI&#xff09;或命令行的应用程序。如果你想在任务管理器中及Windows XP分组的用户友好任务栏…
暂无图片
编程学习 ·

AUTOSAR从入门到精通100讲(126)-浅谈车载充电系统通信方案

01 引言 本文深入研究车载充电系统策略,设计出一套基于电动汽车电池管理系统与车载充电机的CAN通信协议,可供电动汽车设计人员参考借鉴。 02 电动汽车充电系统通讯网络 电动汽车整车控制系统中采用的是CAN总线通信方式,由一个整车内部高速CAN网络、内部低速CAN网络和一个充电…
暂无图片
编程学习 ·

CMake(九):生成器表达式

当运行CMake时&#xff0c;开发人员倾向于认为它是一个简单的步骤&#xff0c;需要读取项目的CMakeLists.txt文件&#xff0c;并生成相关的特定于生成器的项目文件集(例如Visual Studio解决方案和项目文件&#xff0c;Xcode项目&#xff0c;Unix Makefiles或Ninja输入文件)。然…
暂无图片
编程学习 ·

47.第十章 网络协议和管理配置 -- 网络配置(八)

4.3.3 route 命令 路由表管理命令 路由表主要构成: Destination: 目标网络ID,表示可以到达的目标网络ID,0.0.0.0/0 表示所有未知网络,又称为默认路由,优先级最低Genmask:目标网络对应的netmaskIface: 到达对应网络,应该从当前主机哪个网卡发送出来Gateway: 到达非直连的网络,…
暂无图片
编程学习 ·

元宇宙技术基础

请看图&#xff1a; 1、通过AR、VR等交互技术提升游戏的沉浸感 回顾游戏的发展历程&#xff0c;沉浸感的提升一直是技术突破的主要方向。从《愤怒的小鸟》到CSGO,游戏建模方式从2D到3D的提升使游戏中的物体呈现立体感。玩家在游戏中可以只有切换视角&#xff0c;进而提升沉浸…
暂无图片
编程学习 ·

flink的伪分布式搭建

一 flink的伪分布式搭建 1.1 执行架构图 1.Flink程序需要提交给 Job Client2.Job Client将作业提交给 Job Manager3.Job Manager负责协调资源分配和作业执行。 资源分配完成后&#xff0c;任务将提交给相应的 Task Manage。4.Task Manager启动一个线程以开始执行。Task Manage…
暂无图片
编程学习 ·

十进制正整数与二进制字符串的转换(C++)

Function one&#xff1a; //十进制数字转成二进制字符串 string Binary(int x) {string s "";while(x){if(x % 2 0) s 0 s;else s 1 s;x / 2;}return s; } Function two&#xff1a; //二进制字符串变为十进制数字 int Decimal(string s) {int num 0, …
暂无图片
编程学习 ·

[含lw+源码等]微信小程序校园辩论管理平台+后台管理系统[包运行成功]Java毕业设计计算机毕设

项目功能简介: 《微信小程序校园辩论管理平台后台管理系统》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序做的辩论管理前台和Java做的后台管理系统&#xff1a; 微信小程序——辩论管理前台涉及技术&#xff1a;WXML 和 WXS…
暂无图片
编程学习 ·

树莓派驱动DHT11温湿度传感器

1&#xff0c;直接使用python库 代码如下 import RPi.GPIO as GPIO import dht11 import time import datetimeGPIO.setwarnings(True) GPIO.setmode(GPIO.BCM)instance dht11.DHT11(pin14)try:while True:result instance.read()if result.is_valid():print(ok)print(&quo…
暂无图片
编程学习 ·

ELK简介

ELK简介 ELK是三个开源软件的缩写&#xff0c;Elasticsearch、Logstash、Kibana。它们都是开源软件。不过现在还新增了一个 Beats&#xff0c;它是一个轻量级的日志收集处理工具(Agent)&#xff0c;Beats 占用资源少&#xff0c;适合于在各个服务器上搜集日志后传输给 Logstas…
暂无图片
编程学习 ·

Linux 基础

通常大数据框架都部署在 Linux 服务器上&#xff0c;所以需要具备一定的 Linux 知识。Linux 书籍当中比较著名的是 《鸟哥私房菜》系列&#xff0c;这个系列很全面也很经典。但如果你希望能够快速地入门&#xff0c;这里推荐《Linux 就该这么学》&#xff0c;其网站上有免费的电…
暂无图片
编程学习 ·

Windows2022 无线网卡装不上驱动

想来 Windows2022 和 windows10/11 的驱动应该差不多通用的&#xff0c;但是死活装不上呢&#xff1f; 搜一下&#xff0c;有人提到 “默认安装时‘无线LAN服务’是关闭的&#xff0c;如果需要开启&#xff0c;只需要在“添加角色和功能”中&#xff0c;选择开启“无线LAN服务…
暂无图片
编程学习 ·

【嵌入式面试宝典】版本控制工具Git常用命令总结

目录 创建仓库 查看信息 版本回退 版本检出 远程库 Git 创建仓库 git initgit add <file> 可反复多次使用&#xff0c;添加多个文件git commit -m <message> 查看信息 git status 仓库当前的状态git diff 差异对比git log 历史记录&#xff0c;提交日志--pret…
暂无图片
编程学习 ·

用Postman生成测试报告

newman newman是一款基于nodejs开发的可以运行postman脚本的工具&#xff0c;使用Newman&#xff0c;可以直接从命令运行和测试postman集合。 安装nodejs 下载地址&#xff1a;https://nodejs.org/en/download/ 选择自己系统相对应的版本内容进行下载&#xff0c;然后傻瓜式安…
暂无图片
编程学习 ·

Java面向对象之多态、向上转型和向下转型

文章目录前言一、多态二、引用类型之间的转换Ⅰ.向上转型Ⅱ.向下转型总结前言 今天继续Java面向对象的学习&#xff0c;学习面向对象的第三大特征&#xff1a;多态&#xff0c;了解多态的意义&#xff0c;以及两种引用类型之间的转换&#xff1a;向上转型、向下转型。  希望能…