240 发简信
IP属地:广东
  • 这可能是最容易上手的文本分类工具

    之前在做文本分类时,发现在不同业务上的文本分类流程是一致的,即输入输出一致,故把此抽离出来形成一个基础工具,方便对数据有基础的感知和对算法有基本...

    1147 0 1 2019.12.27 03:35
  • Resize,w 360,h 240
    数据挖掘工程师Web开发修炼(1)---基于Flask的后端API搭建

    1、前言 简单API设计与制作是数据工程师必备的技能之一,同时相信数学科班出身的数据挖掘工程师在职业初期都会思考如何提高个人的工程性,所以数据挖...

    1007 0 4 2017.08.27 15:49
  • 数据预处理实战(1)

    目录 1. 前言2. 数据字典3. 优雅使用pandas3.1 读取数据3.2 索引与选取3.3 布尔索引3.4 去重3.5 分组3.6 数据框...

    2187 0 12 2017.04.04 05:23
  • Resize,w 360,h 240
    爬虫(4)--- 一起来爬广东高校快递信息

    目录1.“看不见”的数据2. 让数据现身2.1 数据API分析2.1.1 数据文件在哪里?2.1.2 guid(数据全局唯一标识符)在哪里?2....

    2766 7 24 1 2017.02.26 08:25
  • Resize,w 360,h 240
    Linux学习(2)---文件分割与合并

    目录 1. 前记2. 文件分割(split)2.1 命令语法2.2 使用实例(1)查看文件总行数(2)分割文件(3)分割结果3. 文件合并...

    4374 4 10 2017.02.22 03:30
  • Resize,w 360,h 240
    Python(3)---从迭代器到异步IO

    目录 1. 迭代(iteration)与迭代器(iterator)1.1 构建简单迭代器1.2 调用next()1.3 迭代器状态图2. 生...

    1126 0 8 2017.02.13 15:48
  • 爬虫(2)--- 构建简单代理IP池

    目录 1. 何为代理IP池?2. 代理IP池构建2.1 浏览器伪装2.2 代理IP爬取2.3 代理IP验证2.4 代理IP多进程验证2.5 函数...

    0.6 4136 6 39 2017.02.09 16:40
  • Python(2)---并发编程

    目录 1. Python多线程与多进程知识1.1 并发与并行1.2 线程(thread)与进程(process)1.3 IO密集型与CPU密集...

    0.1 2416 2 13 2017.02.09 15:45
个人介绍
一枚行走在数据科学路上的码农
乐于结识武林各派高手,喜欢尝试新鲜的事物,爱篆刻,爱篮球,爱健身。
目前关注NLP/机器学习/推荐系统等分支技术
个人网站:https://www.debugnlp.com/
他的文集